Supervised learning approaches and feature selection - a case study in diabetes

Authors:
Yugowati Praharsi;Shaou-Gang Miaou;Hui-Ming Wee
Affiliations:
Department of Industrial and System Engineering, Chung Yuan Christian University, Chung Li, 32023, Taiwan/ Department of Information Technology, Satya Wacana Christian University, Salatiga, 50711, ...;Department of Electronic Engineering, Chung Yuan Christian University, Chung Li, 32023, Taiwan;Department of Industrial and System Engineering, Chung Yuan Christian University, No. 200, Chung Pei Rd., Chungli, 32023, Taiwan
Venue:
International Journal of Data Analysis Techniques and Strategies
Year:
2013

Citing 10
Cited 0

C4.5: programs for machine learning

C4.5: programs for machine learning
Support-Vector Networks

Machine Learning
Support vector domain description

Pattern Recognition Letters - Special issue on pattern recognition in practice VI
Pattern Classification (2nd Edition)

Pattern Classification (2nd Edition)
Support Vector Data Description

Machine Learning
Toward Integrating Feature Selection Algorithms for Classification and Clustering

IEEE Transactions on Knowledge and Data Engineering
A feature selection technique for generation of classification committees and its application to categorization of laryngeal images

Pattern Recognition
Evaluating industry performance using extracted RGR rules based on feature selection and rough sets classifier

Expert Systems with Applications: An International Journal
Face detection using kernel PCA and imbalanced SVM

ICNC'06 Proceedings of the Second international conference on Advances in Natural Computation - Volume Part I
Density-Induced Support Vector Data Description

IEEE Transactions on Neural Networks

Quantified Score

Hi-index	0.00

Visualization

Abstract

Data description and classification are important tasks in supervised learning. In this study, three supervised learning methods such as k-nearest neighbour k-NN, support vector data description SVDD and support vector machine SVM are considered because they do not suffer from the problem of introducing a new class. The data sample chosen is Pima Indians diabetes. The results show that feature selection based on mean information gain and a standard deviation threshold can be considered as a substitute for forward selection. This indicates that data variation using information gain is an important factor that must be considered in selecting feature subset. Finally, among eight candidate features, glucose level is the most prominent feature for diabetes detection in all classifiers and feature selection methods under consideration. Relevancy measurement in information gain can sort out the most important feature to the least significant one. It can be very useful in medical applications such as defining feature prioritisation for symptom recognition.