Identification of N-Glycosylation Sites with Sequence and Structural Features Employing Random Forests

Authors:
Shreyas Karnik;Joydeep Mitra;Arunima Singh;B. D. Kulkarni;V. Sundarajan;V. K. Jayaraman
Affiliations:
Chemical Engineering and Process Development Division, National Chemical Laboratory, Pune, India 411008 and School of Informatics, Indiana University, Indianapolis, USA 46202;Chemical Engineering and Process Development Division, National Chemical Laboratory, Pune, India 411008;Chemical Engineering and Process Development Division, National Chemical Laboratory, Pune, India 411008;Chemical Engineering and Process Development Division, National Chemical Laboratory, Pune, India 411008;Center for Development of Advanced Computing, Pune University Campus, Pune, India 411007;Center for Development of Advanced Computing, Pune University Campus, Pune, India 411007
Venue:
PReMI '09 Proceedings of the 3rd International Conference on Pattern Recognition and Machine Intelligence
Year:
2009

Citing 2
Cited 0

Random Forests

Machine Learning
Pathway analysis using random forests classification and regression

Bioinformatics

Quantified Score

Hi-index	0.00

Visualization

Abstract

N-Glycosylation plays a very important role in various processes like quality control of proteins produced in ER, transport of proteins and in disease control.The experimental elucidation of N-Glycosylation sites is expensive and laborious process. In this work we build models for identification of potential N-Glycosylation sites in proteins based on sequence and structural features.The best model has cross validation accuracy rate of 72.81%.