The tetratricopeptide repeats (TPR)-like superfamily of proteins in Leishmania spp., as revealed by multi-relational data mining

Authors:
Michely C. Diniz;Ana Carolina L. Pacheco;Karen T. Girão;Fabiana F. Araujo;Cezar A. Walter;Diana M. Oliveira
Affiliations:
Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...;Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...;Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...;Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...;Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...;Núcleo Tarcisio Pimenta de Pesquisa Genômica e Bioinformática, NUGEN, Faculdade de Veterinária, Universidade Estadual do Ceara - UECE, Av. Paranjana, 1700, Campus do Itaperi, F ...
Venue:
Pattern Recognition Letters
Year:
2010

Citing 12
Cited 0

Selectivity estimation using probabilistic models

SIGMOD '01 Proceedings of the 2001 ACM SIGMOD international conference on Management of data
Computers and Intractability: A Guide to the Theory of NP-Completeness

Computers and Intractability: A Guide to the Theory of NP-Completeness
A Probabilistic Learning Approach to Whole-Genome Operon Prediction

Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology
Mining Association Rules in Multiple Relations

ILP '97 Proceedings of the 7th International Workshop on Inductive Logic Programming
Biological applications of multi-relational data mining

ACM SIGKDD Explorations Newsletter
TigrScan and GlimmerHMM: two open source ab initio eukaryotic gene-finders

Bioinformatics
PRL: A probabilistic relational language

Machine Learning
Modelling interaction sites in protein domains with interaction profile hidden Markov models

Bioinformatics
COBALT

Bioinformatics
Profile Comparer

Bioinformatics
Multi-relational Data Mining for Tetratricopeptide Repeats (TPR)-Like Superfamily Members in Leishmania spp.: Acting-by-Connecting Proteins

PRIB '08 Proceedings of the Third IAPR International Conference on Pattern Recognition in Bioinformatics
Learning probabilistic relational models

IJCAI'99 Proceedings of the 16th international joint conference on Artificial intelligence - Volume 2

Quantified Score

Hi-index	0.10

Visualization

Abstract

Protein sequence analysis tasks are multi-relational problems suitable for multi-relational data mining (MRDM). Proteins containing tetratricopeptide (TPR), pentatricopeptide (PPR) and half-a-TPR (HAT) repeats comprise the TPR-like superfamily in which we have applied MRDM methods (relational association rule discovery and probabilistic relational models) with hidden Markov models (HMMs) and Viterbi algorithm (VA) in genome databases of pathogenic protozoa Leishmania. Such integrated MRDM/HMM/VA approach seeks to capture as much model information as possible in the pattern matching heuristic, without resorting to more standard motif discovery methods (Pfam, SMART, SUPERFAMILY) and it has the advantage of incorporation of optimized profiles, score offsets and distribution to compute probability, as a more recently reported tool (TPRpred) in order to take in account the tendency of repeats to occur in tandem and to be widely distributed along the sequences. Here we compare such currently available resources with our approach (MRDM/HMM/VA) to highlight that the latter performs best into the TPR-like superfamily assignment and it might be applied to other sequence analysis problems in such a way that it contributes to tight-fit motif discoveries and a better probability that a given target sequence is, indeed, a target motif-containing protein.