Model-based clustering of high-dimensional data: A review

Authors:
Charles Bouveyron;Camille Brunet-Saumard
Affiliations:
Laboratoire SAMM, EA 4543, Université Paris 1 Panthéon-Sorbonne, France;Laboratoire LAREMA, UMR CNRS 6093, Université d'Angers, France
Venue:
Computational Statistics & Data Analysis
Year:
2014

Citing 41
Cited 3

Introduction to statistical pattern recognition (2nd ed.)

Introduction to statistical pattern recognition (2nd ed.)
Regularization in discriminant analysis: an overview

Computational Statistics & Data Analysis
Automatic subspace clustering of high dimensional data for data mining applications

SIGMOD '98 Proceedings of the 1998 ACM SIGMOD international conference on Management of data
Algorithms for Model-Based Gaussian Hierarchical Clustering

SIAM Journal on Scientific Computing
Mixtures of probabilistic principal component analyzers

Neural Computation
Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood

IEEE Transactions on Pattern Analysis and Machine Intelligence
Modelling high-dimensional data by mixtures of factor analyzers

Computational Statistics & Data Analysis
Robust Cluster Analysis via Mixtures of Multivariate t-Distributions

SSPR '98/SPR '98 Proceedings of the Joint IAPR International Workshops on Advances in Pattern Recognition
A well-conditioned estimator for large-dimensional covariance matrices

Journal of Multivariate Analysis
Subspace clustering for high dimensional data: a review

ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets
Simultaneous Feature Selection and Clustering Using Mixture Models

IEEE Transactions on Pattern Analysis and Machine Intelligence
A Mixed Factors Model for Dimension Reduction and Extraction of a Group Structure in Gene Expression Data

CSB '04 Proceedings of the 2004 IEEE Computational Systems Bioinformatics Conference
ArrayCluster: an analytic tool for clustering, data visualization and module finder on gene expression profiles

Bioinformatics
Classification of large data sets with mixture models via sufficient EM

Computational Statistics & Data Analysis
Extension of the mixture of factor analyzers model to incorporate the multivariate t-distribution

Computational Statistics & Data Analysis
Penalized Model-Based Clustering with Application to Variable Selection

The Journal of Machine Learning Research
Robust mixture modeling using the skew t distribution

Statistics and Computing
An Optimal Set of Discriminant Vectors

IEEE Transactions on Computers
Parsimonious Gaussian mixture models

Statistics and Computing
Variable selection in model-based clustering: A general variable role modeling

Computational Statistics & Data Analysis
Partition clustering of high dimensional low sample size data based on p-values

Computational Statistics & Data Analysis
Penalized factor mixture analysis for variable selection in clustered data

Computational Statistics & Data Analysis
A Flexible and Efficient Algorithm for Regularized Fisher Discriminant Analysis

ECML PKDD '09 Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part II
KNN-kernel density-based clustering for high-dimensional multivariate data

Computational Statistics & Data Analysis
Model-based cluster and discriminant analysis with the MIXMOD software

Computational Statistics & Data Analysis
The Remarkable Simplicity of Very High Dimensional Data: Application of Model-Based Clustering

Journal of Classification
Penalized mixtures of factor analyzers with application to clustering high-dimensional microarray data

Bioinformatics
Robust mixture modeling using multivariate skew t distributions

Statistics and Computing
Dimension reduction for model-based clustering

Statistics and Computing
Model-based clustering of microarray expression data via latent Gaussian mixture models

Bioinformatics
Modern Applied Statistics with S

Modern Applied Statistics with S
Extending mixtures of multivariate t-factor analyzers

Statistics and Computing
Intrinsic dimension estimation by maximum likelihood in isotropic probabilistic PCA

Pattern Recognition Letters
Simultaneous model-based clustering and visualization in the Fisher discriminative subspace

Statistics and Computing
Initializing the EM algorithm in Gaussian mixture models with an unknown number of components

Computational Statistics & Data Analysis
EM algorithms for multivariate Gaussian mixture models with truncated and censored data

Computational Statistics & Data Analysis
Theoretical and practical considerations on the convergence properties of the Fisher-EM algorithm

Journal of Multivariate Analysis
Computational aspects of fitting mixture models via the expectation-maximization algorithm

Computational Statistics & Data Analysis
Mixtures of Gaussian wells: Theory, computation, and application

Computational Statistics & Data Analysis
Model-based clustering, classification, and discriminant analysis via mixtures of multivariate t-distributions

Statistics and Computing
A generative model for rank data based on insertion sort algorithm

Computational Statistics & Data Analysis

A hierarchical modeling approach for clustering probability density functions

Computational Statistics & Data Analysis
Editorial: The 2nd special issue on advances in mixture models

Computational Statistics & Data Analysis
HMM-based hybrid meta-clustering ensemble for temporal data

Knowledge-Based Systems

Quantified Score

Hi-index	0.03

Visualization

Abstract

Model-based clustering is a popular tool which is renowned for its probabilistic foundations and its flexibility. However, high-dimensional data are nowadays more and more frequent and, unfortunately, classical model-based clustering techniques show a disappointing behavior in high-dimensional spaces. This is mainly due to the fact that model-based clustering methods are dramatically over-parametrized in this case. However, high-dimensional spaces have specific characteristics which are useful for clustering and recent techniques exploit those characteristics. After having recalled the bases of model-based clustering, dimension reduction approaches, regularization-based techniques, parsimonious modeling, subspace clustering methods and clustering methods based on variable selection are reviewed. Existing softwares for model-based clustering of high-dimensional data will be also reviewed and their practical use will be illustrated on real-world data sets.