Imputation through finite Gaussian mixture models

Authors:
Marco Di Zio;Ugo Guarnera;Orietta Luzi
Affiliations:
Istituto Nazionale di Statistica, via Cesare Balbo 16, 00184 Roma, Italy;Istituto Nazionale di Statistica, via Cesare Balbo 16, 00184 Roma, Italy;Istituto Nazionale di Statistica, via Cesare Balbo 16, 00184 Roma, Italy
Venue:
Computational Statistics & Data Analysis
Year:
2007

Citing 2
Cited 8

Statistical analysis with missing data

Statistical analysis with missing data
Mixture model clustering for mixed data with missing information

Computational Statistics & Data Analysis

Editorial: Advances in Mixture Models

Computational Statistics & Data Analysis
Maximum entropy and least square error minimizing procedures for estimating missing conditional probabilities in Bayesian networks

Computational Statistics & Data Analysis
On EM Estimation for Mixture of Multivariate t-Distributions

Neural Processing Letters
Learn++.MF: A random subspace approach for the missing feature problem

Pattern Recognition
A comparison of imputation methods for handling missing scores in biometric fusion

Pattern Recognition
Classifying patterns with missing values using Multi-Task Learning perceptrons

Expert Systems with Applications: An International Journal
Mixtures of common factor analyzers for high-dimensional data with missing information

Journal of Multivariate Analysis
Missing data analyses: a hybrid multiple imputation algorithm using Gray System Theory and entropy based on clustering

Applied Intelligence

Quantified Score

Hi-index	0.03

Visualization

Abstract

Imputation is a widely used method for handling missing data. It consists in the replacement of missing values with plausible ones. Parametric and nonparametric techniques are generally adopted for modelling incomplete data. Both of them have advantages and drawbacks. Parametric techniques are parsimonious but depend on the model assumed, while nonparametric techniques are more flexible but require a high amount of observations. The use of finite mixture of multivariate Gaussian distributions for handling missing data is proposed. The main reason is that it allows to control the trade-off between parsimony and flexibility. An experimental comparison with the widely used imputation nearest neighbour donor is illustrated.