An imputation method for categorical variables with application to nonlinear principal component analysis

Authors:
Pier Alda Ferrari;Paola Annoni;Alessandro Barbiero;Giancarlo Manzi
Affiliations:
Department of Economics, Business and Statistics, Universití degli Studi di Milano, Milan, Italy;IPSC - European Commission Joint Research Centre, Unit of Econometrics and Applied Statistics, Ispra (VA), Italy;Department of Economics, Business and Statistics, Universití degli Studi di Milano, Milan, Italy;Department of Economics, Business and Statistics, Universití degli Studi di Milano, Milan, Italy
Venue:
Computational Statistics & Data Analysis
Year:
2011

Citing 4
Cited 1

Nearest neighbour approach in the least-squares data imputation algorithms

Information Sciences: an International Journal
Using an Approximate Bayesian Bootstrap to multiply impute nonignorable missing data

Computational Statistics & Data Analysis
Principal component regression for data containing outliers and missing elements

Computational Statistics & Data Analysis
Avoiding bias due to perfect prediction in multiple imputation of incomplete categorical variables

Computational Statistics & Data Analysis

A coupled penalty matrix approach and principal component based co-linearity index technique to discover product specific foundry process knowledge from in-process data in order to reduce defects

Computers in Industry

Quantified Score

Hi-index	0.03

Visualization

Abstract

The problem of missing data in building multidimensional composite indicators is a delicate problem which is often underrated. An imputation method particularly suitable for categorical data is proposed. This method is discussed in detail in the framework of nonlinear principal component analysis and compared to other missing data treatments which are commonly used in this analysis. Its performance vs. these other methods is evaluated throughout a simulation procedure performed on both an artificial case, varying the experimental conditions, and a real case. The proposed procedure is implemented using R.