Exploration of distributional models for a novel intensity-dependent normalization procedure in censored gene expression data

Authors:
Nicola Lama;Patrizia Boracchi;Elia Biganzoli
Affiliations:
Dipartimento di Medicina Pubblica, Clinica e Preventiva, Seconda Universití di Napoli, Via Luciano Armanni 5, 80138 Napoli, Italy and Istituto di Statistica Medica e Biometria, Universití ...;Istituto di Statistica Medica e Biometria, Universití degli Studi di Milano, Via Vanzetti 5, Cascina Rosa, 20133 Milano, Italy;Istituto di Statistica Medica e Biometria, Universití degli Studi di Milano, Via Vanzetti 5, Cascina Rosa, 20133 Milano, Italy and Fondazione IRCCS Istituto Nazionale dei Tumori, Via Venezian ...
Venue:
Computational Statistics & Data Analysis
Year:
2009

Citing 7
Cited 1

Algorithm 811: NDA: algorithms for nondifferentiable optimization

ACM Transactions on Mathematical Software (TOMS)
Variance-stabilizing transformations for two-color microarrays

Bioinformatics
Systematic benchmarking of microarray data classification: assessing the role of non-linearity and dimensionality reduction

Bioinformatics
OLIN: optimized normalization, visualization and quality testing of two-channel microarray data

Bioinformatics
Outcome signature genes in breast cancer: is there a unique set?

Bioinformatics
A robust neural networks approach for spatial and intensity-dependent normalization of cDNA microarray data

Bioinformatics
Statistical estimation of gene expression using multiple laser scans of microarrays

Bioinformatics

Editorial: Statistical genetics & statistical genomics: Where biology, epistemology, statistics, and computation collide

Computational Statistics & Data Analysis

Quantified Score

Hi-index	0.03

Visualization

Abstract

Current gene intensity-dependent normalization methods, based on regression smoothing techniques, usually approach the two problems of reducing location bias and data rescaling without taking into account the censoring that is characteristic of certain gene expressions, produced by experimental measurement constraints or by previous normalization steps. Moreover, control of normalization procedures for balancing bias versus variance is often left to the user's experience. An approximate maximum likelihood procedure for fitting a model smoothing the dependences of log-fold gene expression differences on average gene intensities is presented. Central tendency and scaling factor are modeled by means of the B-spline smoothing technique. As an alternative to the outlier theory and robust methods, the approach presented looks for suitable distributional models, possibly generalizing the classical Gaussian and Laplacian assumptions, controlling for different types of censoring. The Bayesian information criterion is adopted for model selection. Distributional assumptions are tested using goodness-of-fit statistics and Monte Carlo evaluation. Randomization quantiles are proposed to produce normally distributed adjusted data. Three publicly available data sets are analyzed for demonstration purposes. Student's t error models reveal best performances in all of the data sets considered. More validating evidence is needed to evaluate the Asymmetric Laplace distribution, which showed interesting results in one data set.