Discovering and Exploiting Statistical Properties for Query Optimization in Relational Databases: A Survey

Authors:
Peter J. Haas;Ihab F. Ilyas;Guy M. Lohman;Volker Markl
Affiliations:
IBM Almaden Research Center, San Jose, CA, USA;University of Waterloo, Waterloo, Ontario, Canada;IBM Almaden Research Center, San Jose, CA, USA;TU Berlin, Berlin, Germany
Venue:
Statistical Analysis and Data Mining
Year:
2009

Citing 0
Cited 4

Xplus: a SQL-tuning-aware query optimizer

Proceedings of the VLDB Endowment
Synopses for Massive Data: Samples, Histograms, Wavelets, Sketches

Foundations and Trends in Databases
Efficiently adapting graphical models for selectivity estimation

The VLDB Journal — The International Journal on Very Large Data Bases
Issues in big data testing and benchmarking

Proceedings of the Sixth International Workshop on Testing Database Systems

Quantified Score

Hi-index	0.00

Visualization

Abstract

Discovering and exploiting statistical features in relational datasets is key to query optimization in a relational database management system (RDBMS ), and is also needed for database design, cleaning, and integration. This paper surveys a variety of methods for automatically discovering important statistical features such as correlations, functional dependencies, keys, and algebraic constraints. We discuss proactive approaches in which the data is scanned or sampled (periodically, at optimization time or at query time), or in which exploratory queries are executed. Also discussed are reactive approaches that monitor the results of the query processing. Finally, we discuss methods for dealing with the practical challenges of maintaining statistical information in the face of heavy system utilization, and of dealing with inconsistencies that arise from incomplete cardinality models, use of multiple discovery methods, or changes in the underlying data over time. © 2009 Wiley Periodicals, Inc. Statistical Analysis and Data Mining 1: 000-000, 2008