Visual Analytics: Normalized compression distance for visual analysis of document collections

Authors:
G. P. Telles;R. Minghim;F. V. Paulovich
Affiliations:
Universidade de São Paulo, Instituto de Ciências Matemáticas e de Computação, CP 668, São Carlos 13560-970, São Paulo, Brazil;Universidade de São Paulo, Instituto de Ciências Matemáticas e de Computação, CP 668, São Carlos 13560-970, São Paulo, Brazil;Universidade de São Paulo, Instituto de Ciências Matemáticas e de Computação, CP 668, São Carlos 13560-970, São Paulo, Brazil
Venue:
Computers and Graphics
Year:
2007

Citing 25
Cited 1

Bead: explorations in information visualization

SIGIR '92 Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval
FastMap: a fast algorithm for indexing, data-mining and visualization of traditional and multimedia datasets

SIGMOD '95 Proceedings of the 1995 ACM SIGMOD international conference on Management of data
A linear iteration time layout algorithm for visualising high-dimensional data

Proceedings of the 7th conference on Visualization '96
An introduction to Kolmogorov complexity and its applications (2nd ed.)

An introduction to Kolmogorov complexity and its applications (2nd ed.)
TOPIC ISLANDS—a wavelet-based text visualization system

Proceedings of the conference on Visualization '98
Visualizing the non-visual: spatial analysis and interaction with information for text documents

Readings in information visualization
Visualization of search results: a comparative evaluation of text, 2D, and 3D interfaces

Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval
The ecological approach to text visualization

Journal of the American Society for Information Science - Speical issue on integrating mutiple overlapping metadata standards
Visualizing content based relations in texts

AUIC '01 Proceedings of the 2nd Australasian conference on User interface
ThemeRiver: Visualizing Thematic Changes in Large Document Collections

IEEE Transactions on Visualization and Computer Graphics
Visualizing Text Data Sets

Computing in Science and Engineering
Managing the Knowledge contained in Electronic Documents: a Clustering Method for Text Mining

DEXA '01 Proceedings of the 12th International Workshop on Database and Expert Systems Applications
The Shape of Shakespeare: Visualizing Text using Implicit Surfaces

INFOVIS '98 Proceedings of the 1998 IEEE Symposium on Information Visualization
Lighthouse: Showing the Way to Relevant Information

INFOVIS '00 Proceedings of the IEEE Symposium on Information Vizualization 2000
The InfoSky visual explorer: exploiting hierarchical structure and document similarities

Information Visualization
Visualization of large answers in text databases

AVI '96 Proceedings of the workshop on Advanced visual interfaces
Alternative Implementation Techniques for Web Text Visualization

LA-WEB '03 Proceedings of the First Conference on Latin American Web Congress
On improved projection techniques to support visual exploration of multidimensional data sets

Information Visualization - Special issue on coordinated and multiple views in exploratory visualization
Least-Squares Meshes

SMI '04 Proceedings of the Shape Modeling International 2004
Evaluating a System for Interactive Exploration of Large, Hierarchically Structured Document Repositories

INFOVIS '04 Proceedings of the IEEE Symposium on Information Visualization
Spider Cursor: a simple versatile interaction tool for data visualization and exploration

GRAPHITE '05 Proceedings of the 3rd international conference on Computer graphics and interactive techniques in Australasia and South East Asia
Text Map Explorer: a Tool to Create and Explore Document Maps

IV '06 Proceedings of the conference on Information Visualization
Visual Mapping of Text Collections through a Fast High Precision Projection Technique

IV '06 Proceedings of the conference on Information Visualization
The similarity metric

IEEE Transactions on Information Theory
Clustering by compression

IEEE Transactions on Information Theory

Forensic Authorship Attribution Using Compression Distances to Prototypes

IWCF '09 Proceedings of the 3rd International Workshop on Computational Forensics

Quantified Score

Hi-index	0.00

Visualization

Abstract

In a world flooded by text of various sources, it is of strategic importance to find ways to map information present in written documents in a form that helps users locate and associate important information within a particular text data set. Content-based maps can support extremely useful explorations of text data sets. This paper proposes and evaluates the use of Kolmogorov complexity approximations as a means to detect similarity between general textual documents, in order to support mapping and visualization techniques for corpora exploration. The calculation of this similarity measure requires no intermediate representation of a corpus (such as vector representation) and therefore no pre-processing or parametrization steps. That makes it very attractive for a wider range of exploratory applications compared to conventional measures that need vector-based text representations. The visual layout used here is based on fast distance multi-dimensional projections. It is shown that the similarity measure and the resulting maps present very good precision and that the approach can be used successfully for visual analysis of automatically generated text maps.