Investigating Measures for Pairwise Document Similarity

Authors:
Jeffrey D. Isaacs;Javed A. Aslam
Affiliations:
-;-
Venue:
Investigating Measures for Pairwise Document Similarity
Year:
1999

Citing 0
Cited 2

Efficient Phrase-Based Document Indexing for Web Document Clustering

IEEE Transactions on Knowledge and Data Engineering
Multilevel legal ontologies

Semantic Processing of Legal Texts

Quantified Score

Hi-index	0.00

Visualization

Abstract

The need for a more effective similarity measure is growing as a result of the astonishing amount of information being placed online. Most existing similarity measures are defined by empirically derived formulas and cannot easily be extended to new applications. We present a pairwise document similarity measure based on Information Theory, and present corpus dependent and independent applications of this measure. When ranked with existing similarity measures over TREC FBIS data, our corpus dependent information theoretic similarity measure ranked first.