Extracting information for generating a diabetes report card from free text in physicians notes

Authors:
Ramanjot S. Bhatia;Amber Graystone;Ross A. Davies;Susan McClinton;Jason Morin;Richard F. Davies
Affiliations:
University of Ottawa Heart Institute, Ottawa, Ontario;McMaster University, Hamilton, Ontario;University of Ottawa Heart Institute, Ottawa, Ontario;University of Ottawa Heart Institute, Ottawa, Ontario;National Research Council Canada, Ottawa, Ontario;University of Ottawa Heart Institute, Ottawa, Ontario
Venue:
Louhi '10 Proceedings of the NAACL HLT 2010 Second Louhi Workshop on Text and Data Mining of Health Documents
Year:
2010

Citing 7
Cited 0

WordNet: a lexical database for English

Communications of the ACM
A maximum entropy approach to natural language processing

Computational Linguistics
Maximum entropy models for natural language ambiguity resolution

Maximum entropy models for natural language ambiguity resolution
The necessity of parsing for predicate argument recognition

ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics
Classifying free-text triage chief complaints into syndromic categories with natural languages processing

Artificial Intelligence in Medicine
Extracting clinical relationships from patient narratives

BioNLP '08 Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing
The WEKA data mining software: an update

ACM SIGKDD Explorations Newsletter

Quantified Score

Hi-index	0.00

Visualization

Abstract

Achieving guideline-based targets in patients with diabetes is crucial for improving clinical outcomes and preventing long-term complications. Using electronic heath records (EHRs) to identify high-risk patients for further intervention by screening large populations is limited because many EHRs store clinical information as dictated and transcribed free text notes that are not amenable to statistical analysis. This paper presents the process of extracting elements needed for generating a diabetes report card from free text notes written in English. Numerical measurements, representing lab values and physical examinations results are extracted from free text documents and then stored in a structured database. Extracting diagnosis information and medication lists are work in progress. The complete dataset for this project is comprised of 81,932 documents from 30,459 patients collected over a period of 5 years. The patient population is considered high risk for diabetes as they have existing cardiovascular complications. Experimental results validate our method, demonstrating high precision (88.8--100%).