Audio Segmentation and Speaker Localization in Meeting Videos

Authors:
Himanshu Vajaria;Tanmoy Islam;Sudeep Sarkar;Ravi Sankar;Ranga Kasturi
Affiliations:
University of South Florida, Tampa, FL,33620, USA;University of South Florida, Tampa, FL,33620, USA;University of South Florida, Tampa, FL,33620, USA;University of South Florida, Tampa, FL,33620, USA;University of South Florida, Tampa, FL,33620, USA
Venue:
ICPR '06 Proceedings of the 18th International Conference on Pattern Recognition - Volume 02
Year:
2006

Citing 0
Cited 4

Visual speaker localization aided by acoustic models

MM '09 Proceedings of the 17th ACM international conference on Multimedia
Dialocalization: Acoustic speaker diarization and visual localization as joint optimization problem

ACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP)
A review on speaker diarization systems and approaches

Speech Communication
Audiovisual diarization of people in video content

Multimedia Tools and Applications

Quantified Score

Hi-index	0.00

Visualization

Abstract

Segmenting different individuals in a group meeting and their speech is an important first step for various tasks such as meeting transcription, automatic camera panning, multimedia retrieval and monologue detection. In this effort, given a meeting room video, we attempt to segment individual person's speech and localize them in the video, based on data from a single audio and video source. The segmentation method is driven by audio and enhanced by video cues. We used Bayesian Information Criterion (BIC) to segment the feature vector streams and graph spectral partitioning to cluster them. We compare our results with audio based segmentation method and our localization technique with the commonly used mutual information.