Etiquetage grammatical de l'arabe voyellé ou non

Authors:
Fathi Debili;Emna Souissi
Affiliations:
CNRS - CELLMA / IRMC, Mutuelleville, Tunis, Tunisie;CNRS - CELLMA / IRMC, Mutuelleville, Tunis, Tunisie
Venue:
Semitic '98 Proceedings of the Workshop on Computational Approaches to Semitic Languages
Year:
1998

Citing 4
Cited 0

Introduction to the special issue on computational linguistics using large corpora

Computational Linguistics - Special issue on using large corpora: I
Tagging English text with a probabilistic model

Computational Linguistics
Tagging French: comparing a statistical and a constraint-based method

EACL '95 Proceedings of the seventh conference on European chapter of the Association for Computational Linguistics
A syntax-based part-of-speech analyser

EACL '95 Proceedings of the seventh conference on European chapter of the Association for Computational Linguistics

Quantified Score

Hi-index	0.00

Visualization

Abstract

Nous abordons le problème de l'étiquetage grammatical de l'arabe en reprenant les méthodes couramment utilisées, lesquelles sont fondées sur des règles de succession de deux ou trois étiquettes grammaticales. Nous montrons que l'on ne peut pas reprendre tels quels les algorithmes préconisés pour le français ou pour l'anglais, la raison étant que l'arabe pose deux problèmes: l'absence des voyelles et l'agglutination des enclinomènes dont les segmentations potentielles induisent une combinatoire qui conduit à réécrire partiellement ces algorithmes. Les résultats obtenus pour l'arabe voyellé sont comparables à ce que l'on obtient pour le français ou pour l'anglais. Pour l'arabe non voyellé par contre, les performances chutent assez sensiblement. L'explication réside précisément dans l'absence des voyellations et l'agglutination qui conduisent à une surmultiplication de l'ambiguïté grammaticale de départ. Pour améliorer ces résultats nous définissons un nouveau jeu d'étiquettes grammaticales qui amène à une diminution de l'ambiguïté de départ et à un élargissement de la portée des règles de succession. Ces étiquettes sont associées aux formes non-minimales de l'arabe telles que rencontrées dans les textes. II y a dans ce cas amélioration sensible, les résultats atteignant des seuils de résolution de 97% pour le voyellé et de 91% pour le non voyellé.