Etiquetage grammatical de l'arabe voyellé ou non

  • Authors:
  • Fathi Debili;Emna Souissi

  • Affiliations:
  • CNRS - CELLMA / IRMC, Mutuelleville, Tunis, Tunisie;CNRS - CELLMA / IRMC, Mutuelleville, Tunis, Tunisie

  • Venue:
  • Semitic '98 Proceedings of the Workshop on Computational Approaches to Semitic Languages
  • Year:
  • 1998

Quantified Score

Hi-index 0.00

Visualization

Abstract

Nous abordons le problème de l'étiquetage grammatical de l'arabe en reprenant les méthodes couramment utilisées, lesquelles sont fondées sur des règles de succession de deux ou trois étiquettes grammaticales. Nous montrons que l'on ne peut pas reprendre tels quels les algorithmes préconisés pour le français ou pour l'anglais, la raison étant que l'arabe pose deux problèmes: l'absence des voyelles et l'agglutination des enclinomènes dont les segmentations potentielles induisent une combinatoire qui conduit à réécrire partiellement ces algorithmes. Les résultats obtenus pour l'arabe voyellé sont comparables à ce que l'on obtient pour le français ou pour l'anglais. Pour l'arabe non voyellé par contre, les performances chutent assez sensiblement. L'explication réside précisément dans l'absence des voyellations et l'agglutination qui conduisent à une surmultiplication de l'ambiguïté grammaticale de départ. Pour améliorer ces résultats nous définissons un nouveau jeu d'étiquettes grammaticales qui amène à une diminution de l'ambiguïté de départ et à un élargissement de la portée des règles de succession. Ces étiquettes sont associées aux formes non-minimales de l'arabe telles que rencontrées dans les textes. II y a dans ce cas amélioration sensible, les résultats atteignant des seuils de résolution de 97% pour le voyellé et de 91% pour le non voyellé.