Open-Source portuguese–spanish machine translation

  • Authors:
  • Carme Armentano-Oller;Rafael C. Carrasco;Antonio M. Corbí-Bellot;Mikel L. Forcada;Mireia Ginestí-Rosell;Sergio Ortiz-Rojas;Juan Antonio Pérez-Ortiz;Gema Ramírez-Sánchez;Felipe Sánchez-Martínez;Miriam A. Scalco

  • Affiliations:
  • Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain;Transducens Group, Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, Alacant, Spain

  • Venue:
  • PROPOR'06 Proceedings of the 7th international conference on Computational Processing of the Portuguese Language
  • Year:
  • 2006

Quantified Score

Hi-index 0.00

Visualization

Abstract

This paper describes the current status of development of an open-source shallow-transfer machine translation (MT) system for the [European] Portuguese $\leftrightarrow$ Spanish language pair, developed using the OpenTrad Apertium MT toolbox (www.apertium.org). Apertium uses finite-state transducers for lexical processing, hidden Markov models for part-of-speech tagging, and finite-state-based chunking for structural transfer, and is based on a simple rationale: to produce fast, reasonably intelligible and easily correctable translations between related languages, it suffices to use a MT strategy which uses shallow parsing techniques to refine word-for-word MT. This paper briefly describes the MT engine, the formats it uses for linguistic data, and the compilers that convert these data into an efficient format used by the engine, and then goes on to describe in more detail the pilot Portuguese$\leftrightarrow$Spanish linguistic data.