Introducción a La traducción automática



Descargar 174,96 Kb.
Página1/4
Fecha de conversión24.03.2017
Tamaño174,96 Kb.
  1   2   3   4
Material preparado para el master
en Tecnología Lingüística de la UEU
    1. Introducción a

  1. La traducción automática

    1. en diez horas

      1. (1 crédito)


Joseba Abaitua
abaitua@fil.deusto.es
http://serv-info.deusto.es/abaitua
Univerisdad de Deusto

    1. Introducción


La traducción automática es una actividad tan veterana o más que la informática. Es seguramente también una de las aplicaciones en las que mayores recursos humanos y económicos se han invertido. El mercado ofrece en la actualidad un amplio abanico de productos y es difícil para el profano elegir el más adecuado para sus necesidades. En este curso se van a aportar las claves principales que permitirán abordar con un mínimo de conocimiento de causa la posibilidad de recurrir a esta tecnología.

En una primera parte se van a exponer los factores o dimensiones que condicionan la viabilidad de la traducción automática. A continuación se ofrecerá un repaso a los principales hitos en el desarrollo de la disciplina, que aportará una necesaria perspectiva histórica. De esta manera se podrá comprobar cómo han evolucionado las metodologías, que se agruparán en dos grandes familias, cada una de ellas tratada de manera independiente. Para finalizar, se analizarán con algo más de detalle los principales sistemas comerciales, poniendo un énfasis especial en los que pueden ser adquiridos o accedidos por Internet.


      1. Motivación


La traducción automática es una disciplina que ha contribuido de manera determinante al desarrollo de la tecnología lingüística. Existen asociaciones científicas, revistas especializadas, departamentos de universidad y empresas cuya principal actividad es ésta. En palabras de Martin Kay:

El empeño en conseguir máquinas traductoras ha merecido la atención de algunas de las mentes más preclaras de disciplinas como la lingüística, la filosofía, las matemáticas o la informática. La traducción automática ejerce, además, una irresistible atracción sobre un nutrido grupo de incondicionales. ¿A qué se debe toda esta fascinación?

Traducir por medios mecánicos es sin duda un desafío científico. Pero la razón por la que la traducción automática despierta tanto interés no es de índole científica, sino de mera necesidad práctica. Hubert Murray cifró en 20 millones el número de palabras de información técnica que se generaban en el mundo cada día. Un lector capaz de leer mil palabras por minuto necesitaría 45 días, a una media de 8 horas diarias, para digerir la producción de solo un día. Al cabo de esos 45 días, su desfase sería de 5,5 años. Una comunidad lingüística necesitaría dos mil esforzados traductores para verter a su lengua semejante caudal diario. Según Susan Hubbard, en los últimos treinta años se ha generado más información que en los cinco mil anteriores. Más de 9.000 publicaciones periódicas se editan en los EEUU cada año, y casi mil libros salen a la luz diariamente en el mundo. Cuando Suecia y Finlandia se incorporaron a la UE en 1995, hubo que traducir alrededor de 60.000 páginas de regulaciones comunitarias, lo que se conoce como el acquis communautaire. En 1999, sólo tres años más tarde, gracias al inagotable esfuerzo de los legisladores de Bruselas, esa cifra se había incrementado en 20.000. La inminente entrada en la UE de nuevos países del Este europeo pone a la Comisión ante un situación lingüística muy delicada, que solo los avances de las nuevas tecnologías pueden contribuir a paliar.


      1. Objetivos


Los objetivos de este curso son:

  • Situar la traducción automática en el contexto actual de las tecnologías lingüísticas

  • Exponer las claves de la idoneidad de la tecnología en situaciones concretas

  • Repasar los hitos más importantes en el desarrollo de la disciplina

  • Conocer los rudimentos metodológicos que se utilizan en el diseño de los programas

  • Adquirir un conocimiento práctico de los servicios y productos disponibles
      1. Metodología


El curso se impartirá en dos sesiones de tres horas en las que se abordarán los temas preparados. Posteriormente cada alumno deberá invertir un mínimo de cuatro horas para realizar los ejercicios prácticos, que culminarán en la elaboración de un informe. Este trabajo se podrá realizar de manera individual o en grupos de máximo dos personas. Será necesario disponer de conexión a Internet, tanto para realizar los ejercicios como para solicitar la ayuda del profesor (accesible en la dirección abaitua@fil.deusto.es).
      1. Evaluación


Además de la asistencia a clase, que será obligatoria, los alumnos deberán realizar unos ejercicios prácticos que describirán y comentarán en un informe. La calificación final tendrá en cuenta la calidad de este informe. Se valorarán tanto el interés de las pruebas realizadas como la descripción y evaluación de los resultados. Es importante que el informe refleje la aportación personal del alumno, que deberá contener aspectos originales y novedosos. Es importante que se documenten claramente las fuentes consultadas, indicando mediante marcas tipográficas las citas textuales y anotando la referencia (autor y fecha).
    1. Dimensiones de la traducción automática


Llamamos dimensiones a los factores que hay que considerar a la hora de utilizar la traducción automática. Estas dimensiones configuran las coordenadas de un espacio de posibilidades en el diseño y aplicación de los programas. Vamos a hablar de seis dimensiones:

  • Tipo: género, estilo, registro, ámbito.

  • Densidad: granularidad y densidad.

  • Distancia: lenguas y culturas afines, frente a lejanas.

  • Desarrollo: normalización y recursos.

  • Medio: oral, escrito, electrónico

  • Fines: recuperar, informar, publicar.
      1. Tipología de textos


Los traductores saben muy bien que cada traducción es un mundo. Hay una gran variedad de textos, cada uno con sus peculiaridades. No es lo mismo traducir una convocatoria de asamblea, que una crónica deportiva o una columna de Francisco Umbral. Para abordar estas diferencias se suele recurrir a conceptos como género, registro, estilo o tipo (Trosborg, 1997). Las diferencias entre estas nociones no siempre están muy claras, pero son tan fundamentales para traducir manualmente como mecánicamente.

  • Registro es equivalente de jerga. Tiene que ver sobre todo con la naturaleza del receptor, porque es éste quien casi siempre va a determinar el "registro", es decir, la variedad de lenguaje escogida para establecer la comunicación. El registro podrá ser más o menos erudito, o más o menos coloquial. Hay registros propios para cada situación y categoría social o profesional. En traducción automática se habla de sublenguajes o lenguajes de especialidad, en contraposición con la lengua común (Melby, 1995). Cada sublenguaje estará definido por una terminología y fraseología particular; frente a la lengua común cuyas expresiones y vocabulario son de uso genérico.

  • La noción de estilo a veces se confunde con la de registro. Se puede matizar la diferencia aduciendo que dentro de un mismo registro puede haber varios estilos: más o menos pomposo o llano; directo o indirecto; formal o informal, etc. La noción de estilo sirve para distinguir los textos por sus propiedades lingüísticas: longitud de oraciones, utilización de perífrasis verbales, densidad léxica, uso de conectores, etc. Laviosa (1998), por ejemplo, ha encontrado diferencias cuantitativas importantes entre textos traducidos y originales en un corpus de inglés.

  • La noción de género permite distinguir los textos por su función pragmática: novela, poesía, teatro, ensayo, etc.; es decir, atendiendo a factores extralingüísticos (Biber y Finegan, 1986).

  • La noción de tipo sirve para distinguir los textos dentro de un mismo género. Así, dentro del género periodístico, podemos encontrar: noticias de agencia, reportajes, teletipos, crónicas deportiva, artículos de opinión, columnas, artículos de divulgación, noticias breves, flashes, anuncios, datos tabulados, etc. Es obvio que cada uno de ellos presenta sus propias dificultades para traducir, pero que van a ser mayores a medida que el textos es más creativo (más de autor).

Estas nociones se entrelazan y mezclan a la hora de describir un texto concreto. Desde el punto de vista de la traducción automática la discusión sobre el tipo y el género se ha reducido a la distinción de Kay (1992) entre lenguaje singular (remarkable) y no singular (unremarkable), muy similar a la de Melby entre lenguajes de especialidad y lengua común (o lenguaje estático frente a dinámico, según otros autores).
      1. Densidad léxica


La distinción entre lenguajes de especialidad y lengua común tiene relación con otras dos nociones importantes, la de granularidad, también de Melby, y la de densidad léxica de Laviosa (1998). La definición de granularidad se basa en el tamaño de las unidades léxicas en las que se puede segmentar un texto. Los textos de granularidad más gruesa son los que contienen combinaciones mayores de palabras: fórmulas, frases hechas, nombres propios, términos compuestos. La densidad de un texto es inversamente proporcional a la granularidad. A mayor densidad, menor granularidad. Los textos que muestran una densidad alta son generalmente de ámbitos de especialidad. Muchas normas y órdenes de las que se publican en los boletines oficiales son de granularidad 1 y densidad 100, ya que se componen de una única fórmula administrativa (como la concesión de una licencia para construir una casa, por ejemplo).

Podemos decir en resumen que



  • el lenguaje de especialidad tiene mayor densidad y es más apropiado para la TA;

  • la lengua común tiene menor densidad y es menos apropiada para la TA.

La noción de granularidad tiene que ver con un problema muy conocido en teoría de la traducción, que es la segmentación de los textos en unidades de traducción (Bennett, 1994). Es importante distinguir las unidades por su extensión, es decir, por el número de palabras que las forman, y por su cohesión, o posibilidad de interpretarlas conjuntamente o por separado:

  1. Categorías morfosintácticas: la unidad básica en todos los sistemas de traducción automática suele ser la palabra (o lexía simple). Las categorías morfosintácticas permiten establecer abstracciones sobre las palabras (el/the > Det; eye/ojo > N; happy/feliz > A; eat/comer > V;over/sobre > P) y son la base de las gramáticas de estructura sintagmática: SN :=Det N.

  2. Subcategorías: dentro de cada categoría se da una gran variedad de comportamientos, la mayoría divergentes entre una lengua y otra. Los patrones de subcategorización permiten plasmar estas divergencias: subj(x) likes obj(y) / subj(y) gusta obj(x).

  3. Colocaciones: categorías y subcategorías muestran con frecuencia "hábitos de colocación sintagmática" particulares: fast waltz, rapid movement, quick action, speedy recovery.

  4. Lexías complejas (palabras compuestas): combinaciones de palabras que lexicalizan: comida rápida/ fast food; movimientos oculares rápidos/ rapid eye movement (REM).

  5. Locuciones: grupos preposicionales o conjuntivos fijos: after all/ när allt kommer omkring, still / a pesar de todo.

  6. Giros idiomáticos: son grupos sintagmáticos con flexibilidad sintáctica: Estaba más loca que una cabra/ She was as nutty as a fruitcake.

  7. Fórmulas: incluye proverbios, Más vale pájaro en mano que ciento volando; títulos de obras, películas Monthy Pyton and the Holy Grail / Los caballeros de la mesa cuadrada; y otros elementos fijos del discurso, como este extracto de una escritura inglesa To do all such other things as are incidental or conductive to the above objects or any of them.

Esta clasificación, que se propone en Abaitua (2001), incluye unidades que son composicionales (a-c), o de menor cohesión, ya que el significado del segmento completo puede entenderse a partir de los significados parciales, y otras de mayor cohesión (d-g). Un sistema de traducción automática debe ser capaz de reconocer las unidades mayores primero, antes de tratar cada palabra por separado.
      1. Distancia lingüística y cultural


Un tercer aspecto que va a incidir de manera fundamental en la dificultad de traducir por medios mecánicos es la distancia lingüística y cultural entre lenguas. Esta dimensión, que es clave para acertar en el diseño de un traductor mecánico, paradójicamente no ha sido tenida en cuenta hasta épocas recientes. Hoy sólo podemos entender que proyectos como EUROTRA fallaran tan estrepitosamente por la ingenuidad de sus diseñadores, que no fueron capaces de reconocer esta dimensión, o por la desmesurada fe en su metodología (es decir, por su arrogancia científica). Al cabo de los años parece inexplicable que no hubieran sido capaces de construir si no un único sistema, al menos dos subsistemas hábiles, adaptados a cada una de las dos grandes familias lingüísticas europeas representadas en la Unión: la latina (italiano, francés, español y portugués) y la germana (alemán, holandés e inglés). El griego y el danés quedaban fuera, pero podrían haberse adaptado con más o menos dificultad a los subsistemas latino y germánico respectivamente.

La cercanía entre las lenguas latinas es tan grande, que un sistema simple de traducción sintagma por sintagma hubiera dado resultados aceptables muy rápidamente. Problemas tan importantes como el orden de las palabras, la ambigüedad estructural y lógica, o la adecuación de registro habrían sido minimizados por su proximidad lingüística. Esta misma razón es la que ha permitido obtener tan buenos y rápidos resultados en los sistemas de traducción del español al catalán y al gallego. La estrategia de traducción al euskara tiene que ser necesariamente mucho más elaborada, porque las diferencias estructurales entre las gramáticas de las lenguas latinas y la del euskara, en lo referente a los aspectos citados, son muy importantes.

Pero al problema de la distancia lingüística hay que sumar la distancia cultural. Las gramáticas del euskara y del japonés tienen muchos puntos de coincidencia, pero esto no quiere decir que se pueda obtener un sistema con la misma facilidad con la que se obtiene para el gallego y el español. El principal problema para traducir del y al japonés estriba en lo exótico de sus convenciones culturales, sobre todo en aquellas que se manifiestan en la lengua. Las estrategias de comunicación en esta lengua oriental son muy distintas si se las compara con las de las lenguas europeas; no sólo se complica el número de registros y estilos, sino que los giros y expresiones más sencillas de decir las cosas cambian también. Al traducir del y al japonés hay que tener en cuenta más cuestiones que las meramente gramaticales. Las traducciones con base sintáctica producen la mayoría de las veces textos no sólo inadecuados, sino casi siempre totalmente incomprensibles.

      1. Desarrollo lingüístico y recursos


Nadie se atrevería a decir exactamente cuántas lenguas se hablan en el mundo. Se calcula que son unas 6.700, aunque el número exacto depende de lo que se entienda por lengua y de cómo se distinga lengua de variedad dialectal. Se estima que más de 400 están a punto de extinguirse, la mayoría habladas en Australia y en América. También en Europa hay lenguas en estado terminal, siete según el catálogo de Ethnologue (2001). Cuatro de ellas son variedades del Saami, la lengua de los lapones repartidos por Rusia, Noruega y Suecia, países en los que apenas quedan algunas decenas de hablantes.

Poco más de un centenar de las lenguas del mundo pasan de siete millones de hablantes. Pero son todavía menos las que tienen presencia significativa en Internet, principal exponente de la sociedad de la información. Podemos usar el directorio de Google como termómetro de la presencia de estas lenguas y comprobar que sólo 66 están representadas. Llama la atención que lenguas con muchos hablantes, como el vietnamita, hablado por cerca de 68 millones de personas, cuente sólo con 80 páginas referenciadas en el directorio (es decir, poco más de una página por cada mil hablantes); mientras que lenguas minoritarias como el euskara, hablado por menos de un millón de personas, contabilice 4.278 páginas (Google, 26.12.2001). Esto quiere decir que hay 4.532 más páginas en euskara por hablante de euskara que páginas en vietnamita por hablante de vietnamita. En la comparación con otras lenguas la proporción se estabiliza; calculamos 45 páginas más por hablante de euskara que por hablante de húngaro, 21 más que por hablante de español y hasta tres veces más que por hablante de alemán. Estos datos son solo aproximados (seguramente Google no sea muy conocido en Vietnam), pero en todo caso dejan claro que el desarrollo de una lengua no depende del número de hablantes.

Existen muchas razones para subrayar la importancia de este factor, pero se pueden resumir en una: para poder crear herramientas informáticas, como un traductor automático, hace falta disponer de recursos lingüísticos: diccionarios, gramáticas, analizadores, bases de conocimiento y, sobre todo, corpora. El grado de disponibilidad de estos recursos incidirá directamente en la facilidad con la que se podrán generar las herramientas. Para disponer de recursos hay que pasar antes por muchas fases de desarrollo, que van desde la estandarización de una forma de escritura, pasando por la normalización de su uso en el mayor número posible de ámbitos sociales, hasta la promoción de grupos avanzados de investigación en ingeniería lingüística. Si una lengua no ha pasado por la fase de estandarización de su escritura, poco sentido tiene plantear el desarrollo de aplicaciones computacionales.

Directorios como el de Google dan una idea aproximada del grado de desarrollo y vitalidad de las lenguas. Para traducir (se haga por medios mecánicos o manuales), es fundamental que las lenguas tengan un nivel de desarrollo equiparable, porque de lo contrario el traductor deberá duplicar el trabajo, normalizar primero y traducir después. Para ilustrar este problema podemos recurrir a un caso que conocemos muy bien. Cuando se decretó el bilingüismo oficial en el País Vasco, hacia 1979, hubo que realizar un esfuerzo inmenso de desarrollo lingüístico en todos los ámbitos, empezando por el administrativo, pero sin dejar ningún otro atrás, ya que el euskara entró en la administración, pero también lo hizo en los medios de comunicación y en la educación, desde la formación primaria hasta la universitaria. Esto quiere decir que durante veinte años los traductores de euskara han combinado dos funciones, la normalización lingüística y la traducción.

Hay que advertir que la normalización tiene límites. Aunque es posible elevar el desarrollo de una lengua hasta los niveles más altos (técnicos o científicos), no tiene sentido que todas las lenguas intenten equipararse al inglés. Esto es algo que los hablantes de lenguas minoritarias de países desarrollados como Noruega o Finlandia han comprendido muy bien. Cada idioma posee sus ámbitos naturales de uso. A una lengua minoritaria no le perjudica ceder algunos espacios a las lenguas mayoritarias, siempre y cuando su comunidad de hablantes no pierda el apego por la lengua en los ámbitos más íntimos y cotidianos. En países como Francia o España existe el empeño de elevar el francés y el español a la misma cota que el inglés; pero hoy en día esto es absurdo. Es una batalla perdida que no debe ser emulada, y señalo en este sentido al euskara. Es importante poner un orden racional en las prioridades. Muy probablemente la mejor defensa de una lengua minoritaria pasa por la promoción del multilingüismo.

      1. Medio y modo


Desde hace años en los estudios de traducción se distinguen dos actividades claramente diferenciadas. La primera es la interpretación, o traducción de intervenciones orales. La segunda es la traducción de textos escritos. El perfil de los profesionales de una y otra especialidad suele ser muy distinto. Los intérpretes traducen casi siempre sin tiempo para pensar, ni para preparar el texto, o consultar diccionarios. Tampoco pueden repasar o corregir sus traducciones. Su trabajo se realiza de manera simultánea al de la producción del original y conlleva generalmente una gran interacción social. El intérprete está totalmente sometido al contexto en el que se realiza su trabajo, atado a una serie de protocolos y convenciones. Además, el lenguaje oral tiene características muy distintas del lenguaje escrito; es espontáneo, contextualizado, discontinuo y muchas veces agramatical. Por el contrario el traductor de textos escritos se enfrenta a textos que la mayoría de las veces se han escrito con cuidado, que a veces incluso pueden contener valores literarios. Normalmente dispone de tiempo para consultar diccionarios u otras fuentes documentales, y de revisar y corregir sus traducciones. Generalmente este trabajo se desempeña en condiciones de aislamiento, desconectado del entorno social, con el único condicionante de la premura de tiempo.

Aunque en ocasiones se habla indistintamente de traducción de textos orales y escritos, es obvio que representan problemas de índole muy distinta. Análogamente, el medio electrónico ha dado lugar a un tipo de documento y necesidades muy distintas de los medios oral y escrito tradicionales. Cada vez son más numerosos los textos que se generan de manera automática y se conciben con el conocimiento previo de que van a ser tratados por otros sistemas automáticos. En muchos casos, los textos se generan dentro de unas condiciones de control muy estrictas para facilitar su procesamiento posterior. Aunque existe un interés comercial muy grande por los programas de traducción del habla (C-STAR, JANUS , VERMOBIL, EUTRANS, etc.), y la industria sigue mejorando los programas tradicionales de traducción de textos escritos, el futuro se dirige hacia el tratamiento automático de textos en soporte electrónico. Esta tarea se ha venido a denominar localización, y a ella le dedicaremos un pequeño apartado.

En resumen, podemos distinguir tres modos de traducción según el medio:


  • si el medio es oral: interpretación

  • si el medio es escrito: traducción

  • si el medio es electrónico: localización

Hecha esta distinción, hay que añadir que el medio electrónico es ante todo multimedia, con capacidad para integrar los tres medios y modos descritos.
      1. Fines


Habida cuenta del cúmulo de factores que inciden en el diseño de un sistema de traducción automática, no sorprende que los resultados no satisfagan siempre las expectativas. Por eso, sin duda el factor más importante que se debe tener en cuenta cuando se diseña un progrma es definir claramente el uso que se le quiere dar. En el pasado muchos sistemas han sido diseñados con la idea de que sirvan un propósito general, es decir, que sean capaces de traducir cualquier texto; y lo que se han obtenido son programas que proporcionan traducciones muy deficientes. Sin embargo, cuando se delimita más claramente el ámbito de aplicación y ese ámbito se contempla adecuadamente en el desarrollo (en los módulos léxico y sintáctico), los resultados mejoran notablemente. Muchos sistemas de traducción automática de propósito general han sido luego adaptado a dominios de aplicación concretos, como es el caso del programa SYSTRAN en la versión desarrollada por la CE.

Según datos recogidos por Colin Brace, con la utilización generalizada del correo electrónico en las instancias administrativas europeas a comienzos de la década de 1990, la utilización de SYSTRAN se disparó. En 1996 más de 200.000 páginas fueron traducidas por este medio. Sólo un tercio de esas páginas fueron solicitadas por el propio Servicio de Traducciones (SdT) de la Comunidad, el resto fueron traducidas por petición personal y directa de los trabajadores "no lingüísticos" en los diversos departamentos. El SdT realizó una encuesta entre los usuarios del programa en la que se comprobó que se recurría a la traducción automática para:



  • realizar traducciones urgentes

  • ojear los contenidos de los documentos

  • obtener versiones preliminares

Los traductores del SdT, reconocían un ahorro del 30% de tiempo cuando las propiedades del documento se adecuaban al sistema (documento conocido, diccionario preparado) y el revisor humano era veterano. La encuesta también detectó que el grado de satisfacción era superior entre los funcionarios no lingüísticos que entre los traductores y que la principal clave del éxito era su disponibilidad inmediata.

Hutchins y Somers (1992) definían de esta manera el estado de la cuestión en traducción automática: "Lo que se ha logrado es desarrollar programas informáticos que realizan traducciones en borrador en áreas relativamente bien delimitadas. Estas traducciones pueden luego corregirse para obtener versiones finales de calidad por unas tarifas económicas. También pueden dejarse como están, sin revisar, puesto que los especialistas pueden leerlas y entenderlas para informarse. En algunos casos, con los controles adecuados sobre el texto original, es posible alcanzar, de forma automática, resultados de mayor calidad que requieren poca o ninguna corrección. [...] La mayor parte de los textos que se traducen en el mundo no tienen un alto valor cultural ni literario. La mayoría de los traductores profesionales se dedican a satisfacer la enorme y creciente demanda de traducciones de documentos técnicos y científicos, transacciones comerciales, informes administrativos, documentación jurídica, manuales de instrucciones, libros de texto de medicina o agricultura, patentes industriales, panfletos publicitarios, reportajes periodísticos, etc. Parte de este trabajo resulta difícil y constituye un reto, pero un gran porcentaje es tedioso y repetitivo, a la vez que exige precisión y coherencia. La demanda de estas traducciones se está incrementando a un ritmo superior a la capacidad de los traductores, por lo que la ayuda del ordenador ejerce una evidente e inmediata atracción".



  1   2   3   4


La base de datos está protegida por derechos de autor ©absta.info 2016
enviar mensaje

    Página principal