El modulo léxico en el sistema



Descargar 401,27 Kb.
Página1/3
Fecha de conversión20.01.2017
Tamaño401,27 Kb.
  1   2   3
EL MODULO LÉXICO EN EL SISTEMA ATLAS
Joseba Abaitua, Elisabet Cayuelas, Lluis Hernàndez, Xavier Lloré y Jorge Vivaldi1

Grupo de Tratamiento del Lenguaje Natural



Fujitsu, I+D Barcelona

1. Presentación
Exponemos aquí las directrices básicas que el grupo de traducción automática de Fujitsu está aplicando en la construcción del diccionario para el sistema ATLAS. Uno de nuestros principales objetivos es que tanto la configuración como el contenido del diccionario sean independientes de la aplicación. Con ello se facilitará la reutilización del material para otras aplicaciones distintas de ATLAS y, en definitiva, servirá para que el diccionario constituya un producto en sí mismo. El diccionario tiene la arquitectura de una base de datos léxica, lo que permite una gestión eficaz de la información introducida. Los datos léxicos se actualizan siguiendo las instrucciones de un sistema de menús predefinidos que, además de guiar sobre el tipo de información requerida, realiza comprobaciones sobre los datos introducidos y añade información por defecto. De esta manera se consigue que las nuevas incorporaciones y las modificaciones sean coherentes con el resto de las entradas. El diccionario contiene en la actualidad algo más de 15.000 entradas y está previsto que alcance las 30.000 en el próximo año.
1.1. ATLAS, un Sistema de Traducción Automática
ATLAS es un sistema diseñado en los laboratorios de Fujitsu en Kawasaki, Japón (cf. Uchida et al 1985). La versión moderna del sistema data de finales de los setenta, cuando se decidió el empleo de la técnica interlingual en lugar de la traducción directa ensayada hasta entonces. Esta elección estuvo muy influida por los experimentos en inteligencia artificial y representación del conocimiento de la época (Charniak & Wilks 1976, Shank 1975, etc.), casi todos ellos basados en las gramáticas de casos de Fillmore.

Favorecido por la estrategia de la interlingua, ATLAS está concebido como un sistema de traducción multilingüe. En la actualidad existen versiones que traducen entre japonés, inglés y alemán, y existen prototipos para el español, francés y otras lenguas asiáticas (chino, malayo y koreano). Todavía no existe una versión operativa que integre todos los módulos formando un solo sistema. De la experiencia del trabajo entre lenguas tan dispares ha surgido una nueva definición de las primitivas de la interlingua, a la que se han comenzado a adecuar la totalidad de los módulos y prototipos. El módulo de español ha sido diseñado desde su comienzo según esta nueva versión.

1.2. La Interlingua y las Redes Semánticas
ATLAS utiliza el formalimo de las redes semánticas para representar el análisis de una oración de la lengua origen (véase una exposición más completa en Abaitua, Soler y Vivaldi, 1989a y 1989b). La red semántica ordena los conceptos jerárquicamente. El concepto nuclear de la oración figura como nodo del que cuelgan el resto de los conceptos, en una secuencia muy similar al que establecen las gramáticas de dependencias (Tesnière 1959, Schubert 1987 o Mel'cuk 1988). Una red semántica constituye la instanciación de un subconjunto de los conceptos de la interlingua, aquellos que aparecen en el texto a traducir.

La suma de todos los conceptos posibles o existentes en las lenguas consideradas forman el dominio conceptual de la interlingua. Este dominio es en la práctica vastísimo y por ello está organizado mediante diccionarios: Un diccionario de conceptos y un diccionario descriptivo de tales conceptos. En las versiones operativas actuales, los diccionarios conceptuales se limitan a dominios restringidos, pero Fujitsu tiene previsto que en el futuro se utilicen los diccionarios del proyecto EDR (cf. EDR 1988).


1.3. Elementos de la Interlingua
La interlingua de ATLAS se compone de dos tipos de unidades bien definidas: un inventario finito de relaciones conceptuales (relaciones y conceptos especiales) y el diccionario de conceptos.

En el apartado 4. se muestra el repertorio de relaciones de Caso, que son utilizadas para el análisis de los constituyentes de la oración. Estas relaciones están complementadas por cuatro grupos diferentes de relaciones que tratan fenómenos como la coordinación, la subordinación y otras dependencias sintácticas. Existe, además, un grupo de relaciones que pertenecen al diccionario descriptivo de conceptos (part_of, element_of, similar, equivalent, super_sub) y que rara vez son instanciadas en una red semántica.

El inventario de relaciones se complementa con una colección de conceptos subsidiarios que modifican al núcleo de una red semántica indicando valores de modalidad, tiempo y aspecto.

1.4. El diccionario de conceptos y el EDR japonés
El diccionario de conceptos está siendo desarrollado por Fujitsu en Japón, dentro de un consorcio de empresas y entes públicos que forman parte del proyecto japonés de diccionario electrónico (EDR).

El diccionario de conceptos tiene dos componentes: el diccionario de clasificación de conceptos y el diccionario de descripción de conceptos. El primero organiza los conceptos de forma jerárquica, emulando la estructura de un 'thesaurus'. Los conceptos son clasificados mediante las relaciones super-sub, equivalent o synonymous. Por otro lado, el diccionario de descripción de conceptos establece relaciones de coocurrencia entre conceptos, p.e. propiedades selectivas, restricciones semánticas, etc. (cf. EDR 1988).

Los diccionarios de conceptos son independientes de los diccionarios de palabras. La conexión se establece mediante índices conceptuales.

2. El diccionario español para ATLAS

Independientemente de su índice conceptual, la descripción de una palabra debe contener información adicional de tipo morfológico, sintáctico y semántico. Esta información se especifica en el diccionario de palabras, que es independiente de los diccionarios conceptuales. Existe un diccionario para cada lengua y en él se describe la información sobre el comportamiento superficial de las palabras. Una palabra en los diccionarios de palabras puede corresponderse con varios conceptos del diccionario de conceptos, y viceversa.
2.1. Diccionario de palabras
El diccionario de palabras está especializado en el comportamiento idiosincrático de las palabras en cada lengua. Esta especialización reporta el beneficio de la modularidad. Por este motivo, el grupo de Fujitsu en Barcelona ha buscado un tratamiento de la información que pueda satisfacer otras aplicaciones distintas a las de ATLAS.
2.2. Formato, definición de los campos
Cada palabra en español está asociada a una o más fichas que contienen:

- un índice conceptual

- la forma sin flexión o raíz ('headword')

- la forma de citación: el infinitivo para los verbos, el

masculino singular para los adjetivos ('reading')

- categoría sintáctica: N, A, V, etc.

- información gramatical

- códigos morfológicos

El campo más problemático es el de la información gramatical. Si distinguimos entre categorías abiertas y cerradas, el énfasis de nuestro estudio recae sobre la información gramatical necesaria para describir las categorías abiertas: categorías nominales, sustantivos y adjetivos, categorias verbales y modificadores adverbiales.



2.3. Automatización del proceso de entrada de palabras
Ilustramos la metodología seguida para la actualización de la base de datos léxica con un ejemplo del tratamiento de la morfología. El proceso de generación de una palabra realiza dos operaciones:
- la selección de la raíz apropiada;

- la selección del sufijo correspondiente.
Para el tratamiento de los cambios de raíz, el diccionario asigna a cada palabra las raíces con los cambios ya materializados. Es decir, no existen reglas alomórficas ni en la gramática ni en el diccionario. La correspondencia entre raíces y sufijos se indica mediante códigos de adyacencia. Estos códigos definen de manera exhaustiva los distintos paradigmas flexivos nominales y verbales para el español. La figura 1. ilustra un fragmento del paradigma de flexión nominal del español.


Código

Morfológico

Masculino

singular

Masculino

Plural

Femenino

Singular


Femenino

Plural

















186

φ

φ

-

es

187

o

os

a

as

188

e

os

a

as















Figura 1. Fragmento de morfología nominal del español


Para el cambio de raíz en los nombres y adjetivos, el sistema utiliza una tabla, similar a la que se presenta en la figura 2, que permite seleccionar la raíz apropiada dado un determinado tipo de irregularidad.


Tipo de

Irreg


Masculino

singular


Masculino

Plural


Femenino

Singular


Femenino

Plural


T0

R1

R1

R1

R1

T1

R1

R2

R1

R2

T2

R1

R2

R2

R2















Figura 3. Tabla de tipos de cambio en las raíces nominales


La morfología verbal tiene un tratamiento paralelo a la nominal, como se muestran las tablas de las figuras 3 y 4.



Código morfológico

101

102

Ejemplo

AMAR

ANDAR

PRI


o

as

a



amos

áis


an

idem


PSI


é

aste


ó

amos


asteis

aron


e

iste


o

imo


isteis

ieron











IMP

a

en


a

en


INF

ar

ar

GRUND

ando

ando

PART

ado

ado

Figura 4. Padigma morfología verbal




Tipo de

irreg.


Significado


Ejemplo










T13

R1: todas las formas excepto

R2: 1SPRI, PRS, 3PIMP

R3: 3S+PPSI, IMS, GRUND


caer

T14

R1: todas las formas excepto

R2: 3S+PPSI, IMS, GRUND



leer

T15

R1: todas las formas excepto

R2: 1SPRI, PRS, 3PIMP

R3: PSI, IMS

R4: GRUND



traer









Figura 5. Tabla de cambios de raiz en formas verbales


El programa de actualización y entrada de palabras guía al usuario sobre los paradigmas morfológicos y tipo de irregularidad, de forma que no se necesita otra información que unos conocimientos gramaticales básicos de español para producir entradas a un gran rendimiento. Las figuras 5, 6 y 7 muestran los menús presentados al usuario para que éste elija las formas que le corresponden a la palabra que se está actualizando.

Las figuras 5 y 6 muestran los menús para la entrada de un nombre con cambio de raíz. En la figura 5 se ofrecen cambios en la raíz según cinco paradigmas (singular/plural, singular masculino/todos los demás, etc.). Para seleccionar la flexión apropidada, se permiten tres métodos: a través de ejemplos, por preguntas sucesivas o simplemente introduciendo los códigos directamente. Para la detección del paradigma verbal, el programa permite además introducir un código de referencia (que se corresponde a los códigos del Larrouse de la conjugación) de manera que el sistema puede proponer un modelo de flexión al usuario, facilitando su introducción (figura 7).

El programa permite señalar cambios de categoría gramatical (p.e. nombre/adjetivo, adjetivo/adverbio, etc.) y el tratamiento de palabras compuestas, construcciones locutivas, y colocaciones. Siguiendo un método análogo al indicado para la morfología se introducen también los atributos de carácter sintáctico y semántico. En los apartados siguientes se da cuenta de las soluciones adoptadas para las formas nominales, verbales y adverbiales.

3. Tratamiento de las entradas léxicas para el sintagma nominal

Hemos establecido una primera división en dos grupos de lexemas, según que las clases a las que se adscriban sean abiertas (lexemas propiamente dichos) o cerradas (morfemas o morfemas lexicales), que podemos definir por extensión, es decir, a partir de la enumeración de todos sus elementos. Las clases abiertas o léxicas son: Nombre, Nombre Propio, Adjetivo, Participio e Infinitivo.


3.1 Los grupos léxicos
El cuadro siguiente contiene una lista de información a la que la gramática debe tener acceso para cada uno de los miembros de las clases marcadas y que deberá ir contenida en el diccionario.
ÉÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÑÍÍÍÍÍÑÍÍÍÍÍÍÑÍÍÍÍÑÍÍÍÍÍÍÑÍÍÍÍÍ»

º ³Nom- ³Nombre³Adj.³Parti-³ Inf.º

º ³bre ³propio³ ³cipio ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Rasgos de formación ³ ³ ³ ³ ³ º

º fonetico-gráfica (RFFG) ³ x ³ x ³ x ³ x ³ x º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Especificación de n. propio ³ ³ x ³ ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede formar un adverbio con ³ ³ ³ ³ ³ º

º el sufijo -mente ³ ³ ³ x ³ x ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede formar grado morfo. ³ ³ ³ x ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º No puede formar grado ni mor- ³ ³ ³ ³ ³ º

º fológica ni sintácticamente. ³ ³ ³ x ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Forma superl. o comparativa ³ ³ ³ x ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Información sobre género ³ x ³ x ³ ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede llevar artículo ³ ³ x ³ ³ ³ º

º u otros determinantes ³ ³ ³ ³ ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Posicion respecto al núcleo ³ ³ ³ x ³ x ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede funcionar como atributo ³ ³ ³ ³ ³ º

º de los verbos ser o estar ³ ³ ³ x ³ x ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede acompañar a un verbo ³ ³ ³ ³ ³ º

º atributivo de los que permutan ³ ³ ³ ³ ³ º

º el atributo con lo (1) ³ ³ ³ x ³ x ³ º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄĶ

º Puede acompañar a un verbo ³ ³ ³ ³ ³ º

º atributivo de la otra categ.(2)³ ³ ³ x ³ x ³ º

ÈÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÍÏÍÍÍÍÍÏÍÍÍÍÍÍÏÍÍÍÍÏÍÍÍÍÍÍÏÍÍÍ­Íͼ


(1). Por ejemplo: ser, estar, parecer

(2). Por ejemplo: volverse



3.2. Los grupos morfemáticos
Los grupos o clases morfemáticos presentan más divergencias. La relación completa de los grupos tratados es la siguiente:
(a) Pronombres

(a.1.) Pronombres (personales) que pueden formar SN en solitario.

(a.2.) Pronombres (personales) que llevan incorporada preposición.

(b) Determinantes

(b.1.) Indefinidos que pueden formar SN en solitario.

(b.2.) Artículo.

(b.3.) Demostrativos.

(b.4.) Posesivos.

(b.4.1.) Posesivos átonos.

(b.4.2.) Posesivos tónicos que pueden llevar artículo.

(b.4.3.) Posesivos tónicos que pueden preceder al núcleo del SN.

(b.5.) Indefinidos que actúan como determinantes pre-nominales.

(b.5.1.) Y que pueden ir seguidos de otro, -a, -os, -as.

(b.5.2.) Y que no pueden ir seguidos de otro, -a, -os, -as.

(b.6.) Indefinidos que actúan como determinantes post-nominales.

(b.7.) [ todo ]

(b.8.) [ mismo ]

(b.9.) [ otro ]


La distinción entre (a) y (b) no tendrá función en el sistema de distribución, y se mantiene a efectos clarificadores y para poder hacer referencias conjuntas a alguno de los dos grupos que delimitan. Por problemas de espacio, nos limitaremos a dar como muestra la clasificación de los demostrativos.
Los rasgos para los demostrativos son los siguientes:
* El género: masculino, femenino o neutro.

* El número: singular, plural o neutro (no marcado).

* El nivel de proximidad: (1, 2, 3).

* La posibilidad de que el referente (si se utiliza como pronombre) o el nombre al que

acompañan sean de persona, de cosa, o ambos.

* La posibilidad de que, además de la utilización primaria, se pueda utilizar como adjetivo.

ÉÍÍÍÍÍÍÍÍÍÍÍÍÍÑÍÍÍÍÍÍÍÑÍÍÍÍÍÍÍÑÍÍÍÍÍÍÍÍÑÍÍÍÍÍÍÑÍÍÍÍÍÍÍÍÍÍ»

º ³Género ³Nombre ³Proxim. ³Pers. ³ Adjetivo º

ÌÍÍÍÍÍÍÍÍÍÍÍÍÍØÍÍÍÍÍÍÍØÍÍÍÍÍÍÍØÍÍÍÍÍÍÍÍØÍÍÍÍÍÍØÍÍÍÍÍÍÍÍÍ͹

ºeste ³m ³s ³1 ³- + ³ + º

.

.

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÄĶ



ºaquello ³ ³ ³3 ³- ³ - º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÄĶ

ºello ³ ³ ³(3) ³- ³ - º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÄĶ

ºtal ³ ³s ³(3) ³- + ³ + º

ÇÄÄÄÄÄÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÅÄÄÄÄÄÄÅÄÄÄÄÄÄÄÄÄĶ

ºtales ³ ³p ³(3) ³- + ³ + º

ÈÍÍÍÍÍÍÍÍÍÍÍÍÍÏÍÍÍÍÍÍÍÏÍÍÍÍÍÍÍÏÍÍÍÍÍÍÍÍÏÍÍÍÍÍÍÏÍÍÍÍÍÍÍÍÍͼ



3.3. Enlace con la información requerida por el verbo. Atributos semánticos
Hemos definido una partición de los nombres, que es la que figura en la columna inicial del cuadro siguiente, bajo el encabeza­miento de atributo nominal; cada término que haya de ser introducido en el diccionario será clasificado de acuerdo a esta partición, y recibirá por defecto los valores que, para cada una de las columnas restantes, se especifican en la tabla (la s expresa un valor positivo, la n un valor negativo, y la presencia tanto de s como de n indica que según el contexto, el sentido de la oración, o el uso habitual de la lengua, las palabras de esa clase pueden recibir uno u otro valor). A su vez, los verbos incluirán en sus entradas de diccionario la información de sus restricciones expresada en términos de la fila inicial, de acuerdo con los valores semánticos que exijan de sus elementos categorizados. (Aquí, persona humana se refiere a personas o entes asimilables de la realidad o de la ficción; animado incluye cualquier ser dotado de vida; movimiento interno quiere expresar la idea quizás demasiado vaga de movimiento o cambio en relación a la propia unidad, y en este epígrafe por tanto, incluiríamos tanto el crecimiento de una planta como un parpadeo o un fruncir de labios; desplazamiento, en oposición al anterior, se refiere al movimiento en relación a objetos o referen­cias exteriores a la unidad que se mueve; natural, por fin, en oposición a artificial, tiene valor positivo en aquellos nombres que se refieren a entes no creados por el hombre.)


 Rasgos del

sintagma


verbal

Rasgos


del

sintagma


nominal

Hu ma no

A ni ma do

Proce so

Lu gar

Go al

Time

Im ple ment

Manner

Source

M e a s u r e

A Contables






























Persona física

+

+

-





-

-

-

-




Animal

-

+

-





-




-

-

-

Planta - vegetal

-



-






-




-




-

Lugar; institución

α

α



α



-







+

-

Persona jurídica

-

α



α



-







+

-

Parte del cuerpo

+

-



+



-




-




?

Automatismo

-

α



















-

Auto - móviles

-





















-

Otros concretos

-

-

-

?

?

?




?

-

?

Abstractos, etc.

-

-

?

?

?

?




?




?

B MEDIBLES































Concretos

De materia


Intangibles

-


-

-







?










-




-

-

+

-




?







-

?

Abstractos

De acción


De estado

-


-

+

-



?








-

-




-

-

-

-




?







-

-

La gramática relacionará los valores solicitados por el verbo con los contenidos en esta tabla para los nombres, y cuidará de la correcta selección del término correspondiente al concepto buscado de acuerdo con las restricciones impuestas.2



  1   2   3


La base de datos está protegida por derechos de autor ©absta.info 2016
enviar mensaje

    Página principal