Cómo se hace un diccionario en el siglo XXI gran Diccionario de Uso del Español Actual



Descargar 363,56 Kb.
Página1/2
Fecha de conversión13.01.2017
Tamaño363,56 Kb.
  1   2
Cómo se hace un diccionario en el siglo XXI


Gran Diccionario de Uso del Español Actual

SGEL, s.a.

Madrid, 2001-06-25
El primer diccionario de español basado en un corpus lingüístico

Los diccionarios tienen como finalidad ofrecer una recopilación sistematizada y ordenada de los significados asociados a las palabras que usa una determinada comunidad de hablantes. En consecuencia, los diccionarios constituyen una herramienta ideal para que los hablantes puedan obtener información sobre la adecuación entre las palabras o símbolos lingüísticos que usan y el significado que conllevan. Son, además, instrumentos imprescindibles porque el campo de actividad del ser humano es muy amplio, los conceptos y las cosas que deben ser nombrados son muy numerosos y la mente humana no es capaz de memorizar todo este acervo de símbolos lingüísticos y sus correspondencias.


En un principio, los diccionarios eran simples ‘glosarios’ de términos que más que explicar el significado ofrecían palabras equivalentes o sinónimos. Podría decirse que éste es el estadio más elemental de la definición. A partir de aquí, la historia de la lexicografía ha experimentado una constante mejora y perfeccionamiento, hasta llegar al tipo de libro que hoy en día es usual. Cabe recordar que los diccionarios actuales no se limitan a recoger los significados de las palabras, sino que incluyen información complementaria sumamente útil para delimitarlos, como es la especificación de las partes de la oración, la separación silábica, los ejemplos de uso, las locuciones más frecuentes que implican al término definido, etc.
La mayor parte de los diccionarios elaborados hasta bien entrado el siglo XVIII estaban basados en otros diccionarios, a los cuales cada autor añadía nuevas palabras y significados, según su entender o según criterios generalmente subjetivos a la hora de decidir qué palabras incluir o a qué criterios debían atenerse las definiciones aportadas. Con demasiada frecuencia, la obra lexicográfica era una obra de ‘aficionados’ o autores ‘de buena voluntad’, que trabajaban sin criterios sistemáticos, rigurosos y científicos. Con la llegada de la ‘ilustración’ a Europa se inició una nueva etapa en la recopilación de significados: el método aplicado para definir se fundamenta en el uso que hacen de la lengua autores ‘de reconocido prestigio’, generalmente autores literarios. La restricción que se aplica es importante y significativa: cuando se redacta el Diccionario de la Real Academia Española (finales del s. XVIII) se entiende por uso ‘el buen uso que de cada voz han hecho escritores doctos’. Esta restricción excluye automáticamente de los diccionarios los significados y voces propias del lenguaje oral o aquellos que se consideran vulgares, no apropiados o éticamente reprobables. El grado de subjetividad de autores y autoridades lexicográficas es, por lo tanto, alto.
En el caso del español, como en el resto de lenguas europeas, esta metodología fue la habitual hasta finales del siglo XX. El diccionario de la Real Academia Española, así elaborado, sigue siendo aceptado como la principal referencia normativa por parte de la mayoría de los hablantes de español. Las aportaciones añadidas al ‘diccionario oficial’ fueron escasamente relevantes hasta que apareció el diccionario de María Moliner –que adopta una manera de definir más sencilla y accesible, con algunos ejemplos ilustrativos de su propia creación-, después el de M. Seco –que busca ejemplos ‘objetivos’ de uso para ilustrar casi todas las voces y acepciones definidas- y ahora el Gran Diccionario de Uso del Español Actual (SGEL, s.a.) –que basa la mayor parte de sus definiciones en ejemplos de uso extraídos de un corpus lingüístico de 20 millones de palabras.

Cómo se solían recopilar los usos de las palabras
Las razones de esta escasa desviación respecto al diccionario de la Real Academia Española no solamente se deben achacar al carácter normativo que tal obra ha adquirido. También se deben a otro hecho de importancia fundamental: no es posible hacer un diccionario diferente o nuevo sin disponer de los ejemplos de uso a partir de los cuales sea posible extraer los significados. Cualquier autor, por muy capaz y brillante que sea, es un hablante más, entre los millones de hablantes de cualquier lengua, con limitaciones a las que no puede escapar, entre las cuales destaca el hecho de que el número de palabras y significados que domina tiene topes infranqueables. En realidad, el número de palabras que un hablante es capaz de utilizar activamente a duras penas sobrepasará la cifra de 10.000. (sirva como ejemplo ilustrativo recordar que un libro científico, del área de Letras y de unas 300 páginas, contiene unas 7.000 palabras diferentes). Si comparamos esta cantidad con las 70.000 u 80.000 voces que incluyen los diccionarios grandes o con sus correspondientes 150.000 acepciones o significados, las distancias son evidentes. De ahí que el trabajo lexicográfico fiable, actualizado e innovador no sea posible sino partiendo de muestras lingüísticas a partir de las cuales los autores puedan extraer el significado real. Si esto no es viable, el recurso al diccionario ‘oficial’ o a otros diccionarios es inevitable.
El primer reto de un lexicógrafo es, por tanto, recopilar muestras lingüísticas que reflejen el uso. El uso puede ser general o puede ser específico, referido a ámbitos o campos restringidos, como pueden ser el literario, el académico, el técnico, etc. La variedad de diccionarios responde precisamente a la variedad de objetivos perseguidos o propuestos.

El llamado ‘Diccionario de Autoridades’, de la RAE, se basó en ‘el buen uso que de cada voz han hecho escritores doctos’ y asumía de una manera u otra que el español había ya alcanzado su grado máximo de perfección. Es decir, ya era posible proceder a su ‘codificación’, estabilizar su uso y hacerlo ‘imperecedero’, quizás a imagen de las lenguas clásicas. Tal actitud era la misma que se había aplicado a otras lenguas, siguiendo el modelo de la Academie Française. Pues bien, el método de trabajo era el siguiente: se seleccionaban las voces objeto de la definición y luego se buscaban los correspondientes ejemplos de uso en las obras de ‘escritores doctos’ y reconocidos. El lexicógrafo explicaba o definía posteriormente el significado que tales voces tenían en las citas recopiladas. Naturalmente, era imposible garantizar la extracción de todos los usos reales de que cada voz era objeto. Los ejemplos solamente podían reflejar los usos encontrados en el limitado número de obras seleccionadas.


El procedimiento es correcto, pero restrictivo. No sólo es limitado en las fuentes consultadas, sino que deja fuera espacios notoriamente amplios e importantes: el uso que hacen de la lengua quienes no son considerados ‘escritores doctos’ y el uso oral en su totalidad. Un diccionario así concebido es necesariamente incompleto.
El trabajo en solitario de María Moliner aportó una mayor comprensibilidad y explicitud en las definiciones dadas, pero su método de trabajo, basado en la introspección lingüística personal, no era el adecuado para recoger la totalidad del uso.

La obra reciente de Seco da un paso importante y decisivo en la buena dirección: casi todas las voces y acepciones van acompañadas de ejemplos extraídos de muestras reales de lengua. Son, por lo tanto, ejemplos ‘objetivos’ del uso. Las limitaciones de la obra de Seco son similares a las que había tenido en su momento el modelo metodológico en el que se había inspirado: el seguido por el Oxford English Dictionary, obra en doce volúmenes, iniciada en 1879 y acabada en 1928. El método consiste en rastrear las palabras objeto de definición en diferentes fuentes escritas y, una vez localizadas, registrarlas en fichas, junto con el contexto en que aparecen. Estos serán luego los ejemplos de uso tomados como base.

Hasta muy recientemente, éste era el sistema óptimo en lexicografía. Pero el método implica dos problemas no desdeñables:

a) Cuando los ‘rastreadores’ van en busca de palabras, y muy especialmente si se buscan palabras concretas, suelen pasar desapercibidas muchas otras palabras. En efecto, cifrar la atención en algunas, obliga a la mente a concentrarse en ellas, en detrimento de muchas otras que aparecen a lo largo del trayecto de búsqueda y, sencillamente, no ‘llaman ni atraen la atención’ del recopilador.

b) De otra parte, las búsquedas suelen restringirse a fuentes escritas -a veces a fuentes escritas muy selectas-, dejando de lado muchas otras fuentes que reflejan el uso diario de una lengua y obviando en su totalidad la lengua oral.

El análisis de la obra de Seco refleja también estas deficiencias, siendo de especial relieve el hecho de que deja totalmente de lado el uso propio de Hispanoamérica (9 de cada 10 hablantes de español –el 90%- se preguntarán por qué un diccionario que pretende ser representativo de su idioma no los toma a ellos en consideración).



Cómo se pueden recopilar actualmente los usos de las palabras

La búsqueda de muestras ‘objetivas’ de uso, es decir, de muestras que no estén filtradas por los gustos o limitaciones del lexicógrafo es un requisito indispensable para lograr que un diccionario sea fiable y representativo del uso general de una lengua. En este sentido, conviene evitar que el lexicógrafo ‘vaya en busca de las palabras’. Más bien al contrario, es necesario hacer todo lo imprescindible ‘para que éstas vengan a él’. Esta es la única manera de evitar el sesgo en la búsqueda, o de dejar por el camino lo que no es objeto de tal búsqueda, a pesar de que sea importante o de interés. En términos prácticos, esto sólo se puede lograr si cuando el lexicógrafo quiere definir una voz, puede tener acceso inmediato a ejemplos reales que reflejen el uso de esa voz.



Hasta muy recientemente, el logro de este objetivo era imposible: el trabajo manual con fichas lo hacía prohibitivo y el rastreo instantáneo de miles de documentos era inviable. Una vez más, las nuevas tecnologías, han venido en ayuda del lexicógrafo. La recopilación y digitalización de grandes cantidades de muestras textuales están hoy a nuestro alcance y su tratamiento informático permite el acceso instantáneo a cualquiera de ellas, junto con su contexto. El Gran Diccionario de Uso del Español Actual, publicado por la editorial SGEL s.a. (2001), ha sido la primera obra lexicográfica de estas características elaborada con este método. Se trata de una aplicación basada en los ‘corpus lingüísticos’
El primer paso fue la recopilación de un ‘corpus lingüístico’ (Corpus Cumbre) expresamente diseñado para recoger una amplia gama de muestras del lenguaje realmente usado, tanto en la modalidad escrita como oral. El citado corpus se cerró con un total de 20 millones de palabras. El reto principal fue reunir muestras variadas, de modo que en su conjunto pudiesen ser razonablemente representativas del uso del español en las diferentes modalidades en que se usa esta lengua y en las distintas áreas geográficas en que se habla. La empresa, en sus inicios (1992), fue ardua y costosa, ya que fue preciso escanear muchas fuentes y revisarlas para corregir los errores de los programas automáticos de OCR. No menor esfuerzo fue necesario para recopilar grabaciones de la lengua oral en todos los países de habla hispana, grabaciones que posteriormente fueron también digitalizadas. En términos globales, el 40% de las muestras recogidas pertenecen al español de Hispanoamérica y el 60% al español de España. De este total, un 35% son muestras del lenguaje oral y un 65% muestras del español escrito (la composición detallada del corpus está descrita en el libro de Sánchez & Al., Cumbre. Corpus lingüístico del español contemporáneo, Madrid, SGEL 1995).
Es importante destacar algunos aspectos tenidos en cuenta en la elaboración de este corpus y en su gestión informática, puesto que todo ello incide directamente en la fiabilidad de las muestras recopiladas.
En lo que se refiere a la selección de las fuentes y su tamaño, se tuvo muy en cuenta la distribución de las palabras en el texto. Las palabras diferentes tienden a concentrarse en las primeras páginas de cualquier producción lingüística, sea ésta oral o escrita, literaria o científica. De manera que no es lo mismo, a efectos de variedad, consultar un solo libro de 300 páginas que treinta páginas de diez libros diferentes: en el segundo caso obtendremos mucha más variedad de voces y acepciones que en el primero. Esta circunstancia es extremadamente relevante para el lexicógrafo, quien busca precisamente la máxima variedad de uso. La diversidad léxica en los textos se atiene en realidad a una fórmula matemática y es predecible, según muestra la siguiente gráfica:

De ahí que el corpus Cumbre conste de miles de muestras de procedencia y autores diversos. No se seleccionan textos extensos o libros completos, sino textos limitados y partes de libros que suelen situarse entre 30 y 50 páginas como máximo. Al lexicógrafo le interesa la variedad léxica y ésta se incrementa con la variedad de las fuentes y con el control de su tamaño. En otras palabras, el incremento lineal de un texto no se traduce en idéntico incremento lineal de palabras diferentes. Por el contrario, a ese incremento lineal en el tamaño corresponde una disminución importante y constante de palabras diferentes. De ahí que sea más pertinente incluir las primeras treinta páginas de 10 libros, que un libro de 300 páginas en su totalidad. Si comparamos el GDUEsA con otros tres diccionarios de relieve, podemos apreciar las limitaciones de éstos respecto a las muestras de las cuales se extrajeron los ejemplos de uso, tal cual refleja el siguiente cuadro:





Oxford ED (12 Volúmenes) (1979-1928)

M. Moliner (2 Volúmenes

(1953-1966)

M. Seco (2 Volúmenes)

(1970-2000)

Gran Diccionario de Uso del Español Actual (SGEL)

(1996-2001)

5.000.000 de citas o ejemplos de uso recogidos de fuentes escritas varias (literarias)

No se especifican: principalmente ejemplos de propia creación

Consulta de 1.600 libros e impresos y 300 publicaciones (fuentes escritas)

Consulta de un total de 15.000-20.000 textos o documentos diferentes. 20.000.000 de citas disponibles
  1   2


La base de datos está protegida por derechos de autor ©absta.info 2016
enviar mensaje

    Página principal