Depósitos de palabras

Los corpus de la Real Academia Española,
pronto a disposición de los investigadores
y de las industrias de la lengua

José Antonio Millán

Pero véase un artículo sobre el dudoso futuro de las industrias de la lengua españolas

En un plazo de seis o siete meses los usuarios privados o institucionales podrán preguntar a la Academia a través de Internet cuál es el primer uso que hay registrado de la palabra ordenador, o pedir ejemplos del verbo estar seguido de preposición en el siglo XIX. Para octubre de este año la Academia ha prometido que estarán en uso dos corpus de la lengua española: el CREA (la lengua de los últimos veinticinco años) y el CORDE (el resto de la historia de la lengua).

Una interfaz desarrollada en Java 1.1 permitirá que usuarios con cualquier navegador puedan hacer sus preguntas a la base de datos. Un servidor NT albergará los índices y los textos en SGML (Standard Generalized Markup Language, un estándar de etiquetado de textos del cual el HTML ¾el famoso lenguaje de la Malla Mundial¾ es un subconjunto). Los índices se han confeccionado mediante DT Search (un indizador de propósito general). Los textos primero se escanearon, y luego se sometieron a un ROC (Reconocimiento Óptico de Caracteres), en 25 PCs en red dotados del sistema OS2. Posteriormente fueron corregidos y etiquetados con cabeceras SGML, con la ficha de la obra: autor, título, año... Ahora se está trabajando en la asignación de cada palabra a un lema (panes es una forma de pan), y en la desambiguación (amo es un sustantivo o una forma del verbo amar).

El español llega con retraso al mundo de los corpus: el British National Corpus, o BNC, existe desde 1994, y ya ha dado sus frutos. Como demostración de la importancia económica de un corpus, baste saber que este fue creado por la Oxford University Press junto con dos grandes editores de diccionarios: Addison-Wesley Longman y Larousse Kingfisher Chambers. Sí: los corpus están en la base de la investigación para diccionarios (puesto que permiten recopilar gran cantidad de usos reales), pero también son muy útiles en las industrias de la lengua. Las tecnologías lingüísticas son clave en el mundo de la Internet, para desarrollar buscadores de documentos, creadores de resúmenes, ayudas a la traducción, agentes inteligentes...

El corpus CREA tiene en la actualidad 92 millones de palabras, y el CORDE 40 (el BNC tiene 250 millones, de los que ahora hay 100 disponibles para el público). La aspiración de los corpus de la Academia es llegar a sumar 250 millones de registros. Su consulta tendrá varias modalidades: la primera será un acceso gratuito vía Internet (lógico en un proyecto de interés general, y que se ha hecho en gran medida con dinero público). En la búsqueda se podrán usar operadores booleanos, comodines... Habrá un límite en los datos que se proporcionen, para no colapsar al servidor. Otra modalidad será de pago: por una cantidad aún no decidida (del orden de 25.000 a 50.000 ptas. anuales) se podrán hacer consultas más amplias, desde uno o dos puestos. Por último, habrá posibilidad de acuerdos especiales. A propósito, cualquier donación de textos electrónicos para incorporar al corpus será bienvenida.

[Publicado en El País, en abril de 1998]

Enlaces complementarios
SGML: http://www.sil.org/sgml/sgml.html
British National Corpus: http://info.ox.ac.uk/bnc/