II Congreso Internacional de la lengua española

		El español en la sociedad digital: una propuesta José Antonio Millán
Participación en la mesa redonda del II congreso Internacional de la Lengua Española: Valladolid, España, 16 al 19 de octubre del 2001 Prepublicada en la revista Archipiélago, número 48, en un cuaderno o dossier sobre "El reto del español ante las nuevas tecnologías". Gracias a Rafael Millán *ram arroba* textodigital.com** por su colaboración en la discusión de algunas de estas ideas.		El hábil Varsavsky y un servidor, meditando sobre algo que se está diciendo en la mesa (foto: cortesía Instituto Cervantes) La lengua es algo gratuito, ¿no? Nos la regalan nuestros padres; después, no se nos cobra por hablar, ni por entenderla; y por fin se la regalamos a nuestros hijos... Habría que matizar, sin embargo: no todas las variantes de una lengua reciben el mismo aprecio social, y si uno recibe de sus padres el "me se ha caído" tendrá que invertir tiempo y esfuerzos en dejar de decirlo. La buena educación propia y de los padres (que es garantía de que uno acabará con un nivel de lengua competitivo) cuesta bastante; y también cuestan las ayudas (diccionarios, etc.) que conlleva el uso profesional de la lengua. Pero ésta, en esencia, es gratis. Sin embargo, existe un ámbito en el que usar la lengua cuesta siempre algo, y da la casualidad de que ése es el terreno en el que se dirime gran parte de la economía y competencia contemporáneas. En el medio digital, en el universo de los ordenadores y redes de comunicaciones, todo uso de la lengua cuesta dinero, porque sólo es posible mediante la utilización de complejos programas. Y en el medio digital tienen lugar varias importantes interacciones lingüísticas: entre seres humanos y sistemas automáticos, entre seres humanos que hablan la misma lengua, y entre hablantes de distintas lenguas. El uso de la lengua natural es el procedimiento más simple para comunicarse: no hay interfaz más intuitiva y veloz ni conjunto de comandos más rico y preciso. Comparemos: busco en la página web el enlace sobre el tiempo: clic; despliego un menú, selecciono Europa y hago clic; otros más hasta localizar España y Cáceres: clic, clic; otro me ofrece escoger entre: "hoy, los próximos dos días, los próximos siete días": clic. La alternativa sería decir (o escribir): "¿Qué tiempo hará en Cáceres esta semana y la otra?". La interfaz lingüística está destinada a ser la dominante, porque es inmediata y no exige ninguna habilidad especial de sus usuarios. Y por otra razón: con la miniaturización y aumento de potencia de los dispositivos móviles --agendas electrónicas, teléfonos--, o aumenta la venta de lupas y palillos de dientes para operar sobre los teclados (como ironizaba el fundador de una compañía de ingeniería lingüística), o tendrán que desarrollarse las capacidades de comprensión y emisión oral de los programas. Para que un programa entienda un enunciado tiene que tener habilidades léxicas, morfosintácticas, semánticas, pragmáticas, ... Los programas deben además conocer el mundo (saber que Cáceres está en España, que está en Europa). Y si van a tratar con la lengua oral, tienen que distinguir los fonemas por encima de variantes personales y acentos locales. Estas habilidades equivalen a la posesión de diccionarios, morfologías, gramáticas, fonéticas y enciclopedias completas y formalizadas: un usuario humano que ya habla una lengua puede usar versiones poco estrictas de estas obras (porque lo suple con su competencia lingüística y sentido común), pero defina usted "escarmentar" de modo que lo entienda un sistema automático... Por que un programa entienda un concepto queremos decir que disponga de información suficiente para detectar las presuposiciones que su significado encierra, y la complejidad potencial de las situaciones en las que se usa, así como pistas suficientes para identificar en el contexto (próximo o lejano) los distintos elementos (quizá elípticos) que intervienen en el concepto, etc. Retenga el lector esta primera condición; para conseguir que sistemas automáticos usen la lengua, primero hay que disponer de una investigación extensísima sobre ella. Además, el programa que lidie con la lengua natural debe tener procedimientos de desambiguación, de palabras o frases: ¿por "tiempo" se entiende el atmosférico, el del reloj o el gramatical? Y también debe poder interpretar señaladores lingüísticos: ¿cómo traduce una máquina a fechas "esta semana"?, ¿y "la otra"? Si el sistema automático tiene que dialogar con el usuario tiene que hacer también un modelo de qué se propone el otro, qué sabe ya y qué quiere saber... De nuevo, no hay aquí nada informático: se trata de investigación de base sobre la lengua, ahora no congelada en sus potencialidades, sino en acción. Y por último, este conjunto de investigaciones y datos sobre las habilidades y los comportamientos lingüísticos se tienen que transformar en programas ejecutables por ordenadores. Esta es la segunda condición que hay que retener: habrá que convertir esos saberes lingüísticos en instrucciones que entiendan los sistemas automáticos. ¿Y qué tipo de sistemas van a utilizar la lengua como interfaz? De todos los tipos: los de comercio electrónico (sistemas que busquen productos con determinadas características y vuelvan con descripciones y comparaciones), de ocio (localización de espectáculos, restaurantes, información turística...), educación y formación (sistemas de tutoría y evaluación automáticas), o investigación (localización de materiales, acceso inteligente a bases de datos). Estos programas serán utilizables desde ordenadores, pero también desde teléfonos móviles, o en vehículos, ligados a sistemas de navegación (GPS). Habrá versiones restringidas (un sistema de reserva de billetes, como los que ya están en uso, sólo exigirá reconocer entre un conjunto pequeño de elecciones) y otras que requieran gran capacidad lingüística. Usaremos (sin saberlo) estos programas cada vez más: los buscadores en la Red dominarán progresivamente sus contenidos (ya se habla de la "Web semántica") para permitirnos encontrar lo que otros han publicado en ella. Y contenidos en lenguas que nos son extrañas se nos facilitarán con grados variables de fiabilidad (porque la traducción automática perfecta es un mito...) Llegados a este punto, el lector tiene derecho a preguntarse: las herramientas lingüísticas que posibiliten estas interacciones tendrán un interés económico, ¿no? Pues sí: lo cuantificamos hace pocos meses (véase http://jamillan.com/tesoro.htm), y sólo diremos que puede muy bien equivaler anualmente al volumen de negocio de todo el sector editorial en lengua española (tanto en España como en Hispanoamérica). Estamos hablando sólo del uso de herramientas lingüísticas como mediación en comercio electrónico, formación, información turística, etc., no del volumen que luego generen esas transacciones, que será muy superior. Es, pues, un bonito negocio, que estará basado en un canon, un peaje de facto: para usar nuestra lengua en las redes tendremos que pagar programas lingüísticos. A lo mejor no directamente: el comprador de un paquete turístico mediante uno de estos sistemas no pagará un plus por usar su lengua, pero sin duda un parte del producto de la transacción irá a costear el software lingüístico utilizado. Y aquí se abre el primer interrogante: ¿quiénes van a ser los dueños de estos programas lingüísticos? La triste realidad es que los autores de los programas que van a permitirnos interactuar en español en el universo digital van a ser un reducido conjunto de compañías de países no hispanohablantes. En ese sentido, pagaremos por usar nuestra lengua en las redes. Pero bueno: también pagamos regalías al exterior por recorrer nuestra geografía (no a pie, pero sí cada vez que cogemos un coche...). En cuestiones de tecnología no somos una potencia espectacular, de modo que normalmente tenemos que pagar por usarla... Sin embargo, depender para la comunicación digital de este reducido conjunto de empresas es un grave problema, y la razón no es el puro chauvinismo (al fin y al cabo, el mundo de hoy es el dominio de las empresas multinacionales). La disminución de la competencia hace que los servicios se encarezcan para el comprador. Además, las pocas empresas que dominan el mercado están llevando el desarrollo informático por caminos que no benefician al consumidor final: éste está con gran frecuencia mal atendido y forzado a comprar más cosas, y más veces, de lo que desearía. Por poner un ejemplo cercano: uno quiere un procesador de textos y sólo puede comprar una compleja y cara maquinaria que hace todo lo que uno necesita... y muchas cosas más que no le hacen falta. Bueno... pongamos que se ha acostumbrado a ella, cuando de golpe sale otra versión que a) trabaja imperfectamente con documentos de la versión anterior; y b) está pensada para que los usuarios de versiones anteriores tengan problemas con los archivos creados normalmente por la nueva. Salvo que uno sea un eremita, lo más frecuente es que se vea forzado a comprarse la versión nueva, que por cierto hará peor algunas cosas y habrá cambiado la forma de hacer otras... Si pasamos del dominio de usos individuales al universo inmediato de grandes interacciones automáticas que usan la lengua en la redes, la situación no mejorará. Las aplicaciones informáticas de comunicación que ya se están haciendo están atesorando en pocas manos un extenso saber lingüístico, que evolucionará en direcciones que la sociedad no desea especialmente. Este saber lingüístico formalizado proviene además en muchos casos de investigación pagada con fondos públicos. Los desarrollos que provienen de ella seguirán los caminos que marquen las empresas (que no tienen por qué coincidir --y muchas veces no lo hacen-- con los que la sociedad necesita), y además en el caso de que una de estas compañías quiebre (o desee discontinuar un producto), los frutos de la investigación --los datos y algoritmos lingüísticos altamente formalizados que constituyen los programas-- morirán también. ¿Dónde se gesta la investigación lingüística que puede luego alimentar los sistemas automáticos? Una gran parte en nuestras instituciones públicas, como universidades, o históricas, como la Academia: entre todas tienen no sólo los recursos (como corpus y programas de desarrollo) sino también --en distintos grados de evolución-- los conjuntos de datos estructurados que luego alimentarán a los sistemas automáticos: diccionarios morfosintácticos, redes semánticas, etc. Las instituciones luego normalmente las ceden (o venden) al puñado de empresas que hacen los desarrollos finales... que luego nos cobrarán, porque así es la vida. Mi propuesta es clara: que las instituciones que cuenten con recursos de desarrollo de herramientas lingüísticas, o datos elaborados, las cedan a cualquiera que quiera desarrollar software lingüístico. De semejante disposición sólo se derivarán beneficios para todos, y ningún daño. Veamos por qué. A diferencia de los bienes materiales, los digitales no se desgastan con el uso. El Estado crea carreteras para que quien cumpla ciertos requisitos (matriculación, etc.), transite libremente por ellas. Pero cada camión que las atraviesa aumenta su desgaste. Sin embargo, el copiar un corpus o un diccionario morfológico no los merma en nada, en ningún aspecto. Si todos los agentes que quieran hacer desarrollos lingüísticos consiguen libremente los resultados de esta imprescindible investigación de base lo más que puede pasar es que tengamos al poco tiempo una proliferación de programas que reconocen palabras, analizan frases, etc. Muchos de ellos no serán directamente utilizables por los usuarios finales, pero podrán formar parte de sistemas automáticos más elaborados, y el resultado final es que habrá más sistemas que usen nuestra lengua, de más tipos, y más baratos. Si al final son las compañías de siempre las que hacen los mejores desarrollos, enhorabuena (y si una compañia usa los datos de la investigación y no los convierte en productos, peor para ella...) Abrir un bien público al uso de todos no es algo extraño: ahí están --de nuevo-- las carreteras, que el Estado crea para que circulen todos: los camiones de abastecimiento y los padres de familia en fin de semana. A veces, también las usan los ladrones para huir del escenario del crimen, pero dudo que nadie intente prohibirlas por esa razón... No creo que nadie pueda poner objeciones al hecho de que la investigación creada en nuestras instituciones públicas se abra a la creación de productos, porque para eso está (que sepamos...). La práctica actual es cederla (por un precio dado, por regalías, o incluso gratis...) sólo a determinadas empresas, sobre la base de no se sabe muy bien qué criterios. Esto el mejor de los casos sólo confirmará el oligopolio vigente --con las consecuencias que hemos visto. Pero además numerosas instituciones con investigación jamás han hecho un acuerdo con una empresa; atesoran recursos lingüísticos --muchas veces duplicados con otros grupos-- que nunca darán un servicio a la sociedad... Si se abrieran los datos de investigación, pequeñas (y grandes) empresas y grupos de desarrollo de nuestros países podrían incorporarse a un mercado que si no les estará completamente vedado, porque parece que en este terreno lo que está imperando es la maldición evangélica: "al que tiene se le dará más..." (Mt. 13, 12). Contra la apertura total e indiscriminada que propongo cabría un argumento: ¿cómo se va regalar algo público para que luego las empresas se lo queden para ellas y se enriquezcan con su venta? Pero no parece muy sólido: en esta sociedad, los agentes actúan por afán de beneficio; así es como son las cosas. Pero al final de este artículo haré una propuesta complementaria que podría incluso vencer esta objeción. Por último, el argumento parcial de que ciertos corpus incluyen obras con propiedad intelectual en manos de terceros (libros vivos en editoriales, por ejemplo) tampoco se sostiene: ¿quién va a necesitar extraer un libro de un corpus si puede fácilmente fotocopiarlo o escanearlo? No veo, francamente, ninguna razón por la que la investigación lingüística financiada con dinero público deba seguir en su mayoría sin rendir frutos prácticos. No comprendo tampoco que una pequeña parte se explote en acuerdos que no van a redundar en el mejor servicio a la comunidad hispanohablante. Si súbitamente surgiera un preocupación (hasta ahora no manifestada) sobre los fines sociales de la investigación financiada con dinero público, la propuesta podría ser: que ésta se ceda en régimen de "software libre". Sobre él, véase el cuaderno en el número anterior de Archipiélago, pero resumiremos diciendo que bajo este sistema cualquier programa desarrollado debe permanecer abierto (a diferencia de lo que ocurre en el software normal o propietario), de tal modo que cualesquiera datos de investigación incorporados a él serían reutilizables por otros. Si la institución A o las universidades U y V cedieran sus recursos a quien quisiera desarrollar programas lingüísticos de nuestra lengua, y los cedieran bajo un tipo de licencia de las que caracterizan el software libre, proliferarían módulos y programas lingüísticos que buscarían su camino en el mercado, y que pronto otras empresas o grupos mejorarían y recombinarían, para acabar dando el servicio que los hispanohablantes necesitamos... ¿No es la lengua, al fin y al cabo, un modelo o metáfora del funcionamiento del software libre? Códigos que sólo funcionan porque son compartidos, que han sido creados entre todos (como recordaba el poeta Pedro Salinas), que están abiertos al uso y a la mejora (desde los hallazgos del escritor a las expresiones populares), y donde las innovaciones que triunfan pueden alcanzar hasta al último hablante. Tal vez, curiosamente, la misma lengua nos dé un ejemplo de qué hacer con ella en el siglo digital. Y tal vez nos libremos de pagar por usar nuestra lengua en las redes.

Creada: 20 de octubre del 2001 Última versión, 9 de noviembre del 2001

El español en la sociedad digital: una propuesta

El español en la sociedad digital:
una propuesta