La lengua en el medio digital


		La lengua en el medio digital: un reto político José Antonio Millán

		... y entre todos me la hicieron, habla por habla, soñando, sueña que sueña, canta que canta. Delante la tengo ahora, toda tan ancha, delante de mí ofrecida, sin guardar nada, onda tras onda rompiendo, en mí —su playa—, mar que llevo a todas partes, mar castellana. (Pedro Salinas, "Verbo" en Todo más claro y otros poemas, 1949) 'The question is,' said Humpty Dumpty, 'which is to be master — that's all.' (—La cuestión —dijo Humpty Dumpty— es saber quién es el que manda..., eso es todo.) (Lewis Carroll, Alice in Wonderland) En una sociedad ya muy mediada digitalmente, hay una tendencia creciente a incorporar el lenguaje natural para la comunicación automatizada entre sistemas y personas, y entre personas de distintas lenguas. Y ello por una razón muy clara: porque la lengua es un sistema de comunicación que la sociedad distribuye a todos, y que todos manejamos habitualmente. La lengua no sólo es la interfaz más común, sino que además es la más fina: no hay menú de elecciones o mapa clicable que pueda aportar todas las posibilidades que da una simple frase. Y si pensamos en la lengua hablada, incluso analfabetos o personas que dudarían ante un ratón o un teclado son capaces de contarle a un sistema automático (bien diseñado) lo que quieren. Pero al llegar al terreno digital la lengua, un bien común de creación colectiva ("entre todos me la hicieron"), gratuito ("delante de mí ofrecida") y de uso ilimitado ("sin guardar nada") se convierte en una mercancía. Para que las máquinas nos entiendan y nos hablen tienen que servirse de programas que tienen un desarrollo lento y caro, y que exigen conjuntos de datos estructurados (corpus, diccionarios) para su desarrollo. Incluso aunque existan estos programas y queramos (y podamos) pagarlos, es muy posible que no tengan en cuenta el conjunto de necesidades de nuestras sociedades. En este artículo voy a exponer los principios que deberían guiar futuras políticas públicas al respecto [1]. Voy a comenzar por una descripción impresionista de un horizonte de uso del software lingüístico, que formulé en otro contexto [2]: ¿Qué tipo de sistemas van a utilizar la lengua como interfaz? De todos los tipos: los de entrada de datos en general (de la agenda personal a sistemas profesionales), los de comercio electrónico (sistemas que busquen productos con determinadas características y vuelvan con descripciones y comparaciones), de ocio (localización de espectáculos, restaurantes, información turística...), educación y formación (sistemas de tutoría y evaluación automáticas), o investigación (localización de materiales, acceso inteligente a bases de datos). Usaremos (a veces sin saberlo) estos programas cada vez más. Tendrán capacidades multilingües y serán capaces de emitir hipótesis sobre el interés que tendrá para nosotros un cierto material, traducirlo (con distintos grados de fiablidad) y resumírnoslo. Serán nuestras herramientas de trabajo intelectual y profesional. El entorno de estos sistemas configurará un sector económico de importancia. Pero en el caso del español el resultado será que aumentará la dependencia tecnológica de los países hispanohablantes, y se inclinará aún más su balanza de pagos [3]. Sí: los hablantes de muchas lenguas, incluso extendidas, tendremos que pagar por usarlas en las redes, y los hablantes de lenguas o variantes minoritarias ni siquiera tendrán esa posibilidad: no existirán programas para ellos. Pagaremos por un diccionario informático de sinónimos del español de España o del francés de Francia (aunque sea como parte de un procesador de textos), pero uno del francés de Senegal o del español de Bolivia no lo conseguiremos ni pagando... ¿Por qué habría de ser así, existiendo, como existen para muchas lenguas, investigaciones y recursos —casi siempre financiadoso con dinero público— que podrían ser la base del desarrollo de softwares lingüísticos a muy distintos niveles (generales y locales)? ¿Por qué este sector industrial, importante y estratégico, va a estar casi completamente colonizado para lenguas como el español, el francés o el portugués? ¿Por qué va a tardar en existir (si es que llega a hacerlo) para lenguas europeas con menos hablantes? Para algunas lenguas, la razón puede ser que —por motivos de historia, y de recursos y dotación de sus universidades y otras instituciones— no ha existido suficiente investigacion de base. Pero para el español, para el portugués, para el francés o para el italiano, la verdadera razón es que sus respectivos gobiernos carecen, realmente, de una política lingüística digital. Este es un terreno especialmente resbaladizo, porque en él se juntan dos áreas en las que por lo general (y hablo del caso de España) los gobernantes carecen de conocimientos... y de ganas de solicitarlos: la política lingüística, y la política digital. Respecto a la primera, normalmente no saben ni que existe (salvo en las comunidades autonomas con lengua propia, donde se convierte en un instrumento político), y el alcance social de la cuestión digital tampoco acaba de ser comprendida (ahí está para España una legislación inadecuada, la vergonzosa gestión del dominio .es, la perpetuación de los monopolios de comunicaciones, etc.)... ¿Qué metas debería plantearse una política lingüística digital?: garantizar que los recursos (como corpus y programas de desarrollo) y los conjuntos de datos estructurados que alimentan a los sistemas automáticos (como diccionarios) estén disponibles para nuevos desarrollos aumentar el número de agentes que desarrollan software lingüístico, para que crezca la calidad y la cantidad de opciones facilitar la incorporación al software lingüístico de las lenguas minoritarias o las variantes locales de lenguas extendidas En realidad estos tres puntos se resuelven en uno sólo: abrir al uso los recursos y los datos, mediante una licencia de utilización que garantice que los productos derivados sean igualmente abiertos y reutilizables. Estos son puntos básicos: en el caso del español (y quizás en otros), existen recursos en instituciones públicas o históricas que luego encuentran extraños problemas cuando se quieren usar para desarrollos. Algunos de recursos presumen de haberse "abierto" a Internet, pero eso sólo significa que les puede consultar: uno puede dar una palabra para que un corpus le devuelva sus ocurrencias, o para que se la analice un sistema morfológico. Pero este uso no es apto para desarrollos. Abrir, para que quede claro, es entregar un DVD o cualquier otro sistema de almacenamiento, con la totalidad del recurso, a quien lo pida [4]. Al final de este artículo repasaré posibles objeciones a esta forma de obrar. En cuanto al segundo punto: la reutilización se puede asegurar dando el recurso vía una licencia tipo GPL [5] o Creative Commons [6]. La situación actual (por lo menos en el caso del español) es que los recursos lingüísticos de los centros de investigación públicos no llegan de forma transparente a todas las empresas que podrían utilizarlos, sino a un reducidísimo número, que son los que desarrollan los programas de usuario final. Una política eficaz aspiraría a que los recursos de desarrollo de herramientas lingüísticas en poder de cualquier tipo de instituciones (tanto públicas como privadas) alcanzara a cualquiera que quisiera desarrollar software lingüístico. La visión dominante es que ésta es sólo una tarea de grandes empresas (y por añadidura, norteamericanas), pero la verdad es que tanto a nivel de datos, como de programas de desarrollo, o de pequeños softwares de usuario final, uno puede concebir todo tipo de desarrollos, muchos de ellos a la medida: por ejemplo, diccionarios de especialidad, orales y escritos, que complementaran los léxicos con los que ya contaran conversores habla/texto y sistemas de conversación [7]. Existen distintas vías que podrían lograr este fin. Una de ellas podría ser la creación de un Fondo de Recursos Lingüísticos, gratuito, abierto para cualquier entidad o individuo que quiera hacer desarrollos (bajo licencias como las mencionadas), para garantizar que los resultados del uso de estos recursos fueran igualmente abiertos y reutilizables. Para constituir este Fondo, lo más realista sería comprar la licencia de uso de los recursos y datos lingüísticos a aquellas instituciones (universidades, o empresas) que las poseen. Puede parecer paradójico que frutos de la investigación pagada con dinero público deban ser comprados de nuevo para que alcancen al bien publico, y lo es: pero parece la solución más práctica, comparada con otros caminos posibles... En paralelo, y dado que la titularidad del Fondo sería pública y su destino el bien común, se podría iniciar una campaña para que las instituciones cedieran gratuitamente sus recursos al Fondo (en vez de vendérselos). ¿Qué ámbito deberían tener este tipo de Fondos? Deberían constituirse por lenguas, más que por estados. Muchas lenguas europeas están distribuidas por un gran número de países, en diferentes continentes (caso del francés, el portugués o el español), y sería absurdo limitarse a la variante europea: un Fondo de la Lengua Española, por ejemplo, debería reunir recursos de cuantas más variantes del español, mejor. En una sociedad interconectada y multilingüe como la nuestra, podríamos intentar además ampliar el ámbito de los beneficios de una acción como esta, haciéndola extensible a diferentes lenguas. Para ello, cabría incentivar también recursos que saquen partido de la proximidad que exista entre ellas (por ejemplo, las lenguas descendientes del latín: español, francés, catalán, italiano, ...) para generar núcleos de morfología, sintaxis, lexicografía, etc. comunes a todas. Los modelos de funcionamiento de estos Fondos podrían basarse en los que están vigentes en el Linguistic Data Consortium [8] o en la European Language Resources Association [9]. En otro lugar [10] me he adelantado a las posibles objeciones que una accion así podría despertar: El copiar un corpus o un diccionario morfológico no los merma en nada, en ningún aspecto. Si todos los agentes que quieran hacer desarrollos lingüísticos consiguen libremente los resultados de esta imprescindible investigación de base lo más que puede pasar es que tengamos al poco tiempo una proliferación de programas que reconocen palabras, analizan frases, etc. Muchos de ellos no serán directamente utilizables por los usuarios finales, pero podrán formar parte de sistemas automáticos más elaborados, y el resultado final es que habrá más sistemas que usen nuestra lengua, de más tipos, y más baratos. Una propuesta tan simple, barata y con unos beneficios tan claros para la sociedad; una solución que fomenta las capacidades de empresas y grupos de usuarios propios en detrimento sólo de los oligopolios; una propuesta que permitiría controlar un sector estratégico y de tránsito obligado para nuestras instituciones y ciudadanos, debería ser fácilmente asumida por las instancias gubernamentales que están para estas cosas. La retórica vacua de alabanza de una lengua que nos hemos encontrado ya hecha y extendida podría dar paso a acciones que la defiendan realmente, en vez de perpetuar su situación de colonización tecnológica, con mal servicio a la sociedad que la usa.

		[1] Este artículo se hizo por invitación de Jesús González Barahona para el número de Novática sobre Conocimiento abierto. Su primera redacción se benefició de las discusiones que tuvieron lugar en los encuentros entre expertos lusófonos, francófonos e hispanohablantes en el marco de los Tres espacios lingüísticos (2001/2002), convocados por la Organisation Internationale de la Francophonie, Organización de Estados Iberoamericanos, Comunidades dos Paises de Língua Portuguesa, Unión Latina y Secretaría de Cooperación Iberoamericana. Quiero agradecer sus aportaciones a Daniel Pimienta e Isabel Trancoso y su constante apoyo a Daniel Prado. [2] José Antonio Millán, "El español en la sociedad digital: una propuesta", intervención en el II Congreso Internacional de la Lengua Española, Valladolid, 16 a 19 de octubre del 2001. [3] José Antonio Millán, "La lengua que era un tesoro", 28 de marzo del 2001 y su versión abreviada en inglés "How much is a language worth. A Quantification of the Digital Industry for the Spanish Language". [4] Una reciente —abril del 2005— iniciativa del catalán (lengua minoritaria, pero con gran actividad digital): se está abriendo bajo licencia Creative Commons el banco de datos terminológico del TERMCAT. Véase la noticia en SoftCatalà. [5] http://www.gnu.org/copyleft/gpl.html [6] http://creativecommons.org/ [7] Este tipo de acciones, mediante las cuales, por ejemplo, la jerga de la neurobiología en portugués o el léxico de la ingeniería mexicana se incorporara a sistemas preexistentes exige, por una parte que estos sean abiertos y admitan ampliaciones, y en segundo lugar un trabajo colaborativo de creación de un corpus. Éste puede ser tan simple como llamadas telefónicas de voluntarios a un sistema automático que va almacenando muestras. [8] http://www.ldc.upenn.edu/ [9] http://www.icp.grenet.fr/ELRA/home.html [10] José Antonio Millán, "El español en la sociedad digital: una propuesta", intervención en el II Congreso Internacional de la Lengua Española, Valladolid, 16 a 19 de octubre del 2001. . Las licencias Creative Commons ligan este artículo con otra esquina de la web: mi libro Nueve veranos

Publicado por primera vez en junio del 2003 en Novática. En colaboración con Upgrade, que la publicó en inglés. Se publica también una versión italiana en línea promovida por ALSI , así como una versión francesa promovida por APRIL. Última versión, levemente modificada, 5 de mayo del 2005		Esta obra está bajo una licencia de Creative Commons.

La lengua en el medio digital: un reto político

La lengua en el medio digital:
un reto político