La era de las máquinas lectoras

Además de las búsquedas, que antes veíamos, las máquinas también están leyéndonos para ayudarnos con distintas tareas...

Los servicios de alertas, como Yahoo Alerts[21], rastrean la prensa y otras páginas web para avisarnos de cuándo aparece alguna de las palabras clave que les hemos indicado. Resulta muy útil para tener controlada a una empresa rival, conocer los movimientos de una determinada persona, o sencillamente, ver qué dicen de nosotros (el llamado ego surfing).

Los lectores o agregadores de RSS (que suministran el contenido nuevo de sitios web, como Google Reader[22]) leen los sitios que escogemos para enviarnos sus titulares junto con una porción mayor o menor de texto.

Los detectores de plagios, como Damocles[23], comparan el texto que les sometamos con muchos otros dispersos por la Web, con el objeto de determinar si se han utilizado (sin citar) partes de otras obras.

Los sintetizadores de voz (como SodelsCot[24]) leen los textos que les proponemos.

A veces su lectura no es muy buena, como los lectores que, ante un texto sin puntuación en la antigüedad clásica, leían "mutilando los pensamientos y pronunciando imperfectamente"[25]), pero en ocasiones leen con mucha fidelidad. Tenemos testimonios de cómo los lectores de la antigüedad clásica servían, entre otras cosas, de ayuda a personas con problemas en la visión[26], y ése es uno de los usos actuales de los conversores texto-habla.

Sin olvidar a los programas traductores (como SoftCatalà[27], del catalán al castellano y viceversa), que leen nuestros textos para traducirlos.

Y por último, el sistema de espionaje anglosajón ECHELON[28] (gobernado por Estados Unidos, Canadá, Gran Bretaña, Australia, y Nueva Zelanda) o el sistema Carnivore[29] del gobierno de los Estados Unidos (FBI) escrutan las comunicaciones (correos electrónicos, por ejemplo) a la búsqueda de términos o nombres. Lo bajo de sus fines no debe hacernos olvidar la magnitud de la tarea que afrontan.

Hasta aquí nos hemos movido en un dominio, el digital, que posibilita que las máquinas nos lean directamente. En la página web los humanos vemos formas, desciframos signos y por último leemos palabras. Las máquinas también las leen, pero no por el dibujo que pintan en la pantalla (el cual puede cambiar según las preferencias de nuestro navegador), sino porque acceden al código que les representa. Por ejemplo: la H tiene el código hexadecimal 48, y el fragmento de código

se leería HERCULES[30]. El sintetizador de voz que lee el documento de procesador de textos y el programa espía que supervisa nuestro correo acceden también únicamente al código de las letras.

En caso de contradiccion entre el mensaje visual y el código los humanos seguimos, por supuesto, lo que nos dicen nuestros ojos. Por eso en los años 80, para burlar la censura que supervisaba las BBS (tablones de anuncios electrónicos[31]), los usuarios escribían sustituyendo letras por otros signos con los que tenían cierto parecido (pero que no compartían su código) [32]. Por ejemplo, para escribir similar se usaba la siguiente secuencia de caracteres:

Pero aparte de este acceso directo al código, las máquinas están leyendo cada vez más las publicaciones impresas.

La película Los tres días del cóndor de Sydney Pollack (1975)[33] se iniciaba con unas oficinas de la CIA en las que una máquina iba pasando páginas de los periódicos bajo el ojo escrutador de una cámara. Han transcurrido más de un cuarto de siglo desde entonces, y los programas ya son muy buenos leyendo libros y periódicos.

Pero hay dos formas en que las máquinas pueden tratar nuestros textos impresos. Una es fotografiando sencillamente el texto, es decir, describiendo pixel a pixel la traza de sus letras.

Arriba tenemos un fragmento del facsímil JPEG de la primera edición del Quijote en la Biblioteca Virtual Cervantes[34]. Debajo, las tres letras iniciales de la palabra Hercules descompuestas en pixels.

Describir la forma de los signos alfabéticos no es un comportamiento muy sofisticado. Es lo que hacía en el siglo V a.C. un pastor iletrado con las letras griegas que constituían el nombre TESEO (ΘΗΣΕΥΣ) en la tragedia perdida de Eurípides[35]:

No soy habilidoso en las letras, pero diré sus formas y claros signos. Hay un círculo, como trazado a compás; éste tiene una clara marca en el centro. La segunda letra tiene primero dos líneas, y otra las separa en el centro. La tercera es como un rizo de cabello, mientras que la cuarta, de nuevo, tiene una línea hacia arriba y tres que se apoyan en ella. La quinta no es fácil de explicar: hay dos líneas separadas, pero se encuentran en un soporte. La última letra es como la tercera.

El público ático del siglo V a.C. (ya parcialmente alfabetizado) podía reconocer las letras por las formas transmitidas. Pero el lector actual puede, más cómodamente, leer en la alineación de píxels:

Ahora bien ¿sabía leer el pastor de Eurípides? ¿Sabe leer el escaneador de páginas ante el que desfilaron las páginas del Quijote? Claramente, no. El portador de formas de letras no lee.

VII

Para que las máquinas lean de verdad hay que ir un paso más allá: Google Libros[36] (por poner un ejemplo bien conocido) está digitalizando libros de las bibliotecas. Pero además de fotografiar sus páginas les aplica un programa de reconocimiento óptico de caracteres (OCR).

A través de ese procedimiento, la máquina reconocerá la forma que "tiene primero dos líneas, y otra las separa en el centro" como una hache mayúscula (si el texto está en alfabeto latino) o como una eta mayúscula (si está en griego). Y así sucesivamente. Por ejemplo, sometamos el archivo con las palabras del Quijote de la Fig. 2 a un OCR accesible por línea[37]. Nos dará este resultado:

Como vemos, puede haber errores. En este caso, la tipografía del XVII tiene ligaduras (como la que une s y t) que el programa no reconoce: en seguida veremos cómo lidiar con ellos. Pero en casos más modernos o claros la máquina puede leer todo el texto satisfactoriamente.

Al final del proceso, el OCR habrá extraído del "cuerpo" del libro (el papel y la tinta) su "alma", el conocimiento de la secuencia de caracteres que lo constituyen: la "acertada disposición del impresor y corrector", en palabras de un impresor del XVII [38]...

El OCR hace que los impresos se fundan en el continuum digital del que ya formaban parte las páginas web y otros archivos accesibles por Internet. Y cuando preguntemos: ¿en qué obras se encuentra la palabra "Hércules"?, acudirán a respondernos no sólo las páginas web, sino también las de los libros.

Al entrar en el universo de la imprenta, las máquinas pueden hacer averiguaciones suplementarias: por ejemplo, sus programas pueden rastrear qué pasajes de cada obra están citados en otros libros. Así, podemos enterarnos, por ejemplo, de que el famoso pasaje de la Exposición al Libro de Job de Fray Luis de León que reza[39]:

está citado en 13 obras más (de las que están en el fondo digitalizado por Google)[40].

VIII

Por último, veamos cómo los humanos estamos, enseñando a las máquinas a perfeccionar su lectura.

Captcha[41] es el sistema mediante el que un sitio web con intervención del público se defiende de los programas que se dedican a introducir spam, proponiendo a los usuarios que tecleen el texto de una secuencia de letras deformada o borrosa que se les ofrece, como en este ejemplo de un blog:

Esta tarea exige (al menos por el momento) un ser humano, y en ese sentido es un test de Turing[42]. De hecho, sus siglas significan: Completely Automated Public Turing test
to tell Computers and Humans Apart (Prueba de Turing pública y automática para diferenciar a máquinas y humanos).

Pues bien: también tenemos el reCaptcha[43]. Su peculiaridad es que el texto que propone para interpretación proviene del escaneado de libros: son palabras que el reconocimiento óptico de caracteres no acierta a interpretar (como industria, que veíamos anteriormente). El programa de OCR detecta una palabra problemática y reCaptcha la ofrece como clave de acceso, emparejada con otra palabra cuya interpretación se conoce (y que sirve de control).

Las palabras dudosas se ofrecen cierto numero de veces, a distintos usuarios, hasta que la lectura se confirma.

ReCaptcha está funcionando por el momento como una ayuda para las digitalizaciones del Open-Access Text Archive[44]. Teniendo en cuenta que cada día se resuelven 60 millones de Captchas, que llevan de media 10 segundos, su suma daría 150.000 horas de trabajo al día, que reCaptcha pondría al servicio de la digitalización de libros.

y IX

...Y éste es el panorama: ejércitos de autómatas rastreando el ciberespacio y hordas de máquinas leyendo las bibliotecas. Programas que descifran letras y humanos que les ayudan, porque así se ayudan a sí mismos.

Más círculos: humanos que preguntan a la máquinas dónde están las cosas que les interesan, para luego escribir textos que leerán las máquinas para a su vez contarle a otros humanos de qué tratan.

Este espacio simbiótico de personas y máquinas, este continuum digital de textos y códigos es el caldo de cultivo de la cultura actual.

[21] http://alerts.yahoo.com.

[22] http://www.google.com/reader.

[23] http://viper.csse.monash.edu.au/damocles/about/

[24] http://www.sodels.com/

[25] Aulo Gelio, citado en Paul Saenger, Space Between Words. The Origins of Silent Reading, California, California, Stanford University Press, 1997, pág. 11.

[26] Raymond J. Starr, "Reading Aloud: Lectores and Roman Reading", en The Classical Journal, Vol. 86, No. 4 (Apr. - May, 1991), pp. 337-343.

[27] http://www.softcatala.org/traductor/.

[28] Véase el insustituible libro Echelon. La red de espionaje planetario (Barcelona, Melusina, 2007). Para un resumen, el artículo de la Wikipedia: http://es.wikipedia.org/wiki/ECHELON.

[29] Para un resumen, el artículo de la Wikipedia: http://es.wikipedia.org/wiki/Carnivore.

[30] ASCII table and description: http://www.asciitable.com/

[31] Véase el artículo de la Wikipedia " Bulletin Board System": http://es.wikipedia.org/wiki/Bulletin_Board_System.

[32] Véase el artículo de la Wikipedia "Leet speak": http://es.wikipedia.org/wiki/Leet_speak. Es también el procedimiento mediante el que los correos spam ocultan determinados nombres de marca al software censor, pero no al humano inquisitivo: " \/!/\6R/\ ".

[33] http://www.imdb.com/title/tt0073802/

[34] P I, Capítulo I: http://www.cervantesvirtual.com/servlet/SirveObras/cerv/12371067559018288532624/ima0027.htm

[35] Traduzco del texto que presenta Niall W. Slater, "Dancing the Alphabet. Performative Literacy on the Attic Stage", en Ian Worthington y John Miles Foley (eds.), Epea and Grammata: Oral and Written Communication in Ancient Greece, Leiden/Boston, Brill, 2002, págs. 118-9. La asociación entre las formas de la letras y determinados objetos no se ha detenido en Grecia: véase el Abecedario industrial y del comercio: http://jamillan.com/abecedario/index.htm

[36] http://books.google.es/. Observo que estoy citando muchos productos de Google, aunque esto sólo demuestra una cosa: que esta compañía está en cabeza en el desarrollo y aprovechamiento comercial de las máquinas lectoras...

[37] Tesseract OCR, el mismo que usa Google (http://asv.aso.ecei.tohoku.ac.jp/tesseract/ ).

[38] Se trata de Alonso Víctor de Paredes. Sobre las relaciones entre continente y contenido en el libro véase mi artículo "Libro: el sarcófago abierto", en Trama y texturas (Madrid), nº 3 y versión web en http://jamillan.com/librosybitios/sarco.htm.

[39] http://books.google.es/books?id=VTQ7lXB-ZmIC&printsec=titlepage#PPA226,M1

[40] http://books.google.es/books?qtid=cb7e7834&id=VTQ7lXB-ZmIC&as_brr=0. Se trata del recurso conocido como "Pasajes populares" de Google Libros.

[41] http://es.wikipedia.org/wiki/Captcha

[42] Por cierto: la versión para disminuidos visuales consiste en un audio que presenta, en medio de ruido de conversaciones, una serie de cifras. He aquí un ejemplo: https://www.blogger.com/captcha?type=AUDIO&captchaKey=1ql96hbcw21t0.

[43] http://recaptcha.net/learnmore.html. Recientemente ha sido adquirido también por Google.

[44] http://www.archive.org/details/texts

La era de las máquinas lectoras[1]

IV

V

VI

VII

VIII

y IX