1x1c3.gif (41 bytes)

El libro de medio billón de páginas (3)

José Antonio Millán

 

Pero también hay programas residentes en ordenadores personales que apelan al análisis de palabras clave. Son los programas de censura de la red (censorware), también llamados programas-niñera (nanny software), que tienen por objeto vigilar la salida a Internet de los menores de edad. El censorware tiene una lista de sitios a los que no permite acceder. Para localizarlos, las arañas de las ciberniñeras (que tienen nombres tan expresivos como MudCrawler, "la que Repta por el Cieno" [1]) surcan el ciberespacio analizando las palabras que contienen los sitios, para irlos colocando en su lista negra.

Pero en este análisis como en todo análisis exclusivamente formal acechan los peligros de la homonimia y la polisemia, por no hablar de los usos legítimos de descripciones anatómicas. Es conocido el caso del censorware que impedía el acceso a un sitio sobre cáncer de pecho y a recetas de pechugas de pollo, porque excluía sistemáticamente la clave pecho (en el original breast cancer y chicken breast). Contra los abusos de cibernannies como CYBERsitter [2] y otras se ha levantado el sitio Peacefire, donde se pueden encontrar detalles sobre la actuación del censorware [3].

Otra misión de los programas-niñera es monitorizar las conversaciones y comunicaciones con el exterior del ordenador, ya sea mediante correo electrónico, en chats, etc. Por ejemplo: el software puede impedir que se dé el teléfono o las señas de la casa, vetar el empleo de determinadas palabras, etc.

También existen programas orientados a adultos. La versión 5.0 del programa de correo Eudora despliega una estrategia llamada MoodWatch [10] (presentado como "un monitor automático de emociones") que informa a la persona que escribe un correo electrónico sobre las palabras que está usando, y despliega una alerta en tres grados cuando se produce lo que el programa considera flame (uso de lenguaje ofensivo en un rapto de ira). Los grados aparecen indicados por la aparición de una, dos o tres guindillas rojas. El grado uno advierte, sencillamente: "Más vale que conozcas a la persona a la que escribes". Para los ejecutivos de Eudora, "Hay estudios que demuestran que la gente tiende a ser más agresiva por email que en otra formas de comunicación".

 

*  *  *

 

Y más allá de la censura doméstica está la institucional y estatal. Desde hace muchos años determinados sitios y servicios de alojamiento de webs escudriñan los contenidos de las páginas que contienen, en busca de contenidos ofensivos. Pero quizás el proyecto más grande de espionaje automático público sea Echelon, que comparten Estados Unidos, el Reino Unido, Canadá, Australia y Nueva Zelanda. Se supone (porque es un proyecto secreto) que se dedica a espiar todas las comunicaciones, incluyendo correo electrónico, teléfono y fax. De tener como objetivo en el pasado las acciones de las potencias enemigas ha pasado al espionaje económico y comercial (mucho más rentable). El tema llegó al Parlamento Europeo en febrero del 2.000, pero varios meses antes la comunidad usuaria de la Red ya había detectado esta extensa acción se supone que Echelon controla dos millones de mensajes al día y, reaccionaba intentando crear ruido. Muchos mensajes que circulaban en el verano del 99 incluían una coda que decía: "drug kill assassinate spy plutonium president security bomb hijack heroin". La acción culminó el 21 de octubre, con una llamada masiva a hacer estos envíos. Supongo que los ordenadores de Echelon se vieron momentáneamente sobresaltados... hasta que metieron una rutina para descartar esa sarta.

Dos cuestiones se suscitan aquí: una es la transparencia de la comunicación por la red (cualquier correo electrónico puede ser leído, alterado, reenviado; cualquier conversación en un chat puede ser interceptada...), y la segunda es el grado de sutileza de los análisis automáticos. Los buscadores no van más allá de una identificación formal, pero podemos pensar que el software de espionaje debe ser más avanzado, y podrá "entender" los textos en cierta medida... Algunas comunicaciones por correo, y determinadas páginas web intentan burlar los sistemas automáticos de detección mediante pequeños cambios: f*ck, h*j* d* p*t*. Pero hoy en día los sistemas basados en reconocimiento de patrones y lógicas difusas sortean muy bien estos pequeños maquillajes.

Y otra cuestión: ¿realmente los terroristas y narcotraficantes son tan explícitos en sus comunicaciones? Podemos asegurar que no. Pero sin embargo hay otra modalidad de comunicación que debe ser muy clara: aquella que se ofrece para destinatarios desconocidos. Por ejemplo, los grupos que ofrecen recetas para bombas caseras. Precisamente una demanda masiva de "yellow phosphoric nitric" en los buscadores, que observó Mall-Net [9] a mediados del pasado mayo, se puede atribuir a un intento del FBI por detectar estos sitios.

 

*  *  *

 

Hoy en día los textos digitales forman un continuum cuyo ecosistema se distribuye entre la red y los ordenadores personales e institucionales. Como ejemplo, tenemos lo que ocurre en un terreno menos espinoso que los que hasta ahora hemos recorrido: los trabajos estudiantiles. Desde que existe la WWW, es muy sencillo acceder a cualquier página web y coger información que luego se firma con el propio nombre y se entrega al profesor (también se hace esto y se entrega al director de la revista o el periódico: no infamemos sólo a los pobres estudiantes..). A ello se une la existencia de sitios destinados a proporcionar trabajos de curso completos, sobre los más diversos temas (en español tenemos uno, significativamente llamado El rincón del vago [4]). De hecho, fuentes académicas reconocen que la copia de trabajos ha aumentado sin parar desde 1990, y el cybercheating (cibercopieteo) es directamente responsable de ello.

¿Cómo se puede saber si un trabajo es una copia, total o parcial? Un estudiante de Berkeley creó un servicio, Plagiarism [5], que permite a los profesores indagar sobre la paternidad de los trabajos que les entregan. El creador de este servicio afirma un tanto cínicamente que ha equilibrado la balanza, y facilita a los educadores el mismo poder que los alumnos ya tenían gracias a Internet. Sea cual fuere la valoración moral que merezcan una y otra práctica, funciona. El primer test se hizo con 300 estudiantes de neurobiología, y aunque se advirtió a los alumnos que sus trabajos serían rastreados, se encontró un 15% de copias. Plagiarism compara los textos que se le someten con distintos rastreos de la Web a cargo de veinte buscadores, y con bases de datos de trabajos, que incluyen los que aportan las mismas universidades que contratan el servicio.

 

*  *  *

 

El otro gran flanco de visibilidad en Internet (y simétricamente, de estrategias de búsqueda) son los nombres de los dominios. Dominio es la sarta de letras que aparece a la derecha del signo @, en la direcciones de correo, y tras http:// y antes de / en las direcciones web. Hay dominios llamados "de primer nivel" (.com, .org, ...) y dominios territoriales, que corresponden a los países (.es para España, .fr para Francia, ...). Según los últimos datos hay registrados un total de 72 millones de dominios [6].

El hecho trágico, e imprevisible cuando se constituyó el sistema de dominios, es su tremenda escasez actual. En un momento en que el espacio de almacenamiento es prácticamente gratuito (por toda la red se regala espacio para páginas web, o para almacenar las fotografías de uno...), el recurso más directamente lingüístico, el nombre del dominio, está prácticamente agotado. En el dominio más universal, .com, hace ya muchos meses que todas las combinaciones de cinco letras están cogidas. Pero hay más: un estudio de Wired News en abril de 1999 señalaba que de las 25.500 palabras del inglés estándar sólo 1.760 no se habían convertido aún en nombres de dominio [7]. Eso significa que los términos ingleses para "árbol" o "dinosaurio" o "calcetín" o casi cualquier otra cosa ya tienen dueño. Y por supuesto, cientos de miles de nombres propios. Puede que algunos de ellos estén en manos de ciberocupas (personas que compran dominios que no usan, para luego revenderlos), pero muchos tienen un ocupante legítimo, y el único problema es que sólo se pueden usar una vez. Naturalmente, la carestía es mayor cuanto más breve es el dominio, y el caso extremo son las siglas: cuando la British Broadcasting Corporation (BBC) quiso un dominio bbc.com tuvo que pagar bastante dinero por él, ya que pertenecía, con toda legitimidad, a la empresa estadounidense Boston Business Computing.

El problema con las marcas registradas era el mismo, pero con un matiz: que sus nombres se podían repetir en distintas clases (por ejemplo, la editorial Taurus y los electrodomésticos Taurus). En la Internet sólo hay una clase... por el momento, porque hay planes de introducir .sex, .firm, .shop, .web, .arts, .info, ..., que aumentarían el acervo de dominios.

¿Qué hacer cuando uno encuentra que un dominio que necesita para un proyecto está cogido? Aguzar el ingenio. Cuando el artista y creador multimedia afincado en Francia Laurent Sauerwein quiso registrar pixel.com lo encontró ya ocupado, de modo que se inventó un inexistente femenino francés pixelle.com (que suena igual). El especialista en videojuegos Javier Candeira no pudo registrar interactivo, y optó paronomásicamente por hiperactivo... Etc.

Cualquier accidente, cualquier circunstancia se aprovecha rápidamente para aumentar las posibilidades de nombrar dominios. Por ejemplo, los dominios territoriales (siglas de los nombres de países) pueden dar lugar a combinaciones interesantes en diversas lenguas. Un proveedor español registró en Alemania .de pagina.de, y comercia con ese servicio (al que se puede alquilar, por ejemplo, la dirección de web <http://pagina.de/pepe>). Pero el caso más reciente y llamativo ha sido el del país polinesio de Tuvalu, que ha vendido su dominio .tv por 50 millones de dólares anuales en los próximos 12 años (imaginemos el interés de ser propietario de guia.tv y similares...). Paradójicamente, el nombre del país se ha convertido en su recurso número uno.

Y es que el dominio es realmente importante. Muchas personas abordan sus búsquedas desde él. Por ejemplo, alguien que quiera comprar una entrada se sentirá tentado de empezar por http://www.entradas.com. Los buscadores también tienen tendencia a dar una buena posición a las direcciones web que coinciden con la palabra buscada. También en la dirección de las páginas se asiste a prácticas de spamdexing. Véase este ejemplo detectado por Inktomi (tax es "impuesto" en inglés):


http://www.tax.taxadvice.taxation.irs.taxservices.taxrepresentation.
taxpayerhelp.internalrevenueservice.audit.taxes.com

Y a la inversa: una de las cosas que hacen los programas de censorware es vetar los sitios que tienen algo sospechoso en su dominio (llegando al extremo de rechazar los que tienen varias X, signo de "contenido para adultos" en inglés). Como muestra del interés económico del tema, existe un servicio web llamado DomainCheck [8], que se dedica a analizar el contenido de los proyectos que se le someten, lo contrasta con las palabras clave más pedidas a los buscadores, y con el resultado propone una combinación o amalgama.

La ciberocupación no sólo afecta a las marcas comerciales (registrándolas antes que su dueño, como pasó en España con Hipercor). Véase lo ocurrido con el nacimiento del hijo del primer ministro británico, al que se dio el nombre de Leo Blair. Pocas horas después del anuncio del nombre ya estaban registrados leoblair.com y babyleo.co.uk, por personas que intentan hacer un negocio con su reventa....

Y por fin otras estrategias tienen que ver con la modificación hacia el insulto. Si quiero molestar a los propietarios de patata.zu, registro patatapodrida.zu. Las estrategias de defensa entonces se deben extender a terrenos insospechados, por ejemplo: adelantarse a los enemigos. En la reciente campaña norteamericana del gobernador Bush, parte del presupuesto de 60 millones de dólares se ha invertido en comprar sitios como bushsucks.com, bushblows.com, ... (versión libre: "Bush me la sopla"). Quienquiera que entrara en esas señas llegaría al sitio oficial, en vez de a la esperada página de ataque al candidato.

La protección de un nombre debe llegar incluso a sus erratas. La empresa Typo.Net las registraba (por ejemplo, mircosoft.com, luego vendida a un buscador), para luego redireccionar al descuidado navegante a la página correcta... mientras le colocaba un par de anuncios. Pero una grafía próxima como ésta puede ser utilizada también por un sitio que intente desprestigiar a la marca. El propietario de Wall Street Journal, ha ganado recientemente ante la OMPI (Organización Mundial de la Propiedad Intelectual) la disputa que mantenía con el propietario de los dominios Wallstreetjuonal.com y Wallstreetjournel.com

Estamos en un terreno en el que, paradójicamente, la agudeza verbal, el juego de palabras y el insulto han adquirido de nuevo la importancia que tuvieron en épocas más orales de la cultura.

 

*  *  *

 

 

[1] http://www.xstop.com/mudcrawler.htm venusup.gif (901 bytes)

[2] http://www.cybersitter.com/ venusup.gif (901 bytes)

[3] http://www.peacefire.org/info/
blocking-software-faq.html
venusup.gif (901 bytes)

[10] Un documento explicativo sobre el tema se descarga en:   http://www.eudora.com/presskit/pdf/
Flaming_White_Paper.PDF
venusup.gif (901 bytes)

[4] http://www.rincondelvago.com/ venusup.gif (901 bytes)

[5] http://www.plagiarism.org venusup.gif (901 bytes)

[6] http://www.isc.org/ds/WWW-200001/report.html venusup.gif (901 bytes)

[7] Recogido en http://www.msnbc.com/news/380732.asp venusup.gif (901 bytes)

[8] http://www.domaincheck.com/ venusup.gif (901 bytes)

[9] http://ww.mall-net.com/se_report.htm/05/29/2000 venusup.gif (901 bytes)

 

Última versión, 2 de octubre del 2000.

 

[Parte tres de cuatro]

uno, dos, tres y cuatro  siguiente

 

salida