De imagen a imagen vía Google

19 septiembre 2011 9:09

La habilidad de los algoritmos de Google sólo corre pareja con su capacidad para poner las cosas fáciles. La búsqueda visual, que durante años fue básicamente un puente texto-imagen, ahora es una eficaz máquina imagen-imagen. Por ejemplo: arrastrando y soltando el archivo superior sobre la ventana de Google imágenes, se obtiene la siguiente respuesta:

A pesar de ciertos errores (más frecuentes con fotografías que con dibujos), el servicio de detección de imágenes similares funciona muy bien. La imagen de entrada se puede suministrar arrastrando y soltando, subiéndola desde el ordenador o (si la imagen está en la Web), aportando su URL.

Otra posible utilidad de este servicio sería localizar imágenes reutilizadas. La imagen inferior (una instalación de Alicia Martín, que fotografié en Madrid en octubre del 2003), se publicó en este sitio hace años:

Pues bien: ahora se detecta en más de un millar de sitios web (y, por cierto, prácticamente ninguno cita autoría de la obra, de la fotografia, la licencia o la página de donde se tomó).

La integración de servicios de Google permite que esta habilidad se ponga al servicio del reconocimiento de temas en la cubierta de los libros, como vimos en un post reciente sobre una app para iPhone.

Etiquetas: , ,

Del teléfono al libro

12 septiembre 2011 9:09

Los desarrollos de Google abarcan un conjunto inmenso de dominios, cuya integración acaba de comenzar, y probablemente  aún hemos visto muy poco de lo que ésta puede dar de sí.

Por ejemplo: el reconocimiento de imágenes del mundo real, que crea un cómodo puente entre las cosas y las informaciones digitales sobre ellas. Sí: disponíamos de los códigos QR (de los que hemos venido hablando), pero que son una representación abstracta creada ad hoc; el mundo (reconozcámoslo) no está lleno de estos cuadraditos listos para ser capturados por nuestros móviles. En el terreno de los libros está el código ISBN, fácilmente interpretables por aplicaciones como ZBar, pero de nuevo se trata de un constructo creado para ese fin.

Pero Google Goggles parte del mundo real: el usuario fotografía desde su smart phone monumentos, textos, etiquetas de productos u obras de arte, y el software reconoce qué son y aporta informaciones sobre ellos.

En el mundo del libro (que es el que interesa a efectos de este blog), se puede partir de la fotografía de una cubierta: una simple fotografía de móvil, no muy buena, como la superior.

La aplicación móvil de Google la escanea y comienza la labor de reconocimiento: se identifica la imagen de la cubierta (si pertenece al mundo del arte), se reconoce su autor y se lee el título del libro:

¡Cuánto sabe Google!, ¿no? La verdad es que la imagen de la Virgen con el niño y su atribución a Jean Fouquet son datos que están en la Web, porque ahí los hemos puesto nosotros: sin ir más lejos, en la Wikipedia. Los algoritmos de Google han identificado la fotografía con la imagen del cuadro en cualquiera de los miles de sitios donde aparece al lado del nombre de su autor.

Los programas de reconocimiento de caracteres, OCR, del buscador (que ya veíamos en acción en Google Docs) han leído las letras de la cubierta, y, tras plantear la hipótesis de que el objeto fotografiado es un libro, lo han localizado y han buscado todo lo que Google tiene sobre él, de modo que al pulsar “Book” en la pantalla superior obtenemos:

La obra está perfectamente localizada. Bajando por la pantalla se puede acceder a diferentes informaciones sobre la ella: el sitio web del autor, una reseña del New York Times, webs de discusión de lecturas, o muchos otros sitios:

El lector que ha encontrado el libro en casa de un amigo (o en una librería) puede así hacerse una idea de la obra, pero accediendo a Google Libros puede lograr algo mejor: explorar su contenido. ¿Hablará la History of the Breast sobre las “amas de cría” (wet nurses)? Hagamos una búsqueda:

En efecto: la expresion aparece 24 veces en la obra, y se ofrecen párrafos en los que está presente. Para una información más amplia sobre el contenido, la aplicación proporciona también la nube de expresiones y nombres de su interior, con su frecuencia relativa:

Supongamos que a estas alturas la persona interesada por la obra desea comprarla. Si está disponible como e-book, Google Books se la ofrecerá pronto como descarga, pero también está ahí el enlace a Amazon, donde igualmente descargarla, o bien comprarla como libro físico.

Si se quiere comprar como libro inmediatamente, y uno está en una gran ciudad, mediante el botón Google Shopping (aún no plenamente operativo en muchos países), se puede acceder a las librerías y otros lugares donde esté a la venta, naturalmente con indicación de qué precio tiene en cada uno. Mientras dure en España el precio fijo del libro, eso no supondrá una diferencia, aunque (si el usuario ha permitido que el dispositivo conozca su localización) sí que podrá tener el dato de cuál es el establecimiento más próximo que lo tiene en stock.

Pues bien: ése ha sido el recorrido, casi de ciencia-ficción, desde tener un ejemplar en la mano hasta saber casi todo lo posible sobre la obra y acceder a su compra. Naturalmente: este recorrido ideal supone, desde la parte del editor y del librero:

que Google puede acceder a una base de datos con el título del libro y sus metadatos: entre otros, autor, editorial, ISBN, materia…  (para España, sería DILVE)

que el editor haya consentido en integrar el texto completo del libro en Google Libros para que se pueda buscar en su interior

que los principales libreros hayan puesto sus stocks en tiempo real a disposición de Google

Sí: conectar el mundo real y el digital cuestan un esfuerzo suplementario a todos los actores de la cadena, pero es posible que valga la pena…

Etiquetas: , , , , , , ,

Gloria y desaparición del diccionario en la era digital

01 agosto 2011 12:12

Con este título he publicado un artículo en El País. Comienza así:

Los diccionarios son uno de los muchos objetos que han desaparecido de la mesa de trabajo de escritores, estudiantes, investigadores…, junto con bolígrafos, cuadernos y tablas de logaritmos, sustituidos todos por un rectángulo iluminado provisto de teclado. No es que hayan perdido su utilidad, sino que las funciones que cumplían las cubren ahora un conjunto de programas y sitios web.

En él analizo características lingüísticas y técnicas de los diccionarios digitales, por lo que me perdonarán que incluya este post tanto en mi blog de lengua como en el de edición.

Foto:  diccionario de húngaro y tabla de logaritmos
ayer en un mercadillo de Cadaqués

Etiquetas: , ,

La prueba PISA de lectura digital

29 junio 2011 11:11

Es curioso comparar la nota de prensa del Ministerio de educación (Un 77% del alumnado español de 15 años tiene un rendimiento medio o alto en lectura digital) y la noticia en El País (A los alumnos españoles se les atraganta la lectura digital. “España ocupa el puesto 14 de los 19 países que han participado en la nueva prueba del informe PISA de la OCDE”), porque demuestra las distintas interpretaciones que se pueden dar a unos mismos datos.

Pero no nos ocuparán aquí por el momento las interpretaciones, sino el diseño de la prueba. Esta es la primera vez que PISA analiza la “lectura digital”, y conviene examinar de cerca en qué ha consistido el test. Aquí está el Resumen ejecutivo. Y estas son las pruebas (usuario: public, contraseña: access). Hay que ir a la columna “Spain Spanish” y hacer clic en la lupa para ver la prueba tal y como el alumno la realizó y al documento Word para su evaluación.

El alumno se vio frente a una pantalla con un falso navegador de Internet (imagen superior), y fuera de ella estaban las instrucciones específicas. Estas no siempre eran simples. Por ejemplo:

Mira el comentario de Marga del 10 de marzo. Pincha en “Escribe una respuesta” y contesta a Marga. En ella, responde a su pregunta sobre qué participante, en tu opinión, sabe más sobre este tema. Justifica tu respuesta. [Nota: usa el botón Atrás para consultar la página del foro.]

Pincha en “Envía la respuesta” para añadir tu respuesta al foro.

Salta a la vista una dificultad: interpretar las instrucciones. Operaciones que muchos usuarios hacen sin problema se pueden convertir en difíciles cuando se las desmenuza en una secuencia de órdenes. Cierto que todos los que hicieron el test estaban ante las mismas dificultades, con lo que los datos comparativos probablememente indican una realidad.

Estas son las pruebas:

La primera prueba (“Quiero ayudar”) es una comprensión lectora sobre el texto de un blog, con una pequeña excursión por su menú, salida a una web ajena y uso del correo electrónico.

La segunda (“Olor”) comienza en un buscador simulado, y plantea la evaluación de los recursos a los que se accede desde él.

La tercera (“El café de los filósofos”) presenta una interfaz gráfica anticuada (pero aún presente en productos didácticos), cuya posibilidad de navegación repite el menú lateral. Un ejercicio comprende el uso de menús desplegables.

La cuarta (“Helado”) se realiza toda sobre un buscador, la pertinencia de cuyas respuestas hay que evaluar sin entrar en las páginas concretas.

La quinta (“Phishing”) es una simple comprensión lectora pero sobre un tema propio de la red: parece creada para comprobar si la información que en la propia Web alerta sobre malas prácticas en ella es adecuadamente entendida.

La sexta (“Búsqueda de trabajo”) parte de un buscador, y reparte la información pertinente a través de varias pestañas; hace uso también de menús desplegables.

La séptima (“Hablemos”) se desarrolla en un foro, y el usuario tiene que lidiar con los hilos y la cronología de los mensajes (imagen superior), y por fin escribir un mensaje.

Las pruebas están razonablemente bien diseñadas. Pero reflejan no sólo habilidades de lectura/interacción/producción digital, sino también las preocupaciones actuales sobre evaluación de los recursos en línea, problemas de privacidad y engaño, etc.

¿Qué sería “lectura digital”? La suma de un complejo conjunto de habilidades de extracción de información, pero también de producción (estamos en lo del 2.0, ¿no?). Observen el conjunto de etiquetas que están al pie de este post: todos estos temas están (o deberían estar) presentes en la lectura/escritura digital.

He echado en falta pruebas que pongan en juego la habilidad de interpretación de páginas multilingües (pues la información en inglés acecha casi en cualquier rincón, a pesar de los esfuerzos de Google por confinarnos a una lengua). La cumplimentación de formularios complejos (como los que deben rellenar los jóvenes para hacerse miembros de cualquier red social) no está evaluada. Tampoco la capacidad de trabajar con distintas ventanas abiertas simultáneamente (más allá de la presencia anecdótica en las pruebas de pestañas del navegador): los usuarios trabajan así… Las operaciones de construir documentos a partir del copia-y-pega son básicas en cualquier contexto, y están también ausentes de esas pruebas. Las dinámicas de saltar de página en página en pos de una información, para eventualmente volver al punto de partida, están sólo esbozadas. Y el importante mundo de las licencias de reutilización brilla también por su ausencia…

Por último: las habilidades digitales ya no están confinadas a un ordenador con navegador: los teléfonos móviles son el soporte de mucha lectura y escritura (en SMS), y los avanzados (tipo iPhone) permiten juego en redes sociales y Twitter… ¿Me quivoco al pensar que una mayoría de las interacciones digitales de los jóvenes transcurren ahí? Pero estas pruebas se empezaron a diseñar a principios del 2009, y todo va (demasiado) deprisa…

Ojalá que el debate público sobre qué deberían hacer nuestros alumnos en el mundo digital sirva no sólo para perfeccionar estas pruebas, sino sobre todo para reflexionar sobre las trampas y las carencias, pero también las promesas del medio .

Etiquetas: , , , , , , , ,

Antes del multimedia, 2: el espacio del tiempo

03 junio 2011 12:12

Escribía yo hace años:

Nuestra lengua está llena de usos metafóricos que asimilan el tiempo al espacio: “se acerca tal fecha”, “qué lejos veo las vacaciones”. En esa misteriosa equiparación, a veces nosotros estamos quietos, y el tiempo viaja (“ya llega el fin de semana”), y otras veces somos nosotros los que nos movemos (“nos acercamos a mi cumpleaños”).

Pues, bien esta traducción del tiempo a espacio (que parece ser un universal de las lenguas del mundo) es útil con fines de representación. Si asimilamos  la concatenación de años a una secuencia de puntos (una línea), podremos ir anotando a lo largo de ella los hechos ocurridos, y así disponer de una cronología gráfica. Pero, ¡ay!, las páginas de un libro son de por sí limitadas, mientras que el tiempo se extiende y se extiende. ¿Cómo resolverlo?

Había precedentes: al fin y al cabo, también un texto refleja un discurso continuo, y sin embargo se corta a cada página (salvo en soluciones extremadas): ¿cómo superar los límites de la página? Sencillamente, con la pirueta mental de dejar en suspenso la lectura a cada final de página o giro de hoja, para reanudarla inmediatamente.

Pero en contenidos gráficos, la página es un límite estrecho que puede ser conveniente forzar. Una solución que adoptó en 1480 el Fasciculus Temporum de Werner Rolevinck es aprovechar que en la forma de códice cada página tiene una contigua. En esta preciosa obra, la línea temporal (arriba, detalle) va recorriendo aproximadamente el centro de la doble página, y encima y debajo de ella aparecen  los acontecimientos correspondientes. Al llegar a su extremo derecho, se gira la hoja y mentalmente el lector reanuda el recorrido en la siguiente página doble.

Este recurso se puede mejorar si además permitimos que tanto la página de la izquierda como la de la derecha se desplieguen, duplicando su superficie. Es la solución que adoptó la monumental Synchronoptische Weltgeschichte (algo así como “Historia universal en cronología sinóptica”) de Arno Peters, Munich-Sollen, Universum Verlag, 1980, que se compone de dos tomos.

El primero contiene unos catorce metros de línea temporal, reducidas por fortuna a una veintena de  páginas desplegables como las que aparecen arriba. El segundo es el índice que permite localizar cualquier personaje o acontecimiento (por ej.: “insulina, descubrimiento de”), en un año y en una de las líneas paralelas en que se organiza (la dedicada a la ciencia). Pero ya el Fasciculus Temporum presentaba en sus primeras páginas un índice para explorar alfabéticamente la línea temporal…

Sí: las técnicas digitales tienen preciosos recursos para presentar cronologías, como la de la British Library (abajo), pero este breve recorrido por quinientos años de plasmación del tiempo en libros nos habrá convencido de que los principales problemas ya habían sido resueltos.

Etiquetas: , , ,

La indignación tuiteada

21 mayo 2011 20:20

Twitter se ha convertido en una herramienta fabulosa… ¿Quién lo iba a decir? Confusa y desordenada, pero resume en una sola plataforma funcionalidades de chat y de red social, de blogs y de páginas web condensados. ¿Habrá que añadir que las alertas y las búsquedas funcionan muchas veces mejor que en Google? Pues sí…

En estos interesantes y (¿por qué no decirlo?) esperanzadores tiempos que está viviendo España, hemos tenido una fascinante fuente de información en Twitter. Dos muestras: el flujo de mensajes con los hashtags principales relacionadas con el 15-M (arriba) y la evolución de algunas de ellas en el tiempo, a través de una aplicación de Impure.

Etiquetas: ,

Anuario Thinkepi, 2011

19 mayo 2011 9:09

Presentado como “Análisis de tendencias en información y documentación”, acaba de aparecer la quinta edición del Anuario Thinkepi, fruto del trabajo del Grupo de Análisis sobre Estrategia y Prospectiva de la Información (ThinkEPI):

ThinkEPI está formado por profesionales y académicos de la biblioteconomía y la documentación, con experiencia y reconocido prestigio, que con cierta periodicidad publican a través de la lista de distribución de correo electrónico IweTel, de este web y de otros medios de difusión, notas con micro-estados del arte, reflexiones sobre temas profesionales de actualidad, perspectivas ya consolidadas ante nuevos productos, opiniones, observaciones, etc.

El tomo reúne medio centenar de colaboraciones, que pasan revista a los temas más importantes de la actualidad, agrupadas en los siguientes apartados (aquí está el índice completo):

1. Presentación
Por Tomàs Baiget

2. Prólogo
Por Glòria Pérez-Salmerón

3.A. FORMACIÓN

Informe de situación: Formación del bibliotecario como alfabetizador informacional
Por María Pinto y Alejandro Uribe-Tirado

3.B. PROFESIÓN

Informe de situación: Profesionales de la información en 2010
Por Carlos Tejada-Artigas

3.C. BIBLIOTECAS

Informe de situación: Bibliotecas: un año de crisis y ¿transformación?
Por Joaquin Selgas

3.D. RECURSOS Y MERCADO DE LA INFORMACIÒN

Informe de situación: Información científica. Oferta de productos y servicios multidisciplinares en 2010
Por Ángeles Maldonado-Martínez

3.E. REDES SOCIALES Y WEB 2.0

Informe de situación: Evolución de la Web social en 2010
Por Fernando Juárez-Urquijo

3.F. INDIZACIÓN Y RECUPERACIÓN

Informe de situación: Nueva normativa de catalogación: pasos hacia un futuro prometedor pero incierto
Por Assumpció Estivill-Rius

3.G. PUBLICACIÓN CIENTÍFICA

Informe de situación: 2010 a vista de pájaro: publicación científica, OA, indicadores e informetría
Por Isidro F. Aguillo

3.H. SISTEMAS DE INFORMACIÓN Y TECNOLOGÍAS

Informe de situación: Tendencias tecnológicas de 2010
Por Jorge Serrano-Cobos

Etiquetas: , , , ,

Más sobre Dirae

16 mayo 2011 9:09

Se preguntaba Silvia en un comentario al post anterior, sobre Dirae, cómo habría que clasificar este diccionario. Creo que la respuesta es sencilla: es un diccionario digital.

¿Y cuál es un buen diccionario digital, sea en CD-ROM o en la Web? De nuevo la respuesta es sorprendentemente simple: el que permite el acceso a sus datos de todas las maneras posibles. Los diccionarios en papel son en el fondo un conjunto de fichas, encuadernadas juntas por comodidad, y por lo tanto sólo pueden dar acceso desde el lema ordenado alfabéticamente. Pero en formato digital, el acceso es ilimitado. O debería serlo…

Hay que darse cuenta de que interfaces como el de la RAE para su diccionario en línea lo único que hacen es dificultar el acceso a algo que podía ser plenamente consultable. Imaginemos que tuviéramos el Diccionario de la Lengua Española editado simplemente en páginas HTML, y que hubiera una lista general de palabras con enlaces a cada entrada. Esta sencilla interfaz daría al consultante las mismas facilidades que la actual aplicación, pero permitiría además que el que quisiera conocer el vocabulario relacionado, por ejemplo, con el río, buscara simplemente en qué páginas estaba la palabra. Pues bien: eso es lo que hace Dirae y no se puede hacer con el DRAE en línea.

La Academia no está sola en esto: muchos editores de obras digitales restringen artificialmente sus capacidades para limitar su utilidad, por motivos comerciales. Así, ahora tenemos DVDs que se pueden ver en una zona del planeta pero no en otra, libros que se pueden leer sólo en un dispositivo, canciones que sonarán sólo en un aparato, etc. Paradójicamente, y dado que el acceso abierto a las obras digitales está resuelto tecnológicamente desde hace décadas, los mayores esfuerzos de los editores de hoy se dirigen a limitarlo…

Vamos, como si siglos después de la invencion de la imprenta, de golpe nos vendieran un diccionario con las páginas cubiertas por un cartón en el que hubieran practicado una ventanita, y sólo pudiéramos leer el texto que aparece a través de ella, moviéndola trabajosamente de una esquina a otra, de arriba a abajo de la página…

Etiquetas: , ,

La clasificación temática BIC en español en DILVE

12 mayo 2011 9:09

DILVE acaba de presentar la versión 1.0 en español, basada en la v. 2.1 inglesa, de BIC, sistema de clasificación de materias. En un post de hace meses sobre la clasificación en el mundo del libro informamos que se había creado una comisión dentro de DILVE para traducir y adaptar el BIC, y la problemática que hay detrás de las distintas opciones que se pueden adoptar.

La tarea está terminada (a falta de revisar las áreas jurídica y científico-técnica) y se puede descargar en la página de DILVE, apartado “Materias en español”. A partir del 1 de enero del 2012, el sistema BIC será obligatorio en la solicitud de alta en el ISBN.

Sobre el sistema BIC dice la Guía de uso descargable en la misma página:

El Sistema de clasificación BIC es un sistema de clasificación comercial uso por la cadena del libro, no es un sistema de clasificación del conocimiento (como puede ser la Clasificación Decimal Universal). El criterio principal a la hora de clasificar una obra con BIC es su disposición en un punto de venta y la orientación hacia el usuario; no se trata de describir el contenido de la obra. El planteamiento es pensar en qué lectores reales va dirigida la obra.

La materia es uno de los más importantes metadatos que puede llevar una obra (electrónica o no). Pero de nada servirá este importante esfuerzo si los editores, que son quienes conocen los libros, no la asignan bien a las obras de su catálogo.

Etiquetas: , ,

Buscador de e-books

12 abril 2011 9:09

Neotake es un buscador de e-books creado por una empresa en Málaga. Declara haber registrado cuatro millones y medio de e-books, en diversas lenguas, aunque echo en falta títulos que están en editoriales virtuales españolas bien conocidas, y otros presentes en Google Libros (supongo que porque están aún en fase inicial).

El buscador está dotado de funciones sociales de valoración y comentario, y tiene un rasgo que puede ser muy útil de comparador de precios. Para cada título informa sobre si es gratuito (o si no lo es, su precio), su lengua, los formatos en que está accesible y la presencia o no de DRM. En este primer resumen sería útil también tener el nombre el editor (o distribuidor virtual), que luego aparece cuando se hace clic sobre el título.

Seguiremos atentamente su desarrollo, porque puede ser muy útil con la proliferación de sitios de venta y descarga: un libro puede estar, incluso simultáneamente, en el sitio de su editor, del propietario del formato en el que se distribuye, de las librerías, de distribuidores virtuales, etc.

Etiquetas: , ,