La historia digitalizada (y abreviada)

11 marzo 2007 10:15


Con este título provocador, Katie Hafner publica un artículo en el New York Times sobre el paso de archivos al medio digital. Es una pieza muy informativa que merece leerse deternidamente. Por un lado, recoge testimonios sobre hasta qué punto los elementos que no están digitalizados pueden caer en la más completa oscuridad para los investigadores (y en esa situación están muchos pequeños archivos locales, museos de escritores, etc.). Pero por otro lado los costes de digitalización son muy grandes:
Sólo el escaneado: de $6 a $9 para una diapositiva de 35 milímetros, de $7 a $11 cada página de papeles presidenciales, de $12 a $25 para piezas tamaño póster. Y el coste del escaneado puede ser sólo una parte relativamente menor del gasto completo de digitalizar y hacer accesible por línea.
A falta de digitalizaciones completas, la puesta a disposición digital de las relaciones de documentos de un archivo puede ser una ayuda eficaz.

Un problema de este artículo (frecuente, por otra parte) es llamar digitalización tanto a la reproducción fotográfica de un documento, como a la conversión del mismo en texto buscable gracias a un OCR (reconocedor óptico de caracteres) . Los servicios que rinden uno y otro sistema son muy diferentes, pero el segundo pude ser mucho más caro, y llevarse a cabo difícilmente sobre materiales impresos remotos.

En vista de que no se puede digitalizar todo, una reflexión que empiezan a hacer los más responsables (como la directora de la Library of Congress) es fijarse en qué necesitan los usuarios:
Estamos tratando de hacer un trabajo mejor de comprensión de los tipos de información que la gente está buscando en la Web, y los tipos de búsquedas que traen gente a los locales de la biblioteca.
Lógico, ¿no? Pero no es raro ver grandes proyectos de digitalización que no tienen ni idea de qué harán luego los usuarios con ellos...

Otro problema grande de las digitalizaciones son los materiales sujetos potencialmente a copyright:
Un estudio publicado en 2005 por la Library of Congress y el Council on Library and Information Resources encontró que alrededor del 84 por ciento de las grabaciones históricas de sonidos que recogen jazz, blues, gospel, country y música clásica en los Estados Unidos hechos entre 1890 y 1964 son virtualmente inaccesibles.
¿Cuál es el volumen de documentos y libros que quedan por digitalizar? Inmenso, a pesar de los esfuerzos realizados. Google ha digitalizado ya un millon de libros, decenas de miles de revistas científicas y ahora está digitalizando millares de patentes, hasta 1790.

El esquema que reproduzco parcialmente (accesible desde la primera página del artículo) muestra una estimación de fondos digitalizados en los Estados Unidos y de fondos pendientes de ello.

Etiquetas: , ,

1 Comentarios:

Anonymous Gorki dijo...

Concedo que el revisar los OCR sea carísimo. Bueno hagamos solo lo que es barato, por ejemplo libros y negativos, (hay máquinas que escanean automáticcamente) y hagamos del texto un OCR sin correccion.

Posiblemente obtengamos textos en el que solo el 50% de las palabras son comprensibles, pero puede ser suficiente para introducir los buscadores y que eztraigam y claifiquen y permitan recuperar la información.

Cuando un investigador deseé leer un texto, le suministramos el escaneado imagen y el imperfecto OCR para que él lo mejore.

Lo importantye es digitalizar mucho, ya habrá tiempo luego de mejorar la comprensión del texto o mejorar el funcionamiento de los OCR.

La perfección es el emnemigo de lo bueno.

12 marzo, 2007 10:53  

Publicar un comentario en la entrada

<< Home