Google Libros, ahora con texto

04 julio 2007 10:16


Como bien saben nuestros lectores, Google Libros ha venido ofreciendo el texto íntegro en PDF de las obras fuera de copyright. Aunque por muchos conceptos esto fuera una bendición, esta forma de dar acceso a los libros digitalizados en el proyecto no dejaba de tener sus críticas, entre otras que el PDF suministrado no permitía buscar palabras dentro de él (la búsqueda debía de hacerse a través de Google Libros). Es decir: lo que se daba era la foto del libro, en vez de su texto buscable.

Como cuenta Dirson, ahora los libros fuera de copyright se ofrecen con la opción de ver el texto, página a página. El OCR (reconocimiento óptico de caracteres) que ha aplicado Google es la técnica que permite pasar de la imagen del libro:
al texto electrónico (buscable, copiable...):
DICCIONARIO ETIMOLÓGICO que en rigor merezca tal título,
no lo posee hasta ahora lengua alguna, ni lo poseerá en
mucho tiempo. En efecto, para llamarse con toda propiedad
etimológico un Diccionario, además de contener la lista
alfabética completa de las voces primitivas y simples,
deberia consignar respecto de cada una de ellas las particularidades
siguientes: \ .*
Su etimología inmediata, ó, mejor dicho , su origen
inmediato, su última procedencia, esto es, la indicación
de la lengua de que se hubiese tomado ó proviniese inmediatamente,
poniendo á continuación la voz de correspondencia
ó la voz equivalente en dicha lengua.
2." En qué época se habia tomado.
3." Su significación recta ó primitiva cuando fue admitida,
justificándola con la cita de algún texto impreso, y
aun manuscrito, siempre que fuese de autoridad competente.
4.* La primera forma que en la pronunciación, y por es
crito, tuvo aquella voz al tomarse de la lengua de origen
inmediato, y las alteraciones ortográficas ó prosódicas que
(El ejemplo corresponde a un Diccionario etimológico de la lengua Castellana).

El OCR de los libros no es perfecto, sobre todo en impresiones antiguas, con letras irregulares, pero muchas veces es suficiente para una búsqueda, para copiar un párrafo, etc.

Sería mejor obtener el texto digital íntegro, en vez de página a página, pero esta nueva posibilidad supone un salto cualitativo en el servicio que presta Google a la comunidad de lectores y estudiosos.

Etiquetas: ,

1 Comentarios:

Anonymous Alex dijo...

Y no sólo para lectores y estudioso: precisamente la gente con discapacidades puede usar el tecto electónico para convertir a voz o a braille de forma automática, lo que no se puede hacer con la imagen del texto.

04 julio, 2007 14:22  

Publicar un comentario en la entrada

<< Home