Buscar en el sonido

22 septiembre 2008 9:09


Usted qué preferiría, ¿escuchar (tal vez con un video) una conferencia sobre un tema que le interese mucho, o acceder a su transcripción escrita? Digamos que, si se trata de la intervención de un poeta por quien tiene devoción, puede querer apreciar las inflexiones de su voz, e incluso ver sus ademanes.

Pero si se trata de una intervención técnica o plagada de datos, el texto escrito le permitirá varias operaciones útiles: hacerse una idea global de su extensión y estructura (a través del índice o de la visión de sus apartados), leer “en diagonal” para ver si hay algo de interés, y sobre todo buscar dónde aparece un término o el nombre de un autor.

Las intervenciones orales o en video colgadas en la Red por lo general carecen de acceso a su estructura (aunque nada impediría dividirlas en “apartados”), pero lo que hasta ahora era imposible era buscar una palabra en su interior: frente a un audio o un video de interés, lo único que uno podía hacer para buscar algo era verlo entero, o, todo lo más, acelerar o saltarse partes.

Cuando se quería dar acceso al contenido de una alocución (por ejemplo un discurso), lo que se venía haciendo era transcribirlo íntegramente, aunque ya existía algún buscador que hacía incursiones en audios y videos, como Everyzing.

Pero el desembarco de Google en este sector hace pensar en que esta tecnología se extenderá: su nuevo buscador GAudi ha puesto a disposición del público búsquedas dentro de videos de políticos en YoutTube, pero cuando se amplíe, se abrirá un campo formidable a las búsquedas.

Captura de GAudi: búsqueda de health en discursos de políticos:
las marcas amarillas señalan las apariciones, y al pasar el cursor muestran el texto.

Esta tecnología debe de ser muy específica de cada lengua, y se ha comenzado por el inglés, como es lógico, pero a la vista de cómo avanzan los temas ligüísticos en Google podríamos pensar que es español siga pronto…

3 comentarios

Ponce dijo...

Veo que tanto Everyzing como GAudi en realidad buscan en el texto más que en el sonido, o al menos muestran los textos que corresponden a los audios.

22 septiembre 2008 09:31
José Antonio Millán dijo...

Es cierto: supongo que es un paso estándar en las búsquedas en audio, la conversión a texto. Éste se muestra además como una ayuda para el usuario (por si quiere copiarlo, o ver el contexto amplio).Sospecho que las versiones de GAudi sobre los discursos de los políticos vienen de un sistema automático con revisión humana, aunque tampoco descartaría pensar que el sistema coteja sus primeras transcripciones automáticas con noticias de prensa, notas de agencia, etc., que ya transcriben partes del texto.

22 septiembre 2008 09:35
Roberto dijo...

Màs que comentario solisito orientaciòn: Vivo en Mèxico (bueno,trato) y estoy iniciando un negocio para reproducir libros en CD`s que la gente pueda escuchar en su auto (principalmente), mientras pasa un par de horas (si bien le va) al`dìa, transportandose a su trabajo y de regreso a casa.Las editoriales son empresas de muchas exigencias. Estoy buscando bloggers que escriban y que estèn dispuestos a participar conmigo en esta aventura. El blogger manda el material, previo compromiso de mi parte, de que en el caso de ser seleccionado, yo me encargo de la producciòn, o sea consigo al locutor, el estudio, la ediciòn, mando a producir el CD con su cubierta, contrato la distribuciòn y venta para colocar el producto y el escritor y su servidor participan de las utilidades una vez descontados los gastos.Lo que busco son los blogs donde pueda contactar a los escitores y tratar con ellos directamente. ¿Me podrian ayudar en ese sentido?Mil Gracias,Roberto

08 octubre 2008 19:31