Inteligencia Artificial

La misma IA que pinta cuadros ahora traduce de voz a texto en varios idiomas

Ya se ha probado en inglés, italiano, español y japonés. Y también en traducción entre estos idiomas.

El poder de los medios de comunicación
El poder de los medios de comunicaciónCipriano PastranoLa Razón

Openai, la compañía detrás del programa de generación de imágenes y generación de memes DALL-E y el poderoso motor de autocompletado de texto GPT-3, han lanzado una nueva red neuronal de código abierto destinada a transcribir audio en texto escrito. De acuerdo con un post publicado en el blog de la compañía, el nuevo software puede reconocer voces en inglés, español, italiano y japonés, y también puede traducirlos.

El programa se llama Whisper y aunque todavía está en fase beta, ya es posible utilizarlo para audios de 15 minutos y hacer una transcripción de prueba. Con este programa Openai apunta principalmente a investigadores y desarrolladores en una primera instancia. El uso por parte de expertos servirá para afinar detalles y aumentar la precisión de las transcripciones.

De hecho, actualmente, Peter Sterne, periodista de New York Magazine y Christina Warren, desarrolladora de la plataforma GitHub están trabajando juntos para crear una aplicación de transcripción gratuita, segura y fácil de usar para periodistas. De acuerdo con Sterne es la mejor aplicación que había usado hasta la fecha.

Las ventajas de Whisper, por ahora, es que se trataría de un programa gratuito y de código abierto, en el que cualquier podría colaborar para mejorar sus prestaciones. Al no ser parte de la Nube, también podríamos usarlo directamente desde el ordenador o el móvil, sin necesidad de estar conectados a la red. Para desarrollarlo, Openai entrenó a su inteligencia artificial con 680.000 horas de conversación en varios idiomas.

Entre los problemas que podemos señalar, de cara a un futuro no muy lejano, es que tanto Google como Apple están trabajando en programas similares y, teniendo en cuenta sus presupuestos y conocimientos previos, más la cantidad de información a la que tienen acceso, podrían hacer que Whisper quede obsoleto muy pronto. Por otro lado, tener el texto de una entrevista de 24 minutos, convertida en texto en apenas 8 minutos, como le ocurrió a Sterner, es algo que, ahora mismo, parece cosa de magia.