Inteligencia artificial

ChatGPT ya puede ver, hablar y escuchar

OpenAI añade la subida de imágenes a la IA y la integra con un nuevo modelo de lenguaje, capaz de clonar una voz a partir de unos segundos de grabación, para que el usuario puede hablar con ChatGPT

ChatGPT ya puede ver, hablar y escuchar.
ChatGPT ya puede ver, hablar y escuchar.OpenAI.

OpenAI ha anunciado el despliegue de nuevas capacidades para ChatGPTque en la práctica suponen una nueva forma de interactuar con el chatbot. Ya no se tratará simplemente de escribir en una caja de texto y leer las respuestas, sino que será posible mantener una conversación oral con el chatbot y subir imágenes para que proporcione información a partir de ellas. Estas nuevas características llegan unos días después de conocerse que Open-AI integrará DALL-E 3, la nueva versión de su modelo texto a imagen, con ChatGPT Plus y Enterprise, el próximo mes.

Los usuarios de las versiones de pago de la IA de OpenAI serán los primeros en disponer del soporte para voz y la subida de imágenes, en un plazo de dos semanas. Pero al contrario de lo anunciado en el caso de DALL-E 3, se extenderá a los demás usuarios “poco después”.

Estas capacidades no son enteramente nuevas en el ecosistema de ChatGPT. Bing Chat, la integración del modelo de lenguaje de OpenAI con el buscador Bing de Microsoft, hace tiempo que permite hablarle a la IA y escuchar sus respuestas así como subir imágenes. Mientras que la app de ChatGPT admite las preguntas formuladas oralmente, pero continúa entregando las respuestas por escrito.

Para el nuevo soporte de voz completo que llegará a la web y las apps, OpeanAI utiliza dos modelos de lenguaje. Uno es su conocido Whisper, que se encarga de entender lo que dice el usuario y transcribirlo a texto. El otro es un nuevo modelo de texto a voz, del que no se ha especificado un nombre, “capaz de generar audio similar al humano a partir de solo texto y unos pocos segundos de muestra de voz”.

Sin embargo, esta capacidad de clonar voces no estará disponible para los usuarios por riesgos evidentes de la tecnología “como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude”, ha explicado la compañía en una publicación en su blog. Su único uso en ChatGPT será el de potenciar el chat de voz junto a Whisper.

Lo que sí tendrá su disposición el usuario es la posibilidad de elegir entre 5 voces diferentes para su interacción con el chatbot. Este nuevo modelo de lenguaje también lo está testando Spotify para doblar a otros idiomas los podcasts de su plataforma.

Las nuevas capacidades de imagen tienen usos como poder tomar una foto de un lugar que se visita y mantener una charla con ChatGPT sobre el mismo. O de lo que contiene un frigorífico para que la IA sugiera qué cena se puede preparar y guíe al usuario con la receta. O subirle la imagen de un problema matemático, remarcando lo que no se entiende con las herramientas de edición de la app, y que dé la explicación. Como todo lo relacionado con la IA, también presenta el riesgo de “alucinar” en este aspecto o de que los usuarios confíen demasiado en su capacidad y la utilicen en temas importantes. OpenAI asegura que por esos motivos realiza un despliegue gradual de la tecnología que le permita refinarla antes de llegar a una mayor cantidad de usuarios.