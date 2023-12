No es oro todo lo que reluce y en inteligencia artificial, el refrán se hace, a veces, evidente. Esta semana Google ha presentado su último avance en IA, el modelo Gemini. El problema es que, pese a una presentación que evidencia sus capacidades, no todo sería real.

En una serie de vídeos, Google mostró la gama media del modelo denominado Gemini Pro demostrando cómo podía reconocer una serie de ilustraciones de un pato y describiendo los cambios que atravesaba un dibujo a un ritmo conversacional. Pero, de acuerdo con una entrevista: Google parece haber exagerado.

En su propia descripción del vídeo, Google admite que "para los fines de esta demostración, la latencia se ha reducido y las respuestas de Gemini se han reducido por motivos de brevedad". Al metraje del vídeo también se le añade la frase "secuencias acortadas en todo momento".

En otras palabras, Google tergiversó la velocidad a la que Gemini Pro puede reconocer una serie de imágenes, lo que indica que todavía no sabemos de qué es capaz realmente el modelo. De hecho, una de las sorpresas habría sido su capacidad de alcanzar algún tipo de razonamiento, el santo grial en la industria de la IA.

En realidad, la demostración no solo se aceleró significativamente para que pareciera más impresionante, sino que es probable que Gemini Pro todavía tenga las mismas capacidades antiguas que ya hemos visto muchas veces antes.

"Creo que estas capacidades no son tan novedosas como la gente piensa - tuiteó Ethan Mollick , profesor de Wharton, mostrando cómo ChatGPT fue capaz de identificar sin esfuerzo los simples dibujos de un pato en una serie de capturas de pantalla.

¿Significa esto que Google intentó engañar al público acelerando las imágenes? En otra entrevista, un portavoz de Google dijo que se hizo "utilizando fotogramas de imágenes fijas del metraje y solicitando mensajes de texto". En otras palabras, a Géminis probablemente se le dio mucho tiempo para analizar las imágenes. Y es posible que sus respuestas se hayan superpuesto a secuencias de vídeo, dando la impresión de que era mucho más capaz de lo que realmente era.

"El vídeo ilustra cómo podrían verse las experiencias de usuario multimodo creadas con Gemini", escribió Oriol Vinyals, vicepresidente de investigación y aprendizaje profundo de DeepMind de Google, señalaba en una publicación en X.

