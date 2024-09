Strawberry, la rumoreada nueva inteligencia artificial de OpenAI centrada en el razonamiento, ya es una realidad. OpenAI la lanzó ayer bajo el nombre de OpenAI o1 y como una nueva opción a elegir entre los modelos de lenguaje a los que tienen acceso los usuarios de pago de ChatGPT. La compañía de Sam Altman ha entrenado este modelo para resolver problemas por sí mismo utilizando una técnica conocida como aprendizaje por refuerzo, que enseña al sistema a través de recompensas y penalizaciones, y lo que OpenAI llama ‘cadena de pensamiento’ para procesar las consultas de forma similar a como los humanos procesan los problemas, repasándolos paso a paso. El resultado son tiempos de espera más largos para obtener respuestas, pero a cambio o1 ‘puede razonar a través de tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencias, codificación y matemáticas’.

Según explica la compañía en su blog, ‘entrenamos a estos modelos para que pasen más tiempo pensando en los problemas antes de responder, como lo haría una persona. A través de la capacitación, aprenden a perfeccionar su proceso de pensamiento, probar diferentes estrategias y reconocer sus errores’. El plural es porque o1, que está disponible en versión preview y recibirá actualizaciones regulares, viene acompañado de un segundo modelo de lenguaje que también está ya en ChatGPT Plus, o1 Mini, una versión más ligera, rápida y barata que o1.

Una IA con menos alucinaciones y que rinde como un estudiante de doctorado

Uno de los beneficios que notarán los usuarios es que OpenAI o1 alucina menos que modelos anteriores como GPT-4o. ‘Hemos notado que este modelo alucina menos’, ha señalado Jerry Tworek, jefe de investigación en OpenAI, a The Verge, pero ‘no podemos decir que resolvimos las alucinaciones’.

De acuerdo con los tests realizados por OpenAI, el nuevo modelo rinde de forma similar a un estudiante de doctorado en tareas de física, química y biología. También destaca en matemáticas y programación. En comparación con GPT-4o, mientras que el que hasta ayer era el modelo más avanzado de la compañía consigue resolver el 13% de los problemas en un examen de calificación para la Olimpiada Internacional de Matemáticas, OpenAI o1 llega al 83%. En programación, alcanzó un 89% en competiciones de Codeforces.

Una alternativa a GPT-4o, no un sustituto

Sin embargo, OpenAI no presenta a o1, que ha sido entrenado con un conjunto de datos diferente, como un sustituto de GPT-4o, sino como una alternativa. Recomendables para tareas en los campos mencionados, pero no tanto para otras más comunes. GTP-4o es mejor en tareas de texto y, sobre todo, más rápido. Además, el nuevo modelo carece de capacidades que sí tiene este como navegar por Internet para buscar información o subir imágenes y archivos al chatbot.

Y entonces, ¿por qué tanto revuelo con sus capacidades de razonamiento? Lo que distingue a o1 es su capacidad para llevar a cabo procesos complejos que requieren varios pasos y que son lo que hace que necesite un mayor tiempo para elaborar sus respuestas. Este, según la complejidad, puede variar desde unos pocos segundos hasta más de un minuto en asuntos verdaderamente exigentes. Durante este proceso, la IA repasa varias veces la tarea desechando errores en el resultado hasta dar con una que considera está libre de ellos. Esto es a lo que se refiere OpenAI cuando habla de que lo que es en esencia un modelo predictivo de palabras tiene ‘capacidades avanzadas de razonamiento’ y las equipara a las de un humano.

Más difícil de romper

La compañía también asegura que este nuevo modelo de inteligencia artificial es más difícil de ‘romper’, lo que se conoce como ‘jailbreak’, y conseguir que se comporte de forma diferente a la que quiere OpenAI. En un test particular de Jailbreak en el que GPT-4o puntúa 22 en una escala de 1 a 100, o1 llega a 84.

Esta mejora se debe a que OpenAI 01 ‘puede razonar sobre nuestras políticas de seguridad en contexto cuando responden a peticiones potencialmente inseguras’ y ‘aplicarlas de forma más efectiva’. Para OpenAI, ‘entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al tiempo que aumenta los riesgos potenciales que se derivan de una mayor inteligencia’.

Más caro para los desarrolladores y con límites de uso para los usuarios

OpenAI o1 está disponible para los usuarios de ChatGPT Plus y Team, y llegará la próxima semana a los de Enterprise y Edu. Tiene un límite de uso que está situado en 30 mensajes semanales para o1 y 50 para o1 Mini. OpenAI irá ampliando estos límites y también trabaja en dejar que sea ChatGPT el que elija automáticamente qué modelo de lenguaje es el más adecuado para la tarea propuesta, en lugar de que el usuario lo haga manualmente.

El nuevo modelo no es barato. Los precios por usar la API, que permite que otros desarrolladores usen la IA en sus productos, son sensiblemente más caros que los de los modelos anteriores y llegan a 15 dólares por millón de tokens o fragmentos de texto de entrada analizados por el modelo y 60 por el millón de tokens de salida. GPT-4o cuesta, respectivamente, 5 y 15 dólares. Y aquí es donde entra o1 Mini, no tan capaz pero más económico y rápido. OpenAI lo recomienda especialmente para tareas de programación y está previsto que llegue también a los usuarios gratuitos de ChatGPT, aunque no hay fecha.