Futuro

¿Adiós a la IA? Los expertos señalan que se queda sin datos para entrenar

Desde Elon Musk hasta el director de OpenAI, cada vez son más las voces que alertan del problema, aumentando sus errores y limitando sus conocimientos.

Inteligencia Artificial Premios Nobel
La IA se está quedando sin opcionesPIXABAY

La eficiencia de la inteligencia artificial depende de grandes cantidades de datos. Gracias a ellos, los algoritmos de aprendizaje automático aprenden a encontrar interdependencias y patrones entre los conjuntos de datos y aplican esos aprendizajes a cualquier dato nuevo que se les presente. Sacan conclusiones, establecen relaciones y las aplican a distintas ecuaciones y preguntas. Esto hace que los datos con los que trabaja sean fundamentales.

La información para entrenar una IA se puede obtener internamente, por ejemplo, datos de clientes en poder de las organizaciones, o externamente, de fuentes de terceros. Los primeros se utilizan para un entrenamiento de IA muy específico o para proyectos especializados, como en medicina o en las sugerencias de música o películas que nos hacen ciertas aplicaciones.

La segunda opción es internet: los datos de proveedores que obtienen y venden grandes cantidades de ellos. Reddit, por ejemplo, comenzó a cobrar a los usuarios por el acceso a su API en abril de 2023, probablemente como respuesta al éxito de ChatGPT y al alcance para generar una nueva fuente de ingresos a través de las ventas de sus datos para fines de entrenamiento de IA.

Otras fuentes de datos externos incluyen conjuntos de datos abiertos proporcionados por, por ejemplo, gobiernos, universidades o centros científicos. El problema es que, pese a que la cantidad de información es enorme y parece infinita, no lo es. Y la inteligencia artificial está muy cerca de agotar todos los datos disponibles en Internet para su entrenamiento.

Y esto no lo dice cualquiera. El primero que avisó de ello fue Ilya Sutskever, jefe de OpenAI, quien unas semanas atrás alerto del problema señalando, en una conferencia que “hemos alcanzado el pico de datos y no habrá más”.

Y ahora le toca a otro peso pesado de internet y la inteligencia artificial: Elon Musk. Propietario de la empresa de inteligencia artificial xAI (y de Twitter, SpaceX y Tesla entre otras), Musk se hizo eco de Sutskever y afirmó que “básicamente, hemos agotado la suma acumulada de conocimientos humanos… en materia de entrenamiento de inteligencia artificial. Eso sucedió básicamente el año pasado”.

Para Musk la única forma de salvar este muro es utilizar datos sintéticos, donde la IA “crea sus propios datos de entrenamiento. Con los datos sintéticos, la IA se calificará a sí misma y pasará por este proceso de autoaprendizaje”, añadía Musk.

Empresas como Microsoft, Meta, OpenAI y Anthropic, ya están utilizando datos sintéticos para entrenar modelos de IA. La ventaja es que esta información es mucho más económica, un 80% de acuerdo con informes de la firma Gartner. El problema es que se trata de un sistema cerrado: al usar información creada por la propia IA, las limitaciones aumentan y se producen bucles que incrementan los errores.