Inteligencia artificial
Estos son los idiomas en los que es más barato y más caro usar la IA: ¿Cuánto cuesta en español?
El sistema de tokenización que establece el coste de la información creada por las inteligencias artificiales generativas supone una gran diferencia entre usarlas en un lenguaje u otro
¿Influye el idioma en el que trabaja una inteligencia artificial en su coste? La respuesta es que sí y mucho más de lo que podría suponerse, tanto como para crear una brecha entre la inteligencia artificial en inglés y el resto de idiomas por la elevada diferencia de precio entre uno y otros. Un estudio realizado por un equipo de científicos de la Universidad de Oxford demuestra que, debido a la forma en que empresas comoOpenAI (desarrollador de ChatGPT) miden y facturan los costes de los servidores y las entradas y salidas de datos, el inglés sale mucho más barato que otros idiomas.
La investigación, realizada por Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr y Adel Bibi muestra como, por ejemplo, el chino simplificado es el doble de caro que el inglés y la lengua Shan (Birmania), en el otro extremo, 15 veces más. ¿Dónde quedan los costes de usar una IA en español? Un 50% más caro que en inglés, de acuerdo con el estudio titulado “Los tokenizadores del modelo de lenguaje provocan una brecha entre los idiomas”.
Yendo a cifras más concretas, el documento refleja como una frase en birmano costaba 198 tokens mientras que la misma sentencia en inglés se quedaba en solo 17 tokens. Por lo tanto, una oración en birmano cuesta 11 veces más que en inglés.
¿Qué son los tokens?
Los tokens son la unidad de medición que representa el coste computacional de acceder a un modelo de lenguaje a través de una API, como las de ChatGPT de OpenAI o Claude 2 de Anthropic.
Este sistema de tokenización, que puede tener diferentes costes según la empresa y el modelo de lenguaje, supone que los modelos usados en otros idiomas que no sean el inglés son mucho más caros de emplear y de entrenar. La razón de fondo es que un idioma como el chino u otros tienen estructuras diferentes y más complejas, bien gramaticalmente o por el número de caracteres requeridos, que el inglés, lo que provoca una mayor tasa de tokenización. Esto no solo supone un mayor coste, sino que el tener que usar más poder computacional afecta también al procesamiento y al tiempo de respuesta.
OpenAI cuenta con un tokenizador del modelo de lenguaje GPT-3 (ChatGPT usa GPT 3.5 y ChatGPT Plus, GPT-4) en el que puede comprobarse las diferencias entre el inglés y otros idiomas. Una expresión como “tu afecto” son solo 2 tokens en inglés, pero 8 en chino simplificado. Esto sucede a pesar de que la expresión en chino necesita menos caracteres, 4, que en inglés, 14. En español también son menos caracteres que en inglés, 9, pero el costo sube a 4 tokens.
En esta herramienta se puede leer que, como regla general, 1 token equivale a 4 caracteres en inglés y 100 tokens a unas 75 palabras, pero la propia OpenAi advierte que esta regla no puede trasladarse a otros idiomas.
Una limitación de la tecnología
Según el estudio, la ventajosa situación del inglés también es reflejo de los conjuntos de datos con los que las empresas entrenan sus inteligencias artificiales. Y los mismos problemas se reproducen con formas diferentes de cuantificar el costo como el conteo de bits o de caracteres en lugar de la tokenización. Aparentemente, ningún idioma puede superar la practicidad del inglés que seguiría presentando costos más bajos debido a su inherentemente mayor compresibilidad en menor número de tokens.
El estudio concluye que el problema no radica en la forma en que se ha monetizado a los modelos, sino que es una limitación de la tecnología y de los modelos base considerados para el entrenamiento. Algo que afecta a todos los modelos de lenguaje.
✕
Accede a tu cuenta para comentar