Tecnología

¿Por qué la IA no sabe dibujar manos?

Puede que la respuesta nos diga más sobre nosotros que sobre la inteligencia artificial

Mano iluminada con la palma hacia arriba
Mano iluminada con la palma hacia arriba JacksonDavidPixabay

La inteligencia artificial ha traído muchos cambios (y más que traerá), pero una de las cosas más extrañas que implica es que, por primera vez, es normal que no podamos responder cuestiones sobre cómo funciona una tecnología que nosotros mismos hemos inventado. Por supuesto que había ocurrido antes. Por ejemplo, en la prehistoria nadie comprendía los procesos físicos que permitían hacer fuego con dos piedras, ni siquiera cuando ya tenían la tecnología para hacerlo. La diferencia es que, ahora parece que la norma es responder con un “no lo sabemos” a las preguntas sobre por qué la IA hace tal o cual cosa. Y, para no romper la tendencia, este artículo hará lo propio. Porque mal que nos pese, no sabemos con seguridad por qué le cuesta tantísimo representar manos. La parte positiva es que tenemos algunas pistas y nos hablan más sobre nosotros mismos que sobre la IA.

Cualquiera que haya trasteado un poco con las inteligencias artificiales generadoras de imágenes, como DALL.E, Stable Diffusion o Midjourney sabe que, por espectaculares que sean sus resultados, no son perfectos. Si nos fijamos en ellos nos daremos cuenta de que nada es lo que parece ser. Ese ojo que claramente parece un ojo, mirado desde cerca, se convierte en un conjunto de píxeles distribuidos más o menos en los mismos sitios que esperaríamos de un ojo, pero algunos estarán movidos o harán cosas extrañas. Hasta aquí entendemos bastante bien lo que ocurre, porque las IAs trabajan con estadística, pero hay cosas que representan peor que otras, y ahí es donde empezamos a perdernos. Las manos son solamente la punta del iceberg.

¿Acaso puedes tú?

Muchos usuarios de redes sociales han utilizado los errores “pictóricos” de las IAs para revindicar que no son inteligentes y que jamás podrán sustituir a un humano, todo porque no pueden, por ejemplo, dibujar manos todo lo bien que nos gustaría. La pregunta es si tú puedes dibujar manos. Posiblemente no caigas en los errores de las IAs y las dotes de cinco dedos, ni más ni menos, pero las texturas, los tonos y los detalles estarán tan alejados de la realidad como lo está anatómicamente la versión de las inteligencias digitales. Las manos nos cuestan, y no solo a nosotros. Históricamente muchos grandes pintores han tenido verdaderos quebraderos de cabeza para enfrentarse a las manos. No obstante, hay otros argumentos algo más contundentes.

Debemos recordar que las inteligencias artificiales son entrenadas con una gran cantidad de ejemplos y que, en este caso, para representar manos correctamente tendrán que haber visto suficientes. El caso es que hay muchas menos imágenes donde se vean con claridad las manos que otras donde se ven caras. Incluso en las que aparecen las manos suelen ser pequeñas, detalles en imágenes mayores. A esto hemos de sumar que, por lo general, parece que las imágenes de manos están “mal” etiquetadas. Dicho de otro modo, la base de datos con la que se entrena a estas inteligencias artificiales no identifica correctamente con texto las diferentes representaciones que puede haber de una mano.

Revuelto de dedos

En el fondo una boca parece siempre una boca: más o menos abierta, con distintas proporciones, pero no puede contorsionarse hasta el paroxismo, como sí pueden hacerlo nuestros cinco dígitos. Las manos pueden adoptar posturas tan extrañas que la distribución de los píxeles entre distintas imágenes de manos cambie más que entre dos narices, por ejemplo. Otra cosa sería entrenar a una IA para que representara manos perfectamente estiradas y con la palma hacia arriba, por ejemplo. Ahí la tendencia está más clara, pero de poco sirve que tenga todas cinco dedos cuando estos pueden superponerse y entrelazarse dando la impresión de ser más o menos.

En cualquier caso, es cuestión de tiempo que las inteligencias artificiales mejoren su rendimiento, tanto con las manos como con el resto de sus representaciones. Por ejemplo, hay detalles de las caras que también les cuestan, aunque la base de datos es mayor. Y a ello se suma otro factor, porque estamos más preparados para reconocer los errores de representación en nuestra anatomía que en la de una cebra. Mayormente porque nosotros también nos hemos entrenado con muchísimas caras, tanto en el día a día como en las pantallas. Nuestro cerebro cuenta con estructuras de procesamiento visual especialmente preparadas para captar patrones concretos e identificar cuándo se alejan de la norma. Eso es lo que hacemos con las caras y, en el caso de los ajedrecistas, con los tableros de ajedrez. Así que, aunque no sabemos con seguridad por qué les cuesta tantísimo, tenemos algunas sospechas, en parte, relacionadas con nuestra manera de procesar el mundo.

QUE NO TE LA CUELEN:

  • Entre los muchos problemas relacionados con la explosión de la IA se encuentra el de la contaminación. Este tipo de tecnologías, en su entrenamiento, requieren de una cantidad desmesurada de energía y, por lo tanto, implican cierta contaminación medioambiental. Una buena forma de enfrentar el problema sería poner especial esfuerzo en crear redes neuronales más eficientes en términos de programación, esto es: con instrucciones más claras, menos redundantes, que minimicen la cantidad de energía requerida. El problema es que esto ya se hace en gran medida, y no tanto por el medio ambiente, sino para reducir sus costes y agilizar su funcionamiento. Puede mejorarse, pero posiblemente sea la forma más avanzada para reducir el impacto de las IAs.

REFERENCIAS (MLA):

  • “The Uncanny Failures of A.I.-Generated Hands.” The New Yorker, 11 May 2021, https://www.newyorker.com/culture/rabbit-holes/the-uncanny-failures-of-ai-generated-hands.
  • “AI Index Report.” Stanford University, Human-Centered Artificial Intelligence (HAI), Apr. 2023, https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf.