IA
EVO2, el ChatGPT para leer todo el ADN de la Tierra
Las máquinas, a partir de ahora, podrán aprender el lenguaje de la biología, lo que abre infinitas posibilidades médicas
Será raro encontrar un lector o una lectora que no esté familiarizado con las inmensas capacidades de una herramienta como ChatGPT. La inteligencia artificial de OpenAI es capaz de resumir «El Quijote» en un folio, crear cadenas de código de programación en cuestión de segundos, recomendar los mejores restaurantes de Europa o transcribir horas de conversación grabada antes de que pestañeemos. Si pudiera hacer algo parecido con la ingente cantidad de información que contiene el ADN humano estaríamos ante un avance inédito en el mundo de la ciencia. Si pudiera hacer lo mismo con la aún más apabullante cantidad de información que contiene el ADN de todas las especies vivas en el planeta el resultado sería literalmente de locos.
Y algo parecido es lo que se ha anunciado esta semana. La revista «Nature» ha publicado los entresijos del modelo de inteligencia artificial EVO 2, que fue presentado parcialmente en 2024 y que se convierte en la herramienta tecnológica más poderosa jamás aplicada al estudio de la biología. Con ella, la ciencia es capaz de leer y escribir el código genético de todos los dominios de la vida, con una capacidad de predicción de mutaciones que cuenta con un 90% de precisión. La tecnología ha sido entrenada leyendo el ADN de 128.000 especies de seres vivos. Con esa base de datos, EVO 2 ha expandido su capacidad de lectura prácticamente todas las formas vidas posibles. De ese modo se podrá analizar información genética que, en otras circunstancias, requeriría de años o décadas de trabajo compilar.
La IA ha sido diseñada por científicos del Arc Institut y la empresa Nvidia, en colaboración con las universidades de Stanford, Berkeley y San Francisco. Del mismo modo que modelos como ChatGPT leen el lenguaje humano y elaboran a partir de millones de datos sus respuestas a nuestras preguntas, EVO lee la información acumulada en los genes y aprende a descifrar su lógica interna sin supervisión humana. Metafóricamente, su trabajo se asemeja a intentar averiguar la imagen que arrojarían todos los puzles del mundo viendo simplemente los miles de millones de piezas sueltas. El predecesor de EVO2 –el EVO 1 presentado en 2024– había causado un gran impacto en la comunidad científica, pero estaba entrenado solo para analizar ADN sencillo de organismos unicelulares como bacterias y arquea. Ahora la herramienta es capaz de alcanzar una comprensión generalista de todo el árbol de la vida.
El gran salto ha supuesto que las máquinas, a partir de ahora, sean capaces de «entender» el lenguaje de la biología, las cadenas de nucleótidos que, al igual que las letras en el lenguaje escrito, componen toda la información de la vida terrestre. Los 128.000 genomas que han servido de referencia han arrojado cerca de 10 trillones de nucleótidos. En otras palabras, el algoritmo ha aprendido los 10 trillones de letras con las que estaban escritos 128.000 libros de instrucciones para «fabricar» 128.000 seres vivos, desde bacterias a seres humamos pasando por plantas, hongos…
La vida en la Tierra ha evolucionado a largo de miles de millones de años y esa evolución ha dejado sus huellas en el ADN. Volviendo al ilustrativo ejemplo del lenguaje: una persona puede adquirir acento diferente si vive durante un largo periodo en el extranjero. Esa impronta genética ha favorecido la diversidad biológica y es la clave del desarrollo de los caracteres individuales: desde el color del pelo hasta la propensión a padecer enfermedades. Por eso es tan útil conocerla. EVO 2 es una herramienta clave para la ciencia de la salud, por ejemplo. Gracias a ella será más fácil encontrar variabilidades en el ADN que son productoras de enfermedades y entender el modo de contrarrestar su efecto. Pero también es una tecnología de interés para otras ramas de la ciencia. Sin ir más lejos, desde hace décadas se trabaja en el diseño de ADN sintético que permita crear vida artificial. Puede que ahora estemos más cerca de lograrlo.
Los ensayos con EVO 2 han mostrado una eficacia indudable a la hora de realizar ciertas tareas. Una de ellas es la identificación de pequeñas variabilidades genéticas que afectan a la producción de proteínas. Aunque dos personas compartan una mutación, el modo en el que se expresa en sus organismos es diferente. Por ejemplo, se sabe que una variación del gen BRCA1 está relacionada con un mayor riesgo de cáncer de mama. Pero no todas las mujeres portadoras de ese gen padecerán la enfermedad. EVO 2 ha mostrado un acierto del 90% a la hora de determinar qué mutaciones son benignas y cuáles son patogénicas.