Nueva York

El problema de almacenar datos genéticos

Los centros de datos consumen una gran cantidad de energíalarazon

Juan Scaliter

Creada: 12.07.2015 22:57

Última actualización: 12.07.2015 22:57

En diez años, la información sobre genomas ocupará más espacio que YouTube.

Actualmente se suben unas 300 horas de vídeo a YouTube... cada minuto. Esto genera una cantidad de datos equivalente a 100 petabytes por año. Para darse una idea aproximada, 600 mil millones de fotografías ocupan unos 15 petabytes.

Pero eso no es nada en comparación con lo que vendrá. De acuerdo con un estudio publicado en la revista científica on line PLOS Biology, en 2025 la cantidad de datos genéticos que generaremos ocuparán entre 2 y 40 exabytes. Si tenemos en cuenta que un exabytes son 1.000 petabytes, la cifra ya deja de ser astronómica.

«Durante mucho tiempo – explica Michael Schatz, uno de los autores del trabajo – hemos utilizado el adjetivo astronómico para referirnos a cifras que eran realmente enormes. Pero cuando hablamos de almacenaje de información, el crecimiento de la Nube y de los datos que generan las ciencias biológicas, quizás deberíamos empezar a hablar de “cifras genómicas” en un futuro próximo». De acuerdo con Schatz, la cantidad de información no sólo será mayor que YouTube o Twitter, sino también más que los reyes del mercado: la astronomía y la física.

Según el estudio, se estima que en diez años cerca de mil millones de personas tendrán secuenciado su genoma. Por ahora las cifras son manejables ya que esta industria «sólo» ocupa unos 25 petabytes de datos. Pero si lo ponemos en perspectiva, la cifra cambia: Cincuenta petabytes es a lo que asciende la producción completa de palabras escritas por la humanidad desde los primeros registros. En todos los idiomas. Individualmente, cada genoma humano ocupa unos 100 gigabytes y la cantidad de información que produce la industria genómica se duplica cada 7 meses, de hecho, de acuerdo con un trabajo publicado por Cold Spring Harbor Laboratory, éste es el sector que más rápido está creciendo en lo que respecta a generar información. Por ello muchas compañías están poniendo dinero, energía y recursos en los centros de almacenamiento de datos o cloud computing. Amazon y Google, por ejemplo, ya han invertido dinero para crear o adaptar sus propios centros para almacenar información genética. El problema es que...hay varios problemas. Uno de ellos es que el ritmo al que se genera información, de cualquier índole, es mucho mayor que el de la creación de centros de datos. Un estudio realizado en 2013 por SINTEF (la organización de investigación más importante de Escandinavia) reveló que el 90% de toda la información generada en el mundo había sido producida en los dos últimos años. Y la cifra irá aumentando. Y en algunos sectores más que en otros. A medida que los costes para secuenciar un genoma se sigan reduciendo (de más de dos mil millones de euros el primero, que se finalizó en 2003, a los 750€ que cuesta en la actualidad) y la importancia de la medicina personalizada aumente, cada vez serán más las personas que quieran realizar este registro.

Pero, como mencionábamos antes, hay problemas. Otro inconveniente es la cantidad de energía que consumen los centros de datos. Investigaciones realizadas por Greenpeace afirman que si la Nube fuese un país sería uno de los mayores consumidores de energía eléctrica del mundo, de hecho sería el sexto, entre Rusia y Alemania. Aunque también es cierto que otros analistas sitúan la cifra un poco por debajo. Para el New York Times, sólo en 2012, el consumo de la Nube fue de unos 30 mil millones de vatios, unas 30 plantas nucleares. Según el Departamento de Energía de Estados Unidos, los centros de datos precisan la misma cantidad de energía que la ciudad de Nueva York. Las emisiones de carbono que genera esto equivalen a conducir hasta Marte y volver, unas 700 veces. Si fuera posible, claro.

Si el ritmo de crecimiento y la necesidad de estos «desvanes digitales» será mayor cada nuevo año, el problema no es dónde almacenar, sino de dónde obtener energía y cómo evitar tantas emisiones. Hay dos posibles respuestas en este sentido.

El ADN de los seres humanos es, en esencia, similar en un 99,5%. Apenas nos diferenciamos de nuestros más alejados desconocidos en un 0,5%. Quizás más que almacenar el 100% de la información de mil millones de personas, lo rentable sería guardar las diferencias, bien identificadas y ubicadas, desde luego, pero así se reduciría la necesidad de espacio en un 99%. Esa es una de las respuestas que plantéan los expertos. La otra opción es utilizar el propio ADN como «cajón de sastre». Investigadores de Instituto Federal de Tecnología de Suiza, en Zurich (ETH Zurich) han logrado almacenar información en esta «cadena biológica». La realidad es que el ADN, en cierto aspecto ya es un pen-drive orgánico: allí se guarda la información imprescindible para construir un organismo. Cada acción necesaria para ello está guardada y las proteínas se construyen en base a este manual de instrucciones. El sistema ha demostrado su fiabilidad a lo largo de millones de años, almacena información en un espacio sumamente reducido y es muy resistente, teniendo en cuenta que se trata de una molécula orgánica.

Los especialistas del EHT de Zurich probaron qué ocurría si guardaban «El método de los teoremas mecánicos» de Arquímedes en cadenas de ADN. Éstas, para simular el paso del tiempo, fueron sometidas durante un mes a temperaturas de hasta 70ºC y pasado ese periodo, los expertos lograron leer la información guardada. Los resultados permiten deducir que este sistema de almacenaje permitiría guardar la información hasta un millón de años. ¿Cuánta información se podría guardar? Sólo un gramo de ADN podría contener hasta 455 exabytes de información. Bastarían cinco gramos, una cucharadita de ADN, para conservar a Arquímedes, el último álbum de Fito y los Fitipaldis y todas las fotos de Instagram. De todo el mundo.

Sería rizar el rizo o mejor dicho, enlazar el enlace, pero el ADN lo permite.