Hace un par de días, uno de los servicios más populares de Internet, Cloudflare, sufrió una interrupción masiva que provocó que no pudiéramos acceder a plataformas como la red social X (la antigua Twitter) o el asistente de Inteligencia Artificial (IA) ChatGPT.

Desde entonces, se han esgrimido diferentes teorías que podrían explicar la caída de este servicio web, pero ha sido el propio Cloudflare el que ha confirmado que la causa de la misma fue que un archivo interno dobló su tamaño habitual de forma repentina e inusual.

El CEO y fundador de Cloudflare pide perdón a Internet por la caída de hace un par de días

Recientemente, Matthew Prince, fundador y director ejecutivo de Cloudflare, compartió una publicación en el blog oficial de la compañía en la que revela que la interrupción del servicio de hace un par de días no se debió a un ataque DDoS, tal como se creía en un principio, sino a que un archivo interno duplicó su tamaño inesperadamente y se propagó por todo Internet.

Después de que inicialmente sospechamos erróneamente que los síntomas que estábamos viendo eran causados por un ataque DDoS a hiperescala, identificamos correctamente el problema central y pudimos detener la propagación del archivo de características más grande de lo esperado y reemplazarlo con una versión anterior del archivo.

Tal como explica Prince, esta incidencia causó problemas al software que necesita leer el archivo para mantener activo el sistema de gestión de bots, el cual utiliza un modelo de aprendizaje automático para protegerse contra amenazas de seguridad. A su vez, esto provocó que la CDN principal de Cloudflare, los servicios de seguridad y otros servicios se vieran afectados, algo que solventaron reemplazando dicho archivo por una versión previa del mismo que tenía un tamaño "normal".

Asimismo, Prince también quiso aclarar que este problema "se desencadenó por un cambio en los permisos de uno de nuestros sistemas de bases de datos, lo que provocó que la base de datos generara múltiples entradas en un 'archivo de características' utilizado por nuestro sistema de gestión de bots. A su vez, ese archivo de características duplicó su tamaño. El archivo de características, más grande de lo esperado, se propagó a todas las máquinas que componen nuestra red", las cuales ejecutan un software que dirige el tráfico a través de la red de Cloudflare.

Prince completó su explicación del problema afirmando que su empresa usa un software que "lee este archivo de características para mantener nuestro sistema de gestión de bots actualizado con las amenazas en constante cambio" y que dicho software "tenía un límite en el tamaño del archivo de características que era inferior a su tamaño duplicado" y que eso fue lo que causó que "el software fallara".

Además, el máximo dirigente de Cloudflare aprovechó la publicación del blog de su empresa para pedirle disculpas a todo Internet por las molestias ocasionadas por la caída de su servicio:

En nombre de todo el equipo de Cloudflare, me gustaría pedir disculpas por las molestias que hemos causado hoy en Internet.

Finalmente, Prince confirmó que esta es la segunda gran interrupción de Cloudflare desde el año 2019 y que su compañía ya está tomando medidas para protegerse de fallos similares en el futuro. En concreto, ya están trabajando en "reforzar la ingestión de archivos de configuración generados por Cloudflare de la misma manera que lo haríamos con la entrada generada por el usuario; habilitar más interruptores de apagado globales para las funciones; eliminar la capacidad de que los volcados centrales u otros informes de errores sobrecarguen los recursos del sistema; y revisar los modos de falla para detectar condiciones de error en todos los módulos proxy centrales".