¿Qué demonios son BGP y DNS, las causas de la caída de Facebook y Whatsapp el lunes?

¿Por que se cayeron el pasado lunes Facebook, Whatsapp e Instagram?
¿Por que se cayeron el pasado lunes Facebook, Whatsapp e Instagram?DADO RUVICREUTERS

A la vez que Antigone Davis de Facebook defendía en la CNBC a la compañía por las acusaciones de un denunciante y los datos que sugerían que Instagram es dañino para los adolescentes, toda su red de servicios se desplomó de manera repentina y pasaron más de 6 horas antes de que se resolviese el problema.

Este es el mayor desplome de Facebook desde el incidente en 2019 que dejó la red fuera de servicio durante más de 24 horas. En ambos casos, el tiempo de inactividad afectó principalmente a las pequeñas empresas y emprendedores que dependen de estos servicios para poder llevar a cabo sus negocios de forma efectiva.

Al día siguiente, Facebook emitió una explicación sobre la caída del lunes, diciendo que se debía a un problema de configuración interno, debido a que la conexión troncal de la empresa entre los centros de datos se cerró durante el mantenimiento de rutina.

Los dos factores que afectaron al desplome de Facebook

La causa principal de la interrupción mundial parece ser una actualización fallida de la ruta BGP, siglas en inglés de Border Gateway Protocol. Se trata de un mecanismo para intercambiar información de “ruta” entre sistemas autónomos en Internet. Sin BGP, la información no sabría cómo moverse por Internet y todo dejaría de funcionar. Este fue tan solo el primer problema al que se enfrentó Facebook el lunes.

Sin rutas BGP a la red de Facebook, los propios servidores DNS de Facebook eran inalcanzables, al igual que los servidores de las distintas aplicaciones propiedad de Facebook.

Los servidores DNS traducen los nombres de dominio a direcciones IP. Si no hay un servidor DNS, los dispositivos online no se pueden comunicar entre sí. El lunes, los nombres DNS de Facebook dejaron de resolverse y sus IP de infraestructura eran inalcanzables. Era como si alguien hubiera “arrancado los cables” y los hubiera desconectado de Internet.

La mejor analogía en la que podemos pensar es en el tráfico aéreo. Si un dispositivo quiere acceder a facebook.com, primero necesita obtener las coordenadas GPS del destino; la dirección IP a la que tiene que conectarse. Para recibir esa información necesita preguntar a un DNS, que le dice que la dirección de facebook.com se encuentra en una IP determinada. Para llegar a su destino final es necesario que haya un sistema de control de tráfico aéreo, y ese es el BGP. El BGP le dice a un dispositivo por qué ruta volar hasta su destino a través de los distintos servidores que se encuentran en su camino.

El lunes, Facebook perdió por completo sus sistemas BGP, por lo que no había forma de que Facebook le dijera a los dispositivos cómo llegar a su destino. Y eso incluye a los propios ingenieros de Facebook intentando llegar a los sistemas que necesitaban para corregir el error. La pérdida de BGP acarreó un problema de DNS ya que no había forma de llegar a los servidores de nombres de dominio de la empresa. Estos dos factores, combinados, hacen que el problema sea más difícil de solucionar y ayudan a explicar por qué los servicios estuvieron fuera de línea durante tanto tiempo.

Volverá a pasar, pero seguramente no a Facebook

Estos fallos ocurren diariamente. Sin embargo, le ocurren a pequeñas empresas y pasan desapercibidos por la mayoría de los consumidores de Internet. La única razón por la que esta vez ha sido una noticia tan sonada es porque ha afectado a una empresa global tecnológica utilizada por millones de usuarios.

Tras lo sucedido, Facebook introducirá algunos procesos nuevos para evitar este tipo de cascada de errores en el futuro. Desde el derrumbe de BGP en sí hasta la forma en la que este error bloqueó el acceso del personal a los sistemas de comunicaciones internos, el acceso remoto e, incluso, el acceso físico en sí, resultará en que Facebook federe estas estructuras un poco más para que no todas dependan del mismo sistema.

Valentín Cortés, Campus Manager de Ironhack Madrid