Las aplicaciones WhatsApp, Instagram y Facebook Messenger sufrieron ayer una caída global de unas siete horas que forzó a millones de usuarios a buscar alternativas para poder establecer sus comunicaciones habituales en los ámbitos familiar, laboral y social.

Las aplicaciones salieron de servicio a las 12.15 (hora de Argentina). Pasadas las 19 había vuelto a funcionar Instagram, mientras los usuarios de la Argentina comenzaron a recibir cerca de las 19.30 mensajes a través de WhatsApp y las páginas de Facebook parecían restablecidas. La empresa informó después la normalización plena del servicio.

La caída de WhatsApp, Instagram y Facebook ha sido una de las más importantes de la historia de la compañía fundada por Mark Zuckerberg y según distintos especialistas todo apunta a un fallo relacionado con el protocolo BGP.

Facebook ha identificado "un cambio de configuración defectuoso" en sus servidores como la causa principal de la caída a nivel mundial durante casi seis horas, impidiendo a 3.500 millones de personas acceder a sus redes sociales y servicios de mensajería.

El fallo podría deberse a los cambios de configuración de la red que coordina las comunicaciones, según ha explicado la compañía en un comunicado. "La interrupción del tráfico de red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que provocó la suspensión de nuestros servicios", ha añadido. 

Confirma la reactivación de los servicios

Desde Facebook señalaron que la causa subyacente de esta interrupción también ha afectado a muchas de las herramientas y sistemas que utilizan, lo que a su vez ha complicado los intentos de "diagnosticar y resolver rápidamente el problema".

A pesar de los inconvenientes, ha confirmado que los servicios vuelven a estar activos y ha asegurado que están trabajando "activamente" para que vuelvan a funcionar con normalidad, aunque no descartan que tarden en llegar al 100% de su rendimiento, tal y como ha informado el jefe de tecnología de la compañía, Mike Schroepfer.

Por otra parte, Facebook aseguró que no tienen "pruebas de que los datos de los usuarios se hayan visto comprometidos como resultado de esta interrupción".

Cuál fue el error en la caída 

La explicación más probable es la que ha dado el experto Brian Krebs, que lleva el blog krebsonsecurity.com. El fallo consiste en el registro de DNS que permite resolver las direcciones de Facebook, Instagram, WhatsApp y Oculus ha desaparecido de las tablas de enrutamiento a nivel mundial, llamadas BGP (Border Gateway Protocol). Esto ha provocado que todo lo relacionado con Facebook sea inaccesible, tanto desde dentro de la empresa como desde fuera. Los servidores de Facebook están operativos, pero no son accesibles por parte de los usuarios porque los navegadores web no tienen manera de encontrarlos.

El motivo por el que ha ocurrido este fallo se desconoce de momento. La causa más probable es la que ocurre con más frecuencia: un error humano a la hora de hacer un cambio en el sistema a nivel interno o al lanzar una actualización.

¿Cómo se solucionó?

Al no poder acceder a ningún servicio de Facebook debido a que el enrutado falla, es necesario tener acceso físico a los servidores para poder implementar la solución. El problema es que quienes tienen conocimiento para arreglarlo se encuentran alejados de los servidores, y quienes se encuentran físicamente no tienen los conocimientos técnicos para hacerlo, y probablemente tampoco los permisos para acceder a ello y arreglarlo.

Además, hay pocos trabajadores en los centros de datos de Facebook debido a las medidas de protección por la pandemia. A eso se le suma el hecho de que probablemente usen herramientas de comunicación interna como Facebook for Business, el cual estuvo caído, al igual que su propio servicio de correo electrónico interno que ellos mismos se alojan también. 

Facebook aloja sus propios servidores de DNS para resolver sus direcciones, y al desaparecer éstos, no pueden acceder a ellos.

El caos interno en Facebook ha llegado hasta tal punto que, según afirmó Sheera Frenkel, periodista de tecnología para el New York Times, los trabajadores no podían entrar a los edificios. El sistema de entrada de los edificios utiliza tarjetas con NFC, y al pasarlas por el lector, éste no las reconocía porque no puede verificar la identidad con los datos almacenados en los servidores. 

Mike Schroepfer, CTO de Facebook, ha publicado un tweet horas después del fallo en el que ha confirmado que el problema se debe a un fallo de red, y que ya tienen equipos que están analizando lo ocurrido y así poder restaurar el servicio lo antes posible.

Según señaló el New York Times, un pequeño equipo de empleados de Facebook ha sido enviado al centro de datos de Facebook en Santa Clara (California), para realizar un reseteo manual de los servidores.

Otras plataformas, afectadas de manera indirecta
Facebook, Instagram y WhatsApp son usados por miles de millones de personas en todo el mundo para compartir contenido en redes sociales y para enviar mensajes. Al caerse, los usuarios migraron masivamente a Twitter y a Telegram como alternativas, lo que provocó problemas puntuales de saturación en ambas plataformas.

En Telegram, los mensajes tardaron unos segundos en mandarse, y las fotos pueden llegar a tardar decenas de segundos en llegar. En el caso de Twitter, muchas veces el feed no cargó con normalidad.

Otra función que tampoco funcionó es el de loguearse en un servicio usando la cuenta de Facebook. Todo ese sistema de tokens funciona a través de Facebook, por lo que si por ejemplo accedes a Spotify usando el token de la cuenta de Facebook, tampoco podías acceder. Lo mismo ocurre con muchos juegos para móviles.

Otra de las grandes afectadas ha sido Cloudflare, la mayor empresa de CDN de Internet. Un CDN (Red de distribución de contenidos por sus siglas en inglés) actúa como una caché que almacena el contenido original de una web y lo sirve por todo el mundo. Gracias a ello, el contenido es accesible a una mayor velocidad, y sin saturar el servidor original.

Sin embargo, John Graham-Cumming, CTO de Cloudflare, apunta a que esto generó muchos problemas en su empresa. La empresa tiene su propio resolutor de DNS (1.1.1.1), y al caerse Facebook y no resolver la dirección DNS, la gente vuelve a intentar resolver la dirección, mientras que las apps lo hacen incluso de manera automática. Todo ello ha generado un enorme tráfico de solicitudes de DNS, equivalente a un ataque DDoS.