¿Qué pasó?
El pasado día 8, a partir de las 10h UTC aproximadamente, empezamos a recibir diferentes reportes de errores por parte de nuestros clientes: uno no podía acceder a sus páginas de Github, otro no podía gestionar su infraestructura con terraform, el de más allá no podía hacer build de su aplicación desarrollada en python …
Cuando compartimos esos errores en nuestros canales compartidos nos dimos cuenta de que algo gordo estaba pasando porque, como se suele decir: uno es accidente, dos es coincidencia, tres es un patrón. Así que nos pusimos a indagar y pronto descubrimos que una de las principales CDN del mundo estaba teniendo problemas.
¿Qué es una CDN?
Una CDN (Content Delivery Network) es una red distribuida a nivel global de puntos de presencia (PoP) diseñada para hacer llegar contenido a los clientes de forma más rápida y fiable. Seamos conscientes de ello o no, todos interactuamos con alguna CDN a diario: cuando leemos noticias en nuestro portal favorito, cuando realizamos alguna compra on-line, cuando vemos nuestra serie favorita en Netflix o cuando le echamos un vistazo a los feeds de nuestras redes sociales. La CDN es la «ayudante invisible» detrás de esa experiencia, en la inmensa mayoría de los casos, excelente, porque ayuda a minimizar los tiempos de carga y la latencia en la entrega de contenido reduciendo fisicamente la distancia entre el proveedor del contenido y sus usuarios.
¿Cómo reaccionar?
Entonces, ¿qué se puede hacer cuando un proveedor por el que pasa un porcentaje muy importante del tráfico web mundial está caído?
TL;DR: Pues no mucho, la verdad
Si eres cliente directo de una CDN y no te puedes permitir estar offline ante una circunstacia parecida, no te queda otra que implementar una estrategia multi-CDN (es decir, distribuir tu tráfico a través de 2 o más redes para conseguir redundancia y alta disponibilidad). Pero esta opción no está al alcance de todos los bolsillos, además de añadir un extra de configuración y complejidad a tu plataforma.
Pero si eres cliente indirecto (es decir, utilizas algún servicio al que se accede a través de una CDN), tus alternativas son más bien nulas: esperar a que el servicio que usas implemente algún workaround o que la fuente del problema se solucione (afortunadamente, en este caso la incidencia quedó resuelta en menos de 1 hora). Lo mejor es darte cuenta lo antes posible que el problema es de otros para no perder tiempo investigando qué has roto en tu lado …
¿Puede volver a ocurrir?
Pues partiendo de la base que no es la primera vez que ocurre y teniendo en cuenta la naturaleza del internet actual, podemos darlo por seguro.
Así que si quieres estar preparado para la ocasión y planificar los pasos necesarios para mitigar el impacto (ya sea a través de una estrategia multi-CDN o buscando alternativas a servicios que puedan verse afectados), no dudes en contactarnos.
Nos vemos en la próxima caída … digooo … en la próxima entrada.