O que é BGP e como sua falha derrubou o Facebook?
Índice:
Em 4 de outubro de 2021, o Facebook – e todos os principais serviços que o Facebook possui – ficou fora do ar por aproximadamente seis horas. O “apagão” das redes sociais começou às 11h40, horário do leste (ET), logo após os registros do Sistema de Nomes de Domínio (DNS) do Facebook ficarem indisponíveis.
O incidente análise da Cloudflare detalha que os nomes DNS do Facebook simplesmente pararam de resolver e os IPs da infraestrutura do gigante das redes sociais tornaram-se inacessíveis. No entanto, os problemas de DNS parecem ser apenas uma consequência, mas não a causa raiz do problema. A falha inicial ocorreu no roteamento do Border Gateway Protocol (BGP) para os recursos da web do Facebook.
O que é BGP?
Border Gateway Protocol (BGP) é um mecanismo padronizado que alimenta a troca de informações de roteamento entre sistemas autônomos (AS) na Internet. Como redes separadas precisam se conectar umas às outras para formar uma web global, elas promovem sua presença comunicando as informações de roteamento. Esses dados são armazenados em uma base de informações de roteamento (RIB).
O RIB atua como um enorme mapa em constante atualização que existe para guiar o caminho através de uma variedade de destinos. O BGP pode acessar o banco de dados RIB, listando todas as rotas possíveis para entregar dados e escolhendo a mais eficiente. Em caso de falha do BGP, uma rede (Facebook neste caso) não pode anunciar sua presença, portanto, outras redes não conseguem mais alcançá-la. Como resultado, a rede afetada parece estar cortada da Internet.
Por que o Facebook ficou fora do ar
De acordo com o post no blog do Facebook, o problema ocorreu após uma grande mudança de configuração. Isso afetou o sistema que gerencia a capacidade de rede global do backbone do Facebook, responsável por ligar todos os data centers do fornecedor. Além disso, essa mudança de configuração resultou na retirada das rotas do Facebook e nos servidores do gigante das redes sociais ficando offline.
Com essas mudanças de configuração e retirada de rotas, o Facebook literalmente se desconectou da Internet, juntamente com seus populares serviços Instagram, WhatsApp e Oculus VR. Além de desaparecer da Internet, o Facebook deixou seus funcionários sem a capacidade de entrar nos prédios do escritório, já que os cartões inteligentes também foram afetados pela interrupção. Além disso, a plataforma de fluxo de trabalho interno do Facebook, Workplace, também foi bloqueada, deixando os funcionários sem capacidade de prosseguir com as tarefas diárias.
Como o problema parece ocorrer devido à atualização de configuração incorreta por parte dos engenheiros de rede do Facebook, a solução também veio de técnicos que acessaram os roteadores localmente para corrigir os problemas. Seis horas após o início da interrupção, os recursos do Facebook foram restaurados, e usuários perplexos puderam acessar suas contas de mídia social. Em 8 de outubro de 2021, os sistemas do Facebook estão totalmente funcionais.
Detectando Falhas de BGP
Dado que até mesmo pequenos problemas de roteamento de BGP podem causar grandes problemas em sua infraestrutura, é importante rastrear quaisquer mudanças relacionadas à sua configuração. Para monitorar interrupções e falhas de BGP, Massimo Candela, um Engenheiro de Software Sênior na NTT Global Networks, desenvolveu uma ferramenta dedicada chamada BGPalerter. É uma ferramenta de autoconfiguração que realiza a análise de fluxos de dados BGP de várias fontes em tempo real. Ela possibilita a detecção em tempo real de perda de visibilidade, anúncios inválidos do RPKI, sequestros, e mais.
Para tornar o rastreamento de interrupções de BGP ainda mais fácil, a equipe SOC Prime lançou uma regra Sigma que detecta eventos altos e críticos gerados pelo BGPalerter. A regra está disponível para download gratuito na plataforma SOC Prime mediante registro.
Alterações Suspeitas de BGP (via ferramenta BGPalerter)
A detecção possui traduções para as seguintes plataformas de ANALÍTICA DE SEGURANÇA SIEM: Azure Sentinel, ELK Stack, Chronicle Security, Sumo Logic, ArcSight, QRadar, Humio, FireEye, Carbon Black, LogPoint, Graylog, Regex Grep, Microsoft PowerShell, RSA NetWitness, Apache Kafka ksqlDB.
A regra é mapeada para a metodologia MITRE ATT&CK , abordando as táticas de Impacto e a técnica de Negação de Serviço de Rede (t1498).
Registre-se na plataforma SOC Prime para facilitar, acelerar e simplificar a detecção de ameaças. Busque instantaneamente as últimas ameaças dentro de mais de 20 tecnologias SIEM & XDR suportadas, automatize a investigação de ameaças e receba feedback e avaliação da comunidade de mais de 20.000 profissionais de segurança para aprimorar suas operações de segurança. Ansioso para criar seu próprio conteúdo de detecção? Junte-se ao nosso programa de Threat Bounty, compartilhe suas regras Sigma e Yara no repositório do Threat Detection Marketplace e receba recompensas recorrentes por sua contribuição individual! Entusiasmado para aprimorar suas habilidades de caça a ameaças? Aprenda o que são regras Sigma e como começar a criá-las com nosso guia para iniciantes.