Na semana passada, milhões de máquinas Windows foram paralisadas devido a uma atualização com bugs do problema CrowdStrike. O incidente, que impactou cerca de 8,5 milhões de dispositivos, foi rastreado até um bug no software de teste.
A atualização defeituosa passou pelo processo de validação, levando a travamentos generalizados. Esse problema do CrowdStrike levou a empresa a se comprometer com testes mais rigorosos e tratamento de erros aprimorado para atualizações futuras.
O problema do CrowdStrike atingiu a interrupção da Microsoft
O último fiasco da CrowdStrike não é apenas um caso isolado Problema CrowdStrike; ele ressoa com desafios mais amplos da indústria de tecnologia. A Microsoft também sofreu uma interrupção importante por causa disso, o que ampliou o caos a ponto de afetar países. Embora as raízes da interrupção da Microsoft tenham sido diferentes, os problemas simultâneos destacaram a natureza frágil dos serviços de nuvem e os efeitos cascata das falhas de software. No final das contas, o problema do CrowdStrike foi o gatilho. Tais incidentes ressaltam a necessidade de processos robustos de teste e validação em todos os domínios.
O que é uma indisponibilidade do CrowdStrike?
O software Falcon da CrowdStrike é uma ferramenta crucial para empresas e fornece proteção robusta contra malware e violações de segurança em milhões de máquinas Windows. O problema da CrowdStrike surgiu quando uma atualização de configuração de conteúdo de rotina destinada a reunir telemetria sobre ameaças potenciais causou uma falha catastrófica. Esta atualização fazia parte do Rapid Response Content, um pequeno arquivo de 40 KB que não funcionava corretamente e levava a falhas generalizadas no sistema. Isso parece vírus antigos. É como ter um “Burro” som e um fluxo interminável de mensagens de aviso que não dizem nada e seu computador desliga involuntariamente.
A anatomia da interrupção
O problema do CrowdStrike foi vinculado à atualização do sensor Falcon pelo Rapid Response Content para melhorar a detecção de malware. Esta atualização em particular continha dados de conteúdo problemáticos que conseguiram passar pelo Content Verifier devido a um bug. O CrowdStrike diz que geralmente realiza testes automatizados e manuais em suas atualizações. No entanto, o Quick Response Content não foi submetido aos mesmos testes completos que outras atualizações, ou de alguma forma conseguiu passar no teste, levando à falha catastrófica.
Como tudo deu errado?
O problema do CrowdStrike pode ser rastreado até uma suposição falha sobre a confiabilidade do Validador de Conteúdo. Em março, uma nova implantação de Tipos de Modelo levou o CrowdStrike a acreditar que seu processo de validação era infalível. No entanto, essa confiança provou ser equivocada. O Conteúdo de Resposta Rápida problemático foi carregado no Interpretador de Conteúdo do sensor, disparando uma exceção de memória fora dos limites que o Windows não conseguiu manipular, resultando na infame Tela Azul da Morte (BSOD).
Quando começou a interrupção do CrowdStrike? Linha do tempo do problema
O problema do CrowdStrike surgiu em uma sexta-feira, um dia em que as empresas geralmente encerram as operações no fim de semana. Esse momento não poderia ter sido pior, pois levou a interrupções imediatas em várias organizações. A atualização defeituosa, destinada a aumentar a segurança, em vez disso, prejudicou os sistemas, causando tempo de inatividade e frustração significativos.
Resposta inicial e controle de danos
A CrowdStrike identificou rapidamente o arquivo problemático Rapid Response Content como a fonte do problema. Apesar da rápida identificação, o dano já estava feito. As empresas que dependiam do CrowdStrike Falcon ficaram lutando para mitigar o impacto do acidente. A urgência da situação levou a CrowdStrike a publicar uma detalhada Post Incident Review (PIR), descrevendo a causa raiz e seu plano para evitar ocorrências futuras.
Compromissos para evitar problemas futuros
Em resposta ao problema da CrowdStrike, a empresa prometeu várias medidas para garantir que tal desastre não se repita. Elas incluem:
- Testes aprimorados: Implementação de testes de desenvolvedores locais, testes de atualização e reversão de conteúdo, testes de estresse, fuzzing e injeção de falhas.
- Tratamento de erros aprimorado: Aprimorando os recursos de tratamento de erros do Content Interpreter no sensor Falcon.
- Implantação escalonada: Implementação gradual de atualizações para partes maiores da base instalada em vez de um envio imediato.
O que é CrowdStrike Falcon? O protetor em questão
CrowdStrike Falcon é o software no centro desta questão. É uma plataforma baseada em nuvem que fornece proteção de endpoint, combinando antivírus, inteligência de ameaças e detecção e resposta de endpoint (EDR). A função principal do software é proteger contra malware e violações de segurança, tornando-o uma ferramenta crítica para empresas em todo o mundo.
Como o Falcon funciona
O Falcon opera implantando sensores no nível do kernel em máquinas Windows. Esses sensores monitoram continuamente atividades suspeitas e usam IA e aprendizado de máquina para aprimorar os recursos de detecção. Atualizações desses sensores, como o Rapid Response Content, são cruciais para manter a proteção atualizada contra ameaças emergentes.
O papel do conteúdo de resposta rápida
As atualizações de conteúdo de resposta rápida são projetadas para ajustar o comportamento dos sensores Falcon, permitindo que eles detectem novas formas de malware. Essas atualizações geralmente são pequenas e rápidas de implementar, tornando-as uma parte essencial da funcionalidade do Falcon. No entanto, o problema do CrowdStrike demonstrou os riscos potenciais quando essas atualizações não são completamente validadas.
O Departamento e a Agência de Segurança Cibernética e de Infraestrutura (@CISAgov) estão trabalhando com a CrowdStrike, a Microsoft e nossos parceiros federais, estaduais, locais e de infraestrutura crítica para avaliar e resolver completamente as interrupções do sistema.
— Segurança Interna (@DHSgov) 19 de julho de 2024
Lições da questão da CrowdStrike
O problema da CrowdStrike serve como um lembrete claro da importância de processos robustos de teste e validação. Embora a empresa tenha delineado várias medidas para evitar incidentes futuros, a comunidade de tecnologia, sem dúvida, estará observando de perto. Garantir a confiabilidade do software de segurança é primordial, e o problema da CrowdStrike destacou os riscos envolvidos.
O problema do CrowdStrike ressalta o delicado equilíbrio entre atualizações rápidas e estabilidade do sistema. Como as empresas continuam a depender fortemente desse software para segurança, as lições aprendidas com esse incidente serão cruciais para moldar práticas e protocolos futuros.
Crédito da imagem em destaque: Grupo de notícias Scoop
Source: Curso intensivo sobre a questão da CrowdStrike