Incidentes tecnológicos e falhas de terceiros mostram que resiliência é disciplina diária, não um dossiê guardado na gaveta.

 

Casos recentes que provaram este facto são:

  • Outage global do CrowdStrike (jul/2024): atualização defeituosa provocou BSOD (Blue Screen of Death) em milhões de sistemas Windows e parou operações em múltiplos setores — um “mega‑incidente” sem intrusão maliciosa Reuters
  • Apagão ibérico (28/abr/2025): falha elétrica massiva imobilizou Portugal e Espanha durante horas (transportes, semáforos, redes móveis), com reposição gradual do serviço. Relatórios nacionais indicam como origem técnica a rede ibérica (não existindo indícios de ciberataque) RTP
  • Google Cloud (12/jun/2025): interrupção com impacto em plataformas populares (ex.: Spotify, Fitbit), expondo dependência de hyperscalers. Google Cloud Status
  • Microsoft 365/Outlook (jul/2025): perturbação prolongada (~19h) com paralisação de e‑mail/calendários — erros de configuração, não existindo indícios de ciberataque. Computerworld
  • Ataques via fornecedores: aumento significativo de incidentes na e através da supply chain em 2024/25. Financial Times
  • Custos de indisponibilidade: estudos de 2025 demonstram perdas por hora significativas e uma tendência de subestimação pelas empresas. IT Pro

 


O que é continuidade “moderna”?

  1. Do cenário técnico ao impacto no cliente: comece pelo BIA (serviços críticos, RTO/RPO), não por uma simples lista de servidores.
  2. Cenários obrigatórios de teste (5)
    • Falha de update (tipo CrowdStrike) — indisponibilidade massiva sem violação de segurança. Reuters
    • Falha de hyperscaler (GCP/Azure/M365) — perda temporária de serviços partilhados. Google Cloud Status
    • Terceiro crítico indisponível — SaaS/outsourcer falha além do seu RTO. Financial Times
    • Ransomware/compromisso de dados — decisão entre recuperação e reconstrução.
    • Falha de infraestrutura (energia/telecom)blackout regional com operação em modo degradado (UPS/geradores, comunicações alternativas) e plano de comunicação pública RTP
  3. Arquitetura resiliente para suportar falhas com segurança: segmentação, break‑glass accounts, backups imutáveis, multirregião e planos de degradação funcional (serviços mínimos viáveis).
  4. Governança e reporte: para as entidades financeiras, o DORA exige testes de resiliência, gestão de terceiros e demonstração de evidências para os supervisores; os setores NIS 2 devem alertar em 24h, notificar em 72h e emitir relatório final em e mês. Digital Strategy

 


7 métricas que importam (e que o Board percebe)

  • RTO / RPO por serviço crítico (alvo vs. conseguido em teste)
  • MTTR por tipo de incidente (média e p95)
  • Cobertura de backups restaurados (últimos 90 dias)
  • Cobertura EDR/SIEM em endpoints e servidores
  • % de runbooks testados com sucesso (e com owners)
  • Dependências de terceiros mapeadas por serviço
  • Tempo para comunicação a clientes/reguladores

 


Programa em 100 dias

  • 0–30 dias: BIA rápido; mapa de serviços e dependências (inclui energia/telecom); priorização por impacto.
  • 31–60 dias: exercícios executivos (table‑top NIS 2 — 24h/72h/1 mês), teste de restore, plano de comunicação.
  • 61–100 dias: teste técnico (falha de update ou perda de cloud), ensaio de blackout (UPS/geradores, comunicações alternativas), revisão de contratos de terceiros (RTO/RPO, reporte de incidentes, right to audit), e after‑action review com melhorias. Google Cloud Status

 


Cursos Behaviour recomendados

 

 

 

Autor: Behaviour
Não é autorizada a cópia ou reprodução deste artigo.