A autenticação multifator da Microsoft (MFA) para o Office 365 e o Azure Active Directory caiu pela segunda vez somente nesta semana.

A página de status do serviço do Azure forneceu as más notícias na terça-feira (29/11):

“Entre as 14:25 UTC e 17:08 UTC de 27 de novembro de 2018, os clientes que usam a autenticação de multifator (MFA) podem ter problemas intermitentes com logon nos recursos do Azure, como o Active Directory do Azure, quando a política de MFA é exigida.”

Levou até 18:53 UTC para a conta de Twitter da Microsoft ter confiança para anunciar que o serviço estava definitivamente funcionando novamente.

Análise de causa raiz (RCA) inicial da Microsoft: algo deu errado no nível do DNS, o que levou a infra-estrutura de suporte do MFA a se tornar “insalubre”.

A solução foi reiniciar – o que parecia funcionar, mas às custas de receber vários tweets sarcásticos parabenizando a Microsoft por uma reinicialização bem-sucedida.

Esse problema é o mais recente do que está se tornando rapidamente uma longa linha de erros de gravação para a Microsoft nas últimas semanas. A empresa acaba de publicar uma explicação para uma interrupção da MFA mais longa e mais séria sofrida em 19 de novembro, que deixou muitos clientes incapazes de entrar no Office 365 ou no Azure por um dia inteiro de trabalho ou, em alguns casos, por mais tempo.

Isso incluiu admissões francas sobre o que a empresa disse que eram três causas principais interconectadas:

  1. Sob altas cargas de tráfego, a comunicação do servidor front-end do Azure MFA com os serviços de cache se deteriorou (o que, ironicamente, existe para aumentar o desempenho).
  2. Isso causou uma “condição de corrida” no processamento das respostas dos servidores backend do MFA, uma maneira de dizer que partes diferentes do sistema MFA estavam fora de sincronia umas com as outras, o suficiente para impedi-las de se comunicarem corretamente.
  3. Isso fez com que os serviços de back-end se sobrecarregassem, fazendo o MFA parou de funcionar.

Extraordinariamente – essa é a parte que fará alguns clientes se surpreenderem – a Microsoft não percebeu nada disso até que os usuários começaram a reclamar sobre o desaparecimento do MFA.

Como assim? Porque:

Lacunas na telemetria e no monitoramento dos serviços do MFA atrasaram a identificação e o entendimento dessas causas que causaram um longo período de mitigação.

A Microsoft explica como a tentativa de corrigir os problemas acima para as regiões APAC e EMEA, redirecionando o tráfego do MFA por meio dos caches dos EUA, simplesmente piorou as coisas.

A Microsoft prometeu acompanhar algo semelhante para a terça-feira.

O que pode estar acontecendo?

Talvez haja uma pequena pista na análise da interrupção de 19 de novembro, em que a Microsoft menciona que o serviço estava enfrentando problemas para lidar com altos níveis de tráfego.

Talvez, então, é simplesmente que muitas organizações e consumidores têm se voltado para o MFA, o que não seria surpreendente, já que a própria Microsoft vem promovendo os benefícios extras de segurança que ela pode trazer.

Então, de um ponto de vista positivo: as interrupções podem não ser sintomas do fracasso do MFA, mas sim da sua súbita – e muito bem vinda – popularidade.

Com informações do blog Naked Security, da Sophos.