Quando trabalhamos em um sistema complexo, é impossível prever todos os resultados para as ações que tomamos.  Isso contribui para acidentes inesperados e às vezes catastróficos, mesmo quando usamos ferramentas de precaução estáticas.

Para nos permitir trabalhar com segurança em sistemas complexos, nossas organizações devem se tornar cada vez melhores em autodiagnóstico, autoaperfeiçoamento e devem ter habilidade em detectar problemas, resolvê-los e multiplicar os efeitos disponibilizando as soluções em toda a organização.

Isso cria um sistema dinâmico de aprendizado que nos permite entender nossos erros e traduzir esse entendimento em ações que impedem que esses erros se repitam no futuro. As famosas organizações resilientes.

Organizações resilientes (organizações que podem se curar), são “hábeis em detectar problemas, resolvê-los e multiplicar o efeito, disponibilizando as soluções em toda a organização. Para uma organização como essa, responder a crises não é um trabalho idiossincrático. É algo que é feito o tempo todo. É essa capacidade de resposta que é sua fonte de confiabilidade. ” Dr. Steven Spear

Um exemplo impressionante da incrível resiliência que pode resultar desses princípios e práticas foi visto em 21 de abril de 2011, quando toda a zona de disponibilidade do Amazon AWS US-EAST caiu, derrubando praticamente todos os clientes que dependiam dela, incluindo o Reddit e Quora.  No entanto, a Netflix foi uma exceção surpreendente, aparentemente não afetada por essa enorme interrupção da AWS.

A Netflix criou um serviço surpreendente e audacioso chamado Chaos Monkey, que simulava falhas da AWS ao matar constantemente e aleatoriamente servidores de produção. Eles o fizeram porque queriam que todas as “equipes de engenharia fossem usadas com um nível constante de falha na nuvem”, para que os serviços pudessem “se recuperar automaticamente sem nenhuma intervenção manual”.

O Chaos Monkey é apenas um exemplo de como o aprendizado pode ser integrado ao trabalho diário. Mostra como as organizações de aprendizagem pensam sobre falhas, acidentes e erros como uma oportunidade para aprender e não como algo a ser punido.

Exército Simiano

Chaos Monkey

hnz-consultoria-e-treinamentos-blog-quais-sao-as-diferencas-entre-empresas-saas-e-softwares-convencionais

Após a interrupção do AWS EAST 2011, a Netflix teve várias discussões sobre a engenharia de seus sistemas para lidar automaticamente com falhas.

Essas discussões evoluíram para um serviço chamado “Macaco do Caos”.

Desde então, o Chaos Monkey evoluiu para uma família inteira de ferramentas, conhecida internamente como o “Exército Simiano da Netflix”, para simular níveis cada vez mais catastróficos de falhas:

  • Chaos Gorilla: simula a falha de toda uma zona de disponibilidade da AWS
  • Chaos Kong: simula falhas de regiões inteiras da AWS, como América do Norte ou Europa
  • Macaco de latência: induz atrasos artificiais ou tempo de inatividade em sua camada de comunicação cliente-servidor RESTful para simular a degradação do serviço e garantir que os serviços dependentes respondam adequadamente
  • Macaco de conformidade: localiza e encerra instâncias da AWS que não seguem as práticas recomendadas (por exemplo, quando as instâncias não pertencem a um grupo de dimensionamento automático ou quando não há um endereço de e-mail do engenheiro de escalação listado no catálogo de serviços)
  • Doctor Monkey: acessa verificações de saúde que são executadas em cada instância e encontra instâncias não saudáveis ​​e as encerra proativamente se os proprietários não corrigirem a causa raiz a tempo
  • Janitor Monkey: garante que o ambiente em nuvem esteja livre de desordem e desperdício; procura por recursos não utilizados e os descarta
  • Macaco de Segurança: uma extensão do Conformity Monkey; localiza e encerra instâncias com violações ou vulnerabilidades de segurança, como grupos de segurança da AWS configurados incorretamente

Sempre que você planeja projetar um sistema em escala, o melhor que você pode esperar é criar uma plataforma de software confiável sobre componentes completamente não confiáveis. Isso coloca você em um ambiente onde falhas complexas são inevitáveis ​​e imprevisíveis.

Nó artigo da semana que vem, iremos explicar um pouco sobre a cultura do aprendizado e como inseri-la na sua organização.

Quer deixar sua equipe preparada para todas as possíveis situações de incidentes com devops? Entre em contato com quem é especialista no assunto! A HNZ está disposta a fornecer a transformação que sua empresa precisa.

One Comment

Leave a Reply