Chaos Monkey e a importância do aprendizado organizacional

Quando trabalhamos em um sistema complexo, é impossível prever todos os resultados para as ações que tomamos. Isso contribui para acidentes inesperados e às vezes catastróficos, mesmo quando usamos ferramentas de precaução estáticas.

Para nos permitir trabalhar com segurança em sistemas complexos, nossas organizações devem se tornar cada vez melhores em autodiagnóstico, autoaperfeiçoamento e devem ter habilidade em detectar problemas, resolvê-los e multiplicar os efeitos disponibilizando as soluções em toda a organização.

Isso cria um sistema dinâmico de aprendizado que nos permite entender nossos erros e traduzir esse entendimento em ações que impedem que esses erros se repitam no futuro. As famosas organizações resilientes.

Organizações resilientes (organizações que podem se curar), são “hábeis em detectar problemas, resolvê-los e multiplicar o efeito, disponibilizando as soluções em toda a organização. Para uma organização como essa, responder a crises não é um trabalho idiossincrático. É algo que é feito o tempo todo. É essa capacidade de resposta que é sua fonte de confiabilidade. ” Dr. Steven Spear

Um exemplo impressionante da incrível resiliência que pode resultar desses princípios e práticas foi visto em 21 de abril de 2011, quando toda a zona de disponibilidade do Amazon AWS US-EAST caiu, derrubando praticamente todos os clientes que dependiam dela, incluindo o Reddit e Quora. No entanto, a Netflix foi uma exceção surpreendente, aparentemente não afetada por essa enorme interrupção da AWS.

A Netflix criou um serviço surpreendente e audacioso chamado Chaos Monkey, que simulava falhas da AWS ao matar constantemente e aleatoriamente servidores de produção. Eles o fizeram porque queriam que todas as “equipes de engenharia fossem usadas com um nível constante de falha na nuvem”, para que os serviços pudessem “se recuperar automaticamente sem nenhuma intervenção manual”.

O Chaos Monkey é apenas um exemplo de como o aprendizado pode ser integrado ao trabalho diário. Mostra como as organizações de aprendizagem pensam sobre falhas, acidentes e erros como uma oportunidade para aprender e não como algo a ser punido.

Exército Simiano

Chaos Monkey

hnz-consultoria-e-treinamentos-blog-quais-sao-as-diferencas-entre-empresas-saas-e-softwares-convencionais

Após a interrupção do AWS EAST 2011, a Netflix teve várias discussões sobre a engenharia de seus sistemas para lidar automaticamente com falhas.

Essas discussões evoluíram para um serviço chamado “Macaco do Caos”.

Desde então, o Chaos Monkey evoluiu para uma família inteira de ferramentas, conhecida internamente como o “Exército Simiano da Netflix”, para simular níveis cada vez mais catastróficos de falhas:

Chaos Gorilla: simula a falha de toda uma zona de disponibilidade da AWS
Chaos Kong: simula falhas de regiões inteiras da AWS, como América do Norte ou Europa
Macaco de latência: induz atrasos artificiais ou tempo de inatividade em sua camada de comunicação cliente-servidor RESTful para simular a degradação do serviço e garantir que os serviços dependentes respondam adequadamente
Macaco de conformidade: localiza e encerra instâncias da AWS que não seguem as práticas recomendadas (por exemplo, quando as instâncias não pertencem a um grupo de dimensionamento automático ou quando não há um endereço de e-mail do engenheiro de escalação listado no catálogo de serviços)
Doctor Monkey: acessa verificações de saúde que são executadas em cada instância e encontra instâncias não saudáveis e as encerra proativamente se os proprietários não corrigirem a causa raiz a tempo
Janitor Monkey: garante que o ambiente em nuvem esteja livre de desordem e desperdício; procura por recursos não utilizados e os descarta
Macaco de Segurança: uma extensão do Conformity Monkey; localiza e encerra instâncias com violações ou vulnerabilidades de segurança, como grupos de segurança da AWS configurados incorretamente

Gostaria de saber mais sobre tema? Então confira o vídeo que preparamos para você!

Sempre que você planeja projetar um sistema em escala, o melhor que você pode esperar é criar uma plataforma de software confiável sobre componentes completamente não confiáveis. Isso coloca você em um ambiente onde falhas complexas são inevitáveis e imprevisíveis.

Nó artigo da semana que vem, iremos explicar um pouco sobre a cultura do aprendizado e como inseri-la na sua organização.

Quer deixar sua equipe preparada para todas as possíveis situações de incidentes com devops? Entre em contato com quem é especialista no assunto! A HNZ está disposta a fornecer a transformação que sua empresa precisa.

Artigos relacionados:

Os benefícios da afinidade dentro de uma equipe de TI

Da TI tradicional para a TI moderna: confira as principais evoluções

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Chaos Monkey e a importância do aprendizado organizacional

Exército Simiano

Gostaria de saber mais sobre tema? Então confira o vídeo que preparamos para você!

Heinz Nevermann Zamorano

Categorias

Posts recentes

Previous PostConheça as principais ferramentas DevOps

Next PostGestão de TI: principais desafios e como solucioná-los com DevOps

One Comment

Leave a Reply Cancel Reply

Endereço

Páginas

Chaos Monkey e a importância do aprendizado organizacional

Exército Simiano

Gostaria de saber mais sobre tema? Então confira o vídeo que preparamos para você!

Heinz Nevermann Zamorano

Categorias

Posts recentes

Previous PostConheça as principais ferramentas DevOps

Next PostGestão de TI: principais desafios e como solucioná-los com DevOps

Related Posts

Do Sintoma humano à Cultura DevOps: Liderança Transformacional na Entrega de Valor

As seduções dos anti-padrões do DevOps

Maximizando a Agilidade com DevOps

One Comment

Leave a Reply Cancel Reply

Endereço

Páginas