Como mencionado no artigo da semana passada (Chaos monkey e a importância do aprendizado organizacional), hoje falaremos um pouco mais sobre o que é essa tal de cultura de aprendizagem, além disso, mostraremos algumas técnicas para implantá-la na sua organização.
Pré-requisitos para uma cultura de aprendizagem
Cultura de aprendizagem
Um dos pré-requisitos para uma cultura de aprendizado é que, quando ocorrem acidentes (o que sem dúvida ocorrerão), a resposta a esses acidentes é vista como “justa”. Essa noção de punição está presente, de maneira sutil ou proeminente, na maneira como muitos gerentes operaram durante o século passado. A ideia é que, para atingir os objetivos da organização, os líderes devem comandar, controlar, estabelecer procedimentos para eliminar erros e impor a conformidade com esses procedimentos.
O Dr. Dekker chama essa noção de eliminação do erro, eliminando as pessoas que causaram os erros na Teoria da Maça Podre. Ele afirma que isso é inválido, porque “o erro humano não é nossa causa de problemas; em vez disso, o erro humano é uma consequência do design das ferramentas que lhes demos.”
Cultura justa: “Quando as respostas a incidentes e acidentes são vistas como injustas, isso pode impedir investigações de segurança, promovendo o medo e não a atenção em pessoas que fazem um trabalho crítico em segurança, tornando as organizações mais burocráticas e não mais cuidadosas, além de cultivar segredo profissional, evasão e autoproteção”. Dr. Sidney Dekker, Professor e Diretor do Safety Science Innovation Lab, na Griffith University, em Brisbane, Australia.
Transformando informações em conhecimento e incorporando os resultados do aprendizado em nossos sistemas, começamos a atingir os objetivos de uma cultura justa, equilibrando as necessidades de segurança e responsabilidade. Quando os engenheiros cometem erros e se sentem seguros ao fornecer detalhes sobre isso, eles não apenas desejam ser responsabilizados, mas também estão entusiasmados em ajudar o resto da empresa a evitar o mesmo erro no futuro. É isso que cria aprendizado organizacional. Por outro lado, se punirmos esse engenheiro, todos ficarão desestimulados a fornecer os detalhes necessários para entender o mecanismo, a patologia e a operação da falha, o que garante que a falha ocorrerá novamente.
Duas práticas eficazes que ajudam a criar uma cultura justa e baseada na aprendizagem:
- os post-mortem sem culpa;
- Introdução controlada de falhas na produção para criar oportunidades de prática para os problemas inevitáveis que surgem em sistemas complexos.
Cultura de aprendizagem: reuniões post-mortem de acidentes
Post-mortem sem culpa: Ajuda-nos a examinar “os erros de uma maneira que se concentre nos aspectos situacionais do mecanismo de uma falha e no processo de tomada de decisão dos indivíduos próximos à falha”. John Allspaw
Para ajudar a permitir uma cultura justa, quando ocorrem acidentes e incidentes significativos (por exemplo, falha na implantação, problema de produção que afetou os clientes), devemos realizar um post-mortem sem culpa após a resolução do incidente. Para isso, agendamos o post-mortem o mais rápido possível após o acidente e antes que as memórias e os vínculos entre causa e efeito desbotem ou as circunstâncias mudem. (Obviamente, esperamos até que o problema seja resolvido para não distrair as pessoas que ainda estão trabalhando ativamente no problema).
Na reunião post-mortem sem culpa, terá de ser feito o seguinte:
- Construa uma linha do tempo e colete detalhes de várias perspectivas sobre falhas, garantindo que não punamos as pessoas por cometerem erros;
- Capacite todos os engenheiros para melhorar a segurança, permitindo que eles prestem contas detalhadas de suas contribuições para falhas;
- Habilitar e incentivar as pessoas que cometem erros a serem os especialistas que educam o restante da organização sobre como não os cometer no futuro;
- Aceite que sempre exista um espaço discricionário em que os humanos possam decidir agir ou não, e que o julgamento dessas decisões esteja em retrospectiva;
- Propor contramedidas para impedir que um acidente semelhante aconteça no futuro e garantir que essas contramedidas sejam registradas com uma data prevista e um proprietário para acompanhamento.
Para nos permitir obter esse entendimento, as seguintes partes interessadas precisam estar presentes na reunião:
- As pessoas envolvidas nas decisões que podem ter contribuído para o problema
- As pessoas que identificaram o problema
- As pessoas que responderam ao problema
- As pessoas que diagnosticaram o problema
- As pessoas que foram afetadas pelo problema
- E qualquer outra pessoa interessada em participar da reunião.
A primeira tarefa na reunião post-mortem sem culpa é registrar nossa melhor compreensão da linha do tempo dos eventos relevantes à medida que eles ocorreram. Isso inclui todas as ações que realizamos e a que horas (logs de bate-papo, como IRC ou Slack), que efeitos observamos (idealmente na forma de métricas específicas de nossa telemetria de produção, em oposição a narrativas meramente subjetivas), todos caminhos de investigação que seguimos e quais resoluções foram consideradas.
Para viabilizar esses resultados, precisamos ser rigorosos ao registrar detalhes e reforçar uma cultura em que as informações possam ser compartilhadas sem medo de punição ou retribuição.
Um dos resultados potencialmente surpreendentes dessas reuniões é que as pessoas geralmente se culpam por coisas fora de seu controle ou questionam suas próprias habilidades. Na reunião, devemos reservar tempo suficiente para debater e decidir quais contramedidas implementar. Uma vez identificadas as contramedidas, elas devem ser priorizadas e receber um proprietário e um cronograma para implementação. Isso demonstra ainda mais que valorizamos a melhoria do nosso trabalho diário mais do que o próprio trabalho diário.
Depois de realizar uma reunião post-mortem sem culpa, devemos anunciar amplamente a disponibilidade das notas da reunião e de todos os artefatos associados (por exemplo, linhas do tempo, logs de bate-papo, comunicações externas). Essas informações devem (idealmente) ser colocadas em um local centralizado, onde toda a organização possa acessá-las e aprender com o incidente. A realização de post mortem é tão importante que podemos até proibir que os incidentes de produção sejam encerrados até que a reunião post mortem seja concluída. Isso nos ajuda a traduzir aprendizados e melhorias locais em aprendizados e melhorias globais.
A publicação ampla de post-mortem e o incentivo de outras pessoas na organização a lê-los. Isso faz com que os colaboradores aumentem o aprendizado organizacional, e se torna cada vez mais comum para as empresas de serviços on-line publicar post-mortem por interrupções causadas pelo cliente. Isso geralmente aumenta significativamente a transparência que temos com nossos clientes internos e externos, o que, por sua vez, aumenta sua confiança em nós.
Dia do jogo
Cultura de aprendizagem
Quando Introduzimos controladamente falhas na produção para criar oportunidades de prática para os problemas inevitáveis que surgem em sistemas complexos, começamos a expor os defeitos latentes em nosso sistema, que são os problemas que aparecem apenas devido à injeção de falhas.
Engenharia de Resiliência: “um exercício projetado para aumentar a resiliência por meio de injeção de falhas em larga escala em sistemas críticos”. Jesse Robbins “Mestre do Desastre” cofundador do Chef
O objetivo dessa técnica é garantir que os serviços continuem operando quando ocorrerem falhas, potencialmente em todo o sistema, idealmente sem crise ou mesmo intervenção manual. Como Robbins brinca, “um serviço não é realmente testado até que seja interrompido na produção”.
Nosso objetivo para o Game Day é ajudar as equipes a simular e ensaiar acidentes para dar a eles a capacidade de praticar.
Primeiro, agendamos um evento catastrófico, como a destruição simulada de um data center inteiro, para acontecer em algum momento no futuro. Em seguida, damos tempo às equipes para se prepararem, eliminar todos os pontos únicos de falha e criar os procedimentos de monitoramento, procedimentos de tolerância a falhas.
A equipe do Game Day define e executa exercícios, como realizar tolerância a falhas do banco de dados (ou seja, simular uma falha no banco de dados e garantir que o banco de dados secundário funcione) ou desativar uma conexão de rede importante para expor problemas nos processos definidos. Quaisquer problemas ou dificuldades encontradas são identificados, resolvidos e testados novamente.
Essa situação no mundo real seria um caos, um desastre no dia a dia de uma área de TI, porém em um ambiente controlado, alguns dos aprendizados obtidos durante esses estudos incluem:
- Quando a conectividade foi perdida, a tolerância a falhas para as estações de trabalho do engenheiro não funcionou.
- Os engenheiros não sabiam acessar uma ponte de chamada em conferência ou a ponte só tinha capacidade para cinquenta pessoas ou precisavam de um novo provedor de chamada em conferência que lhes permitisse iniciar engenheiros que haviam submetido a conferência inteira para manter música.
- Quando os data centers ficaram sem diesel para os geradores de backup, ninguém sabia os procedimentos para fazer compras de emergência através do fornecedor, resultando em alguém usando um cartão de crédito pessoal para comprar US $ 50.000 em diesel.
Isso apenas demonstra que todo sistema é vulnerável e que é necessário testes e mais testes, nos mais diversos cenários, para garantir a sua segurança.
One Comment