https://www.swiss-digital-network.ch/wp-content/uploads/2020/06/effective-sre-scope-3.png

Excelência da Operação de Cloud

Marcos de Benedicto (Bene)

--

O que é ProdEx? E porque ele deve se tornar uma disciplina importante na gestão de confiabilidade de sistemas.

Antes vou apresentar a Liz Fong-Jones…

Liz Fong-Jones (nascida em 1987/1988)[1] é uma engenheira de confiabilidade de site (Google 2008~2019) e defensora do desenvolvedor conhecida por seu ativismo trabalhista com suas contribuições para o compromisso Never Again e seu papel na liderança dos esforços da organização de trabalhadores do Google. É presidente do conselho de administração do Fundo de Solidariedade do Colega de Trabalho, que semeou com seu próprio dinheiro. Ela é a Diretora de Tecnologia de campo da Honeycomb.

Liz explica ProdEx (PlatformCon 2023):

A excelência da produção é sobre manter a execução de sistemas de forma confiável sem esgotar a engenharia. No entanto, não é algo que as organizações possam implementar e deixar rodando em segundo plano. O ProdEx precisa ser planejado com KPIs alinhados com a capacidade da engenharia. Não apenas isso, mas deve ser um ESFORÇO INTERDISCIPLINAR em uma ampla gama de equipes além da engenharia.

Existem quatro elementos-chave da cultura ProdEx que precisam ser implementados:

1. Meça para entender quando os sistemas estão muito quebrados,
2. Depure sistemas para entender por que eles estão quebrados,
3. Colabore com outras equipes para reparar os danos,
4. Corrija o que está acontecendo dentro do sistema e elimine a complexidade desnecessária.

Observabilidade e medição de SLOs são uma cultura que depende do comprometimento de pessoas. “People, not tools!”

SLOs e observabilidade são fatores poderosos, mas precisam ser apoiados por mudanças culturais. As organizações precisam incentivar a colaboração e o compartilhamento de conhecimento entre as equipes, para que o ônus de corrigir problemas não caia sobre os ombros de um punhado de engenheiros experientes.

Da mesma forma, essas equipes devem colocar essas habilidades em prática antes que sejam necessárias para garantir que todos trabalhem juntos sem problemas. Os engenheiros precisam se sentir seguros o suficiente para recuar se estiverem esgotados, sabendo que outra pessoa está disponível para substituí-los sem prejudicar a situação em questão.

Além disso, as organizações precisam construir uma cultura em que os engenheiros se sintam seguros para falar e fazer perguntas. Como diz Liz: “…precisamos aprender com nossos antigos colegas de trabalho para deixar as coisas melhores para os futuros engenheiros”.

Ao usar SLOs para definir eventos bons e ruins, as organizações podem criar avaliações de risco eficazes que abordam problemas que as impeçam de atingir esses objetivos. Além disso, a observabilidade significa que esses problemas levarão menos tempo para serem corrigidos, tornando as interrupções mais curtas para que afetem menos usuários. Investir em ambas as práticas garante que interrupções futuras tenham um impacto cada vez menor sobre os usuários, permitindo que as organizações criem sistemas mais confiáveis.

Apresentação de Liz Fong-Jones na PlatformCon 2023 — (Honeycomb.io) — https://lnkd.in/diQrdvA4

--

--

No responses yet