Midjorney.ai

AIOps, Observabilidade e Reinforcement Learning

Marcos de Benedicto (Bene)
3 min readFeb 22, 2023

--

Por que o futuro do AIOps depende de Deep Observability e Reinforcement Learning?

A Observabilidade é a disciplina que observa o comportamento dos sistemas e componentes. Diferente da monitoração, o valor agregado da observação não é dizer o estado atual de um componente, mas dizer qual o comportamento esperado deste componente num sistema.

A AIOps por sua vez seria a forma de automatizar o efeito do comportamento de um componente no sistema, ou adaptar um sistema a uma nova forma de comportamento até então desconhecida mas que faz sentido para a entrega de valor.

E quais ferramentas poderiam ajudar nesta jornada?

  1. Observability Data: Agregação de dados de comportamento e observação.
  2. Observability Insights: Correlação de dados com desvios de comportamento.
  3. Business Insight: Analisar desvios, se são benéficos ou prejudiciais ao sistema.
  4. Scale-Up Components: Regras para componentes escalarem e limites.
  5. Scale-UP System: Regras de dependências de sistema para componentes escalarem.
  6. Scale-Down System: Regras para redução de componentes no sistema.
  7. Scale-Down Components: Regras para redução evitar falhas de interação com a redução dos componentes.
  8. Triggers Design: Desenvolvimento de gatilhos de modificação dos componentes e sistemas.
  9. Auto-Configuration Rules: Regras para inserções e modificações de configuração em plataformas.
  10. Reinforcement Learning (aqui está a mágica): Algoritmos que aprendem com a observação e criam novas Triggers orientadas ao crescimento do negócio.

Quando evoluímos para um sistema gerenciado por AIOps, passamos a olhar para dados estatísticos e não mais para situações pontuais (não exclui a necessidade de monitoração e recuperação reativa quando necessário). Olhar para estatística significa que o sistema AIOps ao longo dos ciclos deve reduzir as ações humanas sobre o sistema e componentes.

Introdução da Reinforcement Learning.

O Reinforcement Learning (RL) ou Aprendizado por Imitação, tem a função de buscar padrões entre as tomadas de decisão com base na observação de ações. Ou seja, num sistema em que um dos componentes é um WebServer as ações manuais tomadas na recuperação do componente podem ser registradas pelo RL-AI e futuras interações partem do princípio de uma regra comum.

RL — https://en.wikipedia.org/wiki/Reinforcement_learning

https://www.researchgate.net/figure/The-framework-of-Reinforcement-Learning-Imitation-Learning-and-their-integration-The_fig4_322094035

Conclusão

O futuro do sistema é automatização completa, as áreas de negócio já deram um grande salto com a virada para Cloud. O próximo passo é a proteção das plataformas de negócio e a abstração por completo da infraestrutura. O AIOps será primordial numa arquitetura de Supercloud (megacloud, jumbocloud… não existe nome para isso ainda), quando não existir mais necessidade de controle sobre os provedores de infraestrutura de Cloud.

Mas separando a realidade do buzzword, não acredito num sistema deste a curto prazo, e nem acredito que alguém sem envolvimento completo no negócio da empresa tenha reais interesses em desenvolver algo nesta complexidade.

--

--

No responses yet