Entendemos que falhas podem acontecer durante a operação de um projeto na área de TI e que isso pode resultar em transtornos para a empresa. Mas o grande ponto de atenção na gestão de problemas está no mapeamento das informações que impedem ou reduzem ao máximo a repetição de falhas.
Para quem é da área, sabe que a tecnologia digital tem fatores sensíveis e uma vírgula errada em um código pode comprometer toda a operação. Essa é uma realidade para profissionais de TI, pois eles estão acostumados a trabalhar com grandes volumes de dados, exigindo responsabilidade e atenção aos detalhes.
Além do citado grande volume de dados, os ativos, a infraestrutura, a segurança, a capacitação técnica e a própria gestão têm participação importante nos projetos de TI.
Todos esses fatores funcionam como um sistema integrado, em que um depende do outro para a engrenagem girar. Aproveitando a analogia, essa engrenagem pode quebrar um dente, ficar sem óleo ou soltar um parafuso e nessa hora um profissional precisa fazer a manutenção.
O profissional que estuda a falha e entende a causa que levou à quebra de dente pode ser comparado ao especialista em gestão de problemas em uma equipe de TI. Essa pessoa é especialmente qualificada para realizar uma investigação envolvendo as equipes necessárias para evitar que esse tipo de falha aconteça novamente, tendo uma função extremamente estratégica para o time.
O que é gestão de problemas na área de TI?
A gestão de problemas na área de TI é um processo estruturado que visa identificar, registrar, diagnosticar, classificar e resolver as causas fundamentais de incidentes para prevenir sua recorrência.
Diferente da gestão de incidentes, que foca na restauração rápida do serviço, a gestão de problemas busca soluções de longo prazo por meio de uma análise profunda e a correção das falhas subjacentes.
Esse processo, recomendado pelas práticas da ITIL (Information Technology Infrastructure Library), e reforçado pela cultura SRE, melhora a confiabilidade dos serviços de TI, reduz o número de incidentes e aumenta a satisfação do usuário.

Quais as principais ferramentas utilizadas na investigação de incidentes e problemas?
Felizmente, existem diversas ferramentas utilizadas na gestão de problemas e elas são eficazes para a grande maioria dos problemas existentes.
O ITIL é o grande framework que direciona as atividades de governança, mas também podemos citar o Diagrama de Ishikawa, os Cinco Porquês, Brainstorming e a FTA (Fault-tree Analysis). A seguir entenderemos mais sobre cada uma delas:
ITIL
Essa biblioteca de boas práticas para serviços de TI é a maior referência mundial quando o assunto é resolução de incidentes e problemas. A ITIL se destaca por agrupar um grande volume de informações, fornecendo o conhecimento de processos necessários para enfrentar os desafios da área.
A importância do ITIL é tamanha, que profissionais podem ser certificados nessa metodologia, sendo inclusive um diferencial no currículo.
Diagrama de Ishikawa
Esse diagrama é um importante aliado para encontrar não apenas uma, mas várias origens (causas) de um problema. Inicialmente foi criado para ser classificado em seis pilares: método, mão-de-obra, máquina, material, medição e meio ambiente. Em TI, pode-se utilizar pilares adicionais, a depender da complexidade do projeto.
Como resultado, espera-se que, após o processo, as causas sejam descobertas e os aprendizados sejam transformados em melhorias na operação.
Cinco Porquês
A técnica dos Cinco Porquês consiste em um exercício de aprofundamento da origem do problema. Segundo Taiichi Ohno, criador do método, o número cinco tem a ver com quantidade necessária de porquês para chegar à raiz do conhecimento, como quando uma criança repetidamente pergunta “Por quê?” por curiosidade.
Brainstorming
Na tradução livre, esse termo significa uma “tempestade de ideias” e é uma dinâmica muito utilizada para apresentar diferentes formas de pensar. O brainstorming tem o objetivo de explorar a criatividade das pessoas participantes, coletando o máximo de ideias possíveis no tempo estipulado.
FTA
Na tradução, FTA significa análise de árvore de falhas e essa técnica de gestão de problemas é representada por uma árvore e suas ramificações, onde o ponto de partida é a falha (origem do problema). A partir disso, é feito um exercício com a validação de hipóteses, mapeando todos os possíveis cenários de uma operação.
Usando fundamentos estatísticos, é interessante pensar na FTA como um processo prévio ao início de qualquer projeto, para evitar que as falhas aconteçam.

Quais os tipos de gestão de problemas?
Para responder a essa pergunta, convidamos um especialista em gestão de problemas da Vivo. Leonardo Camara é especialista SRE e atua em sincronia com as equipes de resposta a emergências de TI.
Segundo Leonardo, os principais tipos de gestão de problemas se relacionam com a velocidade e a profundidade da análise das informações. São eles:
Gestão de problemas reativa
O fluxo de trabalho da gestão de problemas reativa é traçar um plano de investigação após a ocorrência de algum tipo de falha (incidente). De forma padrão, um ticket de problema é aberto e, em um prazo específico, o investigador deve mobilizar as equipes envolvidas para encontrar as causas que levaram o incidente para produção e traçar planos para evitar que a falha reincida.
Exemplo: O sistema “X” respondeu com erro para 10% dos acessos no período de 20 minutos e o sistema se recuperou sozinho. Esse incidente relatado gera um ticket de problema e o investigador responsável deve entender o motivo que levou o sistema a responder com erro para parte de seus clientes.
Gestão de problemas proativa
A gestão de problemas proativa é aquela na qual as equipes tentam se antecipar à falha na produção quando um analista encontra algum desvio no fluxo que ainda não gerou um problema, mas que tem potencial de gerar, seja por observação de ferramentas de monitoração, alerta, logs ou experiência do especialista.
Exemplo: em seu checklist diário, o analista percebe que toda segunda-feira, pós-final de semana, a sua aplicação fica mais lenta, o que ainda não é suficiente para os usuários reclamarem, mas ele percebe alguns logs de alerta e lentidão na resposta de seus servidores. Então, ele abre um ticket de problema “proativo” e segue em uma linha de investigação para evitar que esse problema se alastre.
Gestão de problemas avançada
Essa é uma linha de trabalho mais completa, que utiliza recursos focados para identificar as causas que levaram o incidente acontecer, como também os eventos que contribuíram para a extensão e severidade do impacto. Além disso, traça planos focais e abrangentes para evitar esse tipo de impacto não só no sistema afetado, mas em toda a empresa.
Exemplo: tivemos uma falha crítica onde todo o sistema “X”, o qual é um sistema core para a empresa, ficou indisponível por nove horas, sendo restabelecido após várias tentativas de correção. A gestão de problemas avançada deve ser aplicada e um rito de post mortem deve ser iniciado dentro de no máximo um dia útil. Nesse rito, o investigador deve reunir todas as pessoas que participaram do incidente e demais equipes que podem ajudar, revisar a cronologia fato a fato do incidente, levantar e detalhar bem o impacto, respondendo às seguintes perguntas:
- Quais podem ser as causas-raízes que levaram o incidente a acontecer? Para isso, pode utilizar de recursos como Brainstorming e Brainstorming Reverso, utilizando ou não um Diagrama de Ishikawa para auxiliar na centralização da investigação. Após a identificação das causas, é importante revisar o entendimento utilizando os Cinco Porquês, para garantir que fomos fundo o suficiente, ou até desenhar uma árvore de falha (Fault Tree-Analysis) como prova real da causa.
- Quais foram os eventos que contribuíram para o tempo de impacto? Assim, entenderemos se demoramos para detectar, acionar os times ou resolver o impacto e traçar planos contundentes para evitar a reincidência dessas falhas.
Geralmente as falhas de eventos contribuintes podem favorecer diversas outras causas-raízes e, portanto, devem ser bem comunicadas e expandidas na empresa.
Digamos que um dos fatos que contribuíram para que essa falha demorasse 9 horas para ser resolvida, foi o acionamento de um fornecedor. Sendo assim, isso deve ser tratado no contrato com esse fornecedor e levando a uma revisão do contrato de todos os fornecedores críticos da empresa.
Após esses questionamentos, é interessante realizar um ciclo de lições aprendidas com a participação de todos, para que ações de melhoria extras possam ser endereçadas.
Todas essas formas, no final, devem ser formalizadas em um ticket de problema na ferramenta de ITSM (ferramenta que ajuda a gerenciar a entrega de ponta a ponta dos serviços de TI aos clientes) vigente, com datas e responsáveis. As ações que evitarão a reincidência são classificadas como soluções de contorno ou soluções definitivas e devem ter uma data mais agressiva. Outras ações devem ser acompanhadas e somadas no backlog vigente das equipes envolvidas.
Lições para trabalhar com a gestão de problemas
A primeira lição é entender que os problemas vão acontecer e que isso é normal. Não podemos torná-los comuns, recorrentes, tornando importante as outras lições abaixo.
Crie processos fortes
Crie uma cultura blameless (sem culpados, na tradução livre), para o processo de gestão de problemas, em que não há foco em culpado e todos são co-responsáveis pela resiliência da aplicação.
É uma cultura que se prepara para falhar, sabe que seus ativos tecnológicos vão falhar e constroem suas aplicações em altos níveis de resiliência, já prevendo esse tipo de falha. Uma cultura na qual as investigações e tratativas de problema são sempre prioridades, e os planos de ação são acompanhados até o fim. Portanto, fomentar a segurança psicológica é fator essencial.
Aprofunde-se no entendimento do problema
É quando aceitamos os primeiros efeitos do impacto como causa raiz das falhas, é quando não investigamos devidamente e traçamos planos de ação que apenas reestabeleçam o ambiente e não tratem os motivos pelos quais o incidente aconteceu.
Confie e use as técnicas de gestão de problemas
A base teórica que as técnicas de gestão de problemas oferecem tem muito o objetivo de evitar uma desorientação do profissional responsável. Os conceitos direcionadores esqueleta os processos para ajudar na organização das tarefas, além de enriquecer o background do profissional para possibilitar tomadas de decisão mais ágeis.
Quais as principais habilidades do profissional dessa área?
Além de entender as técnicas e ter contexto sobre os projetos, o profissional dessa área precisa desenvolver algumas soft skills importantes, sendo elas: comunicação, trabalho em equipe, senso crítico, gerenciamento de conflitos, disciplina, lifelong learning e gestão do tempo.Segundo Leonardo, “o responsável por essa função tem que investir um bom tempo para entender o tema a ser investigado, pois TI é muito ampla e é impossível dominar todas as tecnologias. Por isso, não tenha vergonha de perguntar e pesquisar. Não é um pré-requisito ser especialista no tema que será investigado, mas tem que procurar entender o assunto”.

Como a gestão de problemas é trabalhada na prática na Vivo?
A gestão de problemas é meta em diversos pontos nas diretorias de tecnologia da Vivo. Hoje, estamos em um modelo de trabalho transitório onde equipes de resposta à emergência estão sendo criadas, tendo dentro dessas equipes um papel chamado de Operation Leader, o qual é o responsável por orquestrar as investigações dos sistemas em que é guardião.
Esse modelo foi criado por meio do Projeto Lotus, que começou em 2023, trazendo as melhores práticas de gestão de problemas e SRE (Site Reliability Engineering) para a Vivo com a consultoria da Accenture. É tão relevante que nesse ano ganhou o prêmio no Vivo Reconhece, na categoria #DNAVivoEmTudoQueFazemos, resultando em diminuição relevante no tempo de resposta a falhas, aumento de disponibilidade dos sistemas da Vivo, eficiência operacional e reduzindo gastos em falhas evitadas definitivamente.

O que você precisa levar de aprendizado deste artigo?
Começamos contextualizando sobre a área de gestão de problemas, explicando que falhas sempre são cabíveis de acontecer, mas é preciso agilidade e profundidade para encontrar a raiz do problema.
Também citamos e explicamos as principais técnicas utilizadas na gestão de problemas, destacando a importância da capacitação teórica do profissional responsável por essa área.
Além disso, explicamos três tipos de gestão de problemas. São eles: reativa, proativa e avançada. O tipo de gestão define que tipo de resposta você espera encontrar com a análise.
Por fim, ainda listamos as principais habilidades do profissional que deseja trabalhar na área.
Concluímos esse texto destacando a importância da gestão de problemas para empresas que desejam otimizar tempo, recursos e pessoas.
Que tal colocar todo esse conteúdo em prática? A Vivo tem vagas abertas na área de tecnologia e você pode fazer parte do nosso time.
Clique no banner abaixo e receba nossas vagas diretamente no seu e-mail.

Gostou do conteúdo? Compartilhe com mais pessoas.
Até a próxima. 💜