Evento Critico - Blog

Monitoramento da saúde dos servidores

Alerta para evento crítico: sistema indisponível

Por Gabriel Baú, Analista de TI na Syntesis IT

A importância dos servidores

Neste artigo, exploraremos a importância, a complexidade e o tempo dedicado à manutenção e monitoramento de servidores. Estas são operações vitais para garantir seu desempenho consistente.

Servidores são muito importantes no dia a dia de qualquer empresa da atualidade. Nos ambientes corporativos, a operação eficiente e segura das atividades depende da utilização de softwares que desempenham funções essenciais.

Todos esses softwares, por sua vez, dependem de servidores para funcionarem.

O monitoramento das VMs e a saúde dos servidores

Um dos aspectos fundamentais da manutenção de servidores é o monitoramento da saúde das Máquinas Virtuais (VMs).

Muitas vezes, antes da indisponibilidade dos servidores, ocorrem situações anormais que podem indicar a iminência de uma indisponibilidade. Levando em conta cada cenário, pode-se criar alertas que são acionados automaticamente, de acordo com métricas relacionadas a um determinado critério.

Seguem alguns exemplos:

  • o tempo de uso excessivo da CPU (acima de 90%);
  • taxa de espera por requisições de I/O (lentidão e / ou enfileiramento na leitura ou gravação de dados);
  • a proximidade do esgotamento do espaço de armazenamento disponível.

Vamos falar mais sobre isso?

Uso excessivo de CPU

Acontece quando os processadores da VM estão totalmente ocupados, não sendo possível responder às novas solicitações. Isso ocorre pelos mais diversos fatores, combinados ou não, como, por exemplo:

Falha de software

Alguma rotina tem um comportamento inesperado e sua execução nunca termina, onerando os recursos de CPU indefinidamente.

Excesso de requisições

Normalmente causado por cargas de trabalho não-planejadas. Neste caso, aplicações diferentes tentam acessar as mesmas informações no mesmo momento. Isto causa uma demanda por processamento maior que a prevista originalmente.

Consultas a banco de dados não otimizadas

Aplicações ou pessoas requisitam informações presentes no banco de dados, através de consultas SQL. Porém, elas utilizam códigos inadequados ou não otimizados para a tarefa que desejam cumprir. Isso pode causar uma espera excessiva pelo término da consulta solicitada. Consequentemente, ocorrerá indisponibilidade do servidor, que não conseguirá atender novas requisições.

Altas taxas de espera por requisições de I/O

Quando o Sistema Operacional possui múltiplas tarefas aguardando uma conclusão da leitura e / ou gravação no dispositivo de armazenamento, para que possa, só então, atender à próxima solicitação.

Por que podem ocorrer altas taxas de espera por requisições de I/O?

Consultas a banco de dados não otimizadas

A consulta pode envolver um volume tão grande de dados, que o sistema gerenciador de banco de dados passa a criar arquivos temporários antes de concluir a consulta.

Isso acarreta períodos com alta taxa de escrita em disco, ocasionando extrema lentidão ou, até mesmo, indisponibilidade do software.

Planejamento inadequado dos recursos do servidor para atender o software

A aplicação pode estar solicitando o processamento de mais informações simultâneas do que o dispositivo de armazenamento consegue entregar em tempo hábil.

Agendamento de tarefas em horário inadequado

É necessário conhecer os recursos disponíveis no servidor, o software com que se trabalha e a relação de dependência entre os dois. Assim, as tarefas automatizadas serão executadas em horários em que o impacto no desempenho da operação seja minimizado.

Por exemplo, a geração da cópia de segurança (backup) é uma tarefa computacionalmente “pesada”. Logo, não deve ser executada em horário comercial, pois pode causar uma lentidão no sistema durante toda a execução do processo.

Esgotamento de espaço de armazenamento.

Nem sempre é fácil identificar a causa do esgotamento repentino do espaço em disco. Por isso, os alertas são importantes para que as equipes tomem ações antes da ocorrência de indisponibilidade.

Algumas das causas possíveis para o esgotamento de espaço de armazenamento

Falta de planejamento de recursos para acompanhar crescimento da empresa

Toda vez que uma empresa aumenta sua base de clientes ou passa a trabalhar com novos serviços, o volume de documentos gerados diariamente aumenta consideravelmente. Infelizmente, nem sempre existe um acompanhamento dos recursos do servidor para entender se será necessária uma adequação no hardware, a fim de comportar o incremento da carga de dados.

Crescimento inesperado de arquivos de log

A análise dos registros gerados pelas aplicações e pelo sistema operacional pode revelar falhas na comunicação, gravação, leitura ou consultas ao banco de dados. Embora não impactem imediatamente a operação, indicam a necessidade de investigação e correção da infraestrutura ou do software. Além disso, o tamanho desses arquivos de log pode crescer rapidamente, esgotando o espaço de armazenamento e causando anomalias no servidor.

Entretanto, mesmo que o monitoramento dos recursos de hardware esteja sendo realizado, isto por si só não evita a indisponibilidade do serviço como um todo. Podem ocorrer falhas nos processos, serviços, threads e aplicações que executam no servidor. E é precisamente o monitoramento das aplicações e bancos de dados que definem a qualidade da solução de monitoramento como um todo.

Conheça a Syntesis IT

Na Syntesis IT, conduzimos projetos customizados para estudo e entendimento de cada aplicação executada nos servidores, para viabilizar a tomada de decisão com base em proatividade.

É importante entender como a aplicação funciona, quais são suas dependências e particularidades, como ela se comunica com aplicações externas, bem como entender as tecnologias de software utilizadas pela aplicação.

Utilizando estes insumos coletados, constrói-se um conjunto de regras e gatilhos para ser assertivo no que remete à indisponibilidade de fato, reduzindo os falsos positivos. Todos esses cuidados, considerados essenciais, podem demandar um tempo significativo de sua equipe de TI.

Ao delegar essa responsabilidade a uma equipe de especialistas, você liberta seu time de TI das tarefas de alta criticidade de infraestrutura e permite que eles sejam alocados para atividades alinhadas ao propósito do negócio.

A Syntesis IT, por meio da solução de NOC, cuida de todos esses itens e ainda gera relatórios mensais sobre as ocorrências de incidentes e manutenções realizadas preventivamente para manter sua operação disponível pelo maior tempo possível. E tudo isso é possível por conta da expertise do time em infraestrutura e aplicações.

Quem é Gabriel Baú?

Gabriel Giuliani Baú é formado em Sistemas de Informação pela ULBRA – Santa Maria / RS. Ele possui experiência de 8 anos como Analista de Suporte em empresa multinacional. Também conta com 6 anos de experiência como Analista de Sistemas na área insumos agrícolas.

Gabriel está há 1 ano na equipe da Syntesis IT, como Analista de TI, e atua em diversos projetos. Podemos citar virtualização de servidores, backup de máquinas virtuais, infraestrutura de TI industrial e autenticação massiva de clientes em ambientes complexos, por meio da solução RADIUS HA da Syntesis IT.

Confira mais artigos da Syntesis IT

Comments are closed.