Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
Problema con las alertas en la v.5.0
#11
Efectivamente, este es el problema.

En la 5.0 el estado "desconocido" se gestionan como un estado más, a diferencia de versiones anteirores que era una especie de "estado de no-estoy-en-otro-estado". Como consecuencia de ello generan eventos, alertas, y en tu caso, debido a esa combinacion de factores, ocurre eso.

Puedes irte a la configuracion de los modulos y desactivar la casilla de "Generar eventos desconocidos", aunque yo te recomendaría que revisaras los umbrales de polling para evitar entrar en estados desconocidos (incrementarlo a 30 seg).

Para optimizar el server, te recomiendaria algunos cambios:

network_timeout 4
snmp_timeout 3
dataserver_threads 2
network_threads 15
server_threshold 3

A no ser que tengas un tremendo maquinon, al meter mas threads empeoras el rendimiento. Con esos cambios no te deberia reportar mas unknown.

Piensa que la version enterprise de pandora, con un solo server puede gestionar unos 80,000 modulos SNMP/ICMP, eso es una tasa de algo más de 250modulos/sec. La version Open está algo mas limitada, pero supera sin dificultad los 50modulos/sec (solo de red, los procesados por el data server dependen de otros factores).

Suerte y a ver si empezamos bien el año Smile
 Reply
#12
Hola Sancho,

Acabo de realizar los cambios que me has indicado, a ver si conseguimos que se solucione! muchísimas gracias y te mantengo informado de los resultados. Lo haré el Jueves seguramente ya que hoy quiero dar cierto margen a la recogida de datos y los próximos dos días no estaré en el trabajo.

Os deseo a ti y al equipo de administradores, moderadores y demás usuarios que ayudan con sus conocimientos y experiencia al foro una muy feliz entrada de año y que lo mejor de este año sea lo peor del próximo! Enhorabuena y gracias por vuestra dedicación.

Un cordial saludo.
David.
 Reply
#13
Hola, buenos días,

He dejado el sistema de monitorización estos días con la configuración que me recomendaste y sigue sucediendo lo mismo. A pesar de que cambié los parámetros de configuración del servidor por lo que me indicaste y que desactive el envío de eventos desconocidos en los agentes, Pandora me reporta los agentes caídos cada pocos minutos y además me envía la alerta correspondiente ya que interpreta que se cae el mismo agente cada minuto.

Me están llegando cientos de correos del mismo agente. Tengo las alertas configuradas como muestro en las imágenes e incluso configuré en la acción de la alerta, un umbral de 1 mes (en segundos). No sé qué mas quedaría por probar, pero debería ser capaz de "recordar" que el agente está caído. ¿Podría ser un problema en la configuración de los eventos?

No se si ha variado esto respecto a la versión 3.2.1, pero comparando la configuración de ambos servidores, no he visto que varíe nada exceptuando las nuevas opciones y los parámetros que me aconsejaste cambiar.

Saludos.
 Reply
#14
Tras días probando y modificando parámetros de configuración en las alertas y en el propio servidor no he conseguido resolver el envío de alertas masivo. Esta misma noche me han llegado 120 correos de un mismo agente cuyo módulo Host Alive llevaba caído desde ayer por la mañana sin posibilidad de recuperación. No entiendo por qué sucede esto si por lo que me comentabais y basándome en las capturas que os envié, está todo bien configurado.

Yo ya desisto... quería subir de versión para mejorar nuestro centro de monitorización y solo he conseguido estropearlo...
 Reply
#15
El problema que esta sucediendo parece ser por culpa de los estados Unknown, y da igual el umbral que tengas que como comentaba Sancho coge el estado y parece que recupera la alerta...

Habría que centrarse en disminuir el lag del servidor de red para evitar estos estados Unknown. Aumentaría el intervalo de estos módulos para que disminuya el número de chequeos y una vez que este estable el servidor de red, este problema se debería solucionar.

Un saludo
 Reply
#16
Hola, buenos días,

Sí, parece que es un problema de los estados UNKNOWN del servidor, pero aún así no se como solucionarlo... Si lanzo ping desde el servidor a distintas IP públicas monitorizadas, o locales o a través de túneles IPSec, no pierdo paquetes y es constante, no obstante tengo muchísimos agentes en estado desconocido y el retraso del servidor de datos va en aumento.

[Image: 28s4sn5.jpg]

[Image: 33k5gle.jpg]

Entiendo que los módulos podrían estar en estado desconocido si no recibo datos de los agentes instalados en las máquinas monitorizadas después de haber superado el intervalo especificado, pero lo que sigo sin entender es por qué los módulos de red (Host Alive, Host Latency, Check Port, etc...) cambian a estado desconocido.

He cambiado el modo de verbosity a 10 y veo nada extraño salvo que cuando procesa los módulos de red, no me indica el nombre del agente, sino que me dice: "Processing module 'Host Alive' for agent ID XXX" Donde las X son números. No se si tendrá algo que ver...

La configuración del servidor es la que me indicasteis en este mismo thread. Por otro lado, he comprobado los recursos de la máquina y sobra de todo...

Tiene 4 cores y está usando un 5%, 4 GB de ram y usa sólo 1 y 50 GB de disco y usa 4.3 por lo que tampoco creo que sean recursos...

¿Alguna idea?

Muchas gracias por vuestro tiempo y dedicación.

Un saludo.

Editado: Parece que el servidor de datos ha vuelto a la normalidad, pero el servidor de red es el que varía. En ocasiones presenta un retraso de 7 segundos o más, lo cual no es normal y seguramente cause que los módulos cambien su estado a desconocido. Sin embargo la red va bien siempre puesto que el ping se mantiene constante...

[Image: 2nqdxkh.jpg]

He aumentado el número de network_threads de 15 a 20 para ver si hay alguna mejoría, pero parece que no la hay...
 Reply
#17
Pues en principio según se muestra en la imagen, el que de verdad tiene retraso es el data server, el de red no tiene excesivo retraso, bien es verdad que tiene 39 módulos encolados pero no debería ser crítico.

Si tienes el sistema bien de recursos, una opción es subirle el número de hilos al network_server. A ver si empiezan a funcionar mejor estos módulos.
El retraso de 44 minutos del data server, seguramente se deba a algún agente que tengas que ha dejado de reportar, no parece que tengas encolamiento de XML en el directorio /var/spool/pandora/data_in

Un saludo
 Reply
#18
Hola Mario,

El retraso del data server se debe a los reinicios que he efectuado sobre el servicio pandora_server para que adopte los cambios en la configuración. Si te fijas en la última imagen que he posteado el retraso era de 1 minuto, pero ahora no hay ningún tipo de retraso. El que me preocupa es el network server ya que siempre tiene unos 40 módulos en cola y ni aumentando el número de hilos se reduce significativamente la cola.

Como he indicado antes, aumente el número de network threads a 20 (lo tenía en 15) pero al ver que no hubo mejoría, lo dejé como estaba. Me pides que añada hilos al network server, supongo que te refieres a aumentar los network threads, ¿no?

Gracias por la ayuda.

Te dejo otra captura del estado actual de los servidores:

[Image: zjxegm.jpg]
 Reply
#19
¿Me podrias adjuntar la configuración completa de los parámetros del servidor actual?
 Reply
#20
Hola Mario, buenos días,

Esta es la configuración del servidor:

incomingdir /var/spool/pandora/data_in
log_file /var/log/pandora/pandora_server.log
snmp_logfile /var/log/pandora/pandora_snmptrap.log
errorlog_file /var/log/pandora/pandora_server.error
dbengine mysql

[Omito los datos de la base de datos]

verbosity 1
master 1
snmpconsole 1
snmp_ignore_authfailure 1
snmp_pdu_address 0
networkserver 1
dataserver 1
reconserver 1
pluginserver 1
plugin_exec /usr/bin/timeout
predictionserver 0
wmiserver 1
network_timeout 4
server_keepalive 45
server_threshold 3
network_threads 30 [Este valor lo tenía en 15, lo incrementé a 20 y ayer lo dejé en 30 para observar el rendimiento de Pandora]
icmp_checks 1
tcp_checks 1
tcp_timeout 30
snmp_checks 1
snmp_timeout 3
snmp_proc_deadresponse 1
plugin_threads 2
plugin_timeout 15
wmi_timeout 10
wmi_threads 2
recon_threads 1
dataserver_threads 15
xprobe2 /usr/bin/xprobe2
nmap /usr/bin/nmap
snmpget /usr/bin/snmpget
autocreate_group 2
autocreate 1
max_log_size 65536
max_queue_files 2500
activate_gis 1
self_monitoring 1
openstreetmaps_description 1
eventserver 0
dataserver_lifo 0
event_auto_validation 1
event_expiry_time 0

Muchas gracias de nuevo por la ayuda!

Un saludo.
 Reply


Users browsing this thread: 2 Guest(s)


(c) 2006-2018 Artica Soluciones Tecnológicas. Contents of this wiki are under Create Common Attribution v3 licence. | pandorafms.com | pandorafms.org

Theme © MyBB Themes