Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
Problema con las alertas en la v.5.0
#1
Hola, buenas tardes,

Recientemente he configurado un nuevo servidor de Pandora FMS con la versión 5.0. Dado que yo tenía la versión 3.2.1, prefería partir de cero y añadir los agentes manualmente para no tener sorpresas. Todo ha ido muy bien y ya tengo los agentes en el nuevo Pandora FMS, el problema es que al configurar las alertas como las tenía antes, no están funcionando como yo deseo.

En la versión 3.2.1 tenía configurado en la plantilla de Host Alive, que se dispare cuando el módulo se encuentre en estado crítico, con un determinado horario y que se envíe una sola alerta. La alerta se enviaría en el momento de pérdida de contacto con el módulo, y no volvería a saltar hasta que pasase 1 mes si no se volvía a tener contacto con el módulo.

Esto mismo lo tengo configurado en el nuevo servidor de Pandora, pero a pesar que indico que el periodo de tiempo es 1 mes, recibo alertas de módulos "caídos" constantemente.

¿Ha habido algún cambio en el funcionamiento de las alertas en esta nueva versión o han de configurarse de algún otro modo? Por lo que he podido ver es casi igual a la versión 3.2.1...

Gracias de antemano.

Un cordial saludo,
David.
 Reply
#2
Hola buenas

En principio, el funcionamiento es tal y como lo indicas y te debería funcionar de la misma forma.

¿Me podrías adjuntar unas capturas de la configuración que has realizado para comprobarlo?

Gracias
 Reply
#3
Hola Mario,

Gracias por la ayuda. Te dejo las capturas de todo el proceso (configuración del agente, configuración del módulo y la configuración de la alerta del módulo). Si necesitas algo más, quedo a tu disposición.

Un cordial saludo!
David.

Configuración de la alerta, fase 1 de la plantilla:
[Image: 2ltsvw6.jpg]

Configuración de la alerta, fase 2 de la plantilla:
[Image: 2agvkw9.jpg]

Configuración de la alerta, fase 3 de la plantilla:
[Image: 294kyae.jpg]

Configuración del agente:
[Image: 2ptdybo.jpg]

Configuración del módulo Host Alive:
[Image: 24n2tl5.jpg]
 Reply
#4
Pues revisando la configuración todo parece correcto.

Lo único que se me ocurre es que lo que le esté sucediendo es que al tener el intervalo cada 10 segundos, se recupere la alerta en algún momento y el contador vuelva a estar a 0. Recuerda que el contador que lleva el time threshold se vuelve a poner a 0 cuando se recupera la alerta. Si ves que siempre aparece el valor del módulo a 0, entonces no es eso claro...
 Reply
#5
Hola Mario,

Gracias por la información, pero no creo que suceda eso ya que el dispositivo monitorizado siempre esta caído puesto que tengo el dispositivo sin conectar a la red... ¿Puede ser un bug en la versión de Pandora 5? ¿sabéis de algún otro caso en el que pase lo mismo? Me sería de gran ayuda saber si creando el mismo entorno en otro sistema, sucede lo mismo. ¿Sería alguien tan amable de simular el caso en su entorno?

Gracias, un saludo.
David.
 Reply
#6
¿A alguien le sucede lo mismo? Utilizo Pandora FMS para monitorizar los sistemas de nuestros clientes y debido a este problema es un caos...
 Reply
#7
En la 5.0 hay un nuevo umbral general de alerta que te puede ayudar con este problema, esta en la configuracion de la accion. Prueba a poner ahi 3600. Eso deberia hacer que esa accion no se disparara más de una vez cada hora.

Otra cosa a verificar es que los datos de origen de la alerta y el sistema esten sincronizados. Si el dato origen de la alerta se dispara "una hora con retraso" por asi decir, respecto al tiempo del sistema, esto lo puede volver impredecible.

Por otro lado me falta un detalle en la configuracion de las alertas, el minimo para disparar la alerta pone que es 0, y el maximo no lo veo, deberia ser 1.

Prueba a jugar con todo lo que he dicho y me cuentas que tal.
 Reply
#8
Hola Sancho,

Gracias por la ayuda y disculpa la demora de mi respuesta. Sí, el número de alertas máximas es 1 y he configurado el tiempo en la acción (2592000 segundos - 1 mes) con igual resultado. Sigue sin funcionar. He revisado también las horas y coinciden.

¿Es esto un bug? Ya no se que puede ser, estoy revisando la configuración del servidor antiguo que funcionaba correctamente (versión 3.2.1) y todo coincide... Para colmo me llevaría mucho tiempo volver a migrar los agentes a dicho servidor, aparte que quería utilizar este nuevo Pandora, pero me está ocasionando muchos problemas en mi puesto de trabajo.

Si a alguien se le ocurre algo, le sucede lo mismo o simula el entorno y da con la solución ruego me avise! Estaría enormemente agradecido!

Gracias, un saludo.
David.
 Reply
#9
Por indagar un poco mas:

a) Puedes ponernos por aqui la lista de datos de ese modulo (deberia haber un "0" cada 24hr mas o menos).
b) Puedes ponernos por aqui los eventos generados por ese modulo ?, y alguna captura con los "detalles" de uno de esos eventos (los validados y los sin validar, ojo con eso).

 Reply
#10
Hola de nuevo Sancho,

Después del anterior post, he estado mirando justo esto que me indicas y me ha resultado extraño puesto que sólo tengo 1 evento en el agente y me indica que se originó hace 23 minutos, cuando lleva ya más de dos semanas caido. También he visto que muchos agentes me aparecen en estado desconocido de vez en cuando. Tengo configurado que se realice un "ping" cada 10 segundos con un flip-flop de 10.

Esto lo tenía así configurado en la anterior versión de Pandora y no tuve problemas nunca. Los módulos no pasaban a estado desconocido a no ser que fuese información enviada por el agente instalado y cuyo proceso se hubiese detenido. No obstante, vuelven solos al estado de "normalidad" a los pocos segundos o minutos.

Si esto sucede con los agentes que están caidos, al cambiar el estado a desconocido, ¿generan una nueva alarma al volver al estado crítico verdad?

Ahora el problema viene en detectar por que me cambian de estado los agentes durante un breve periodo de tiempo.

Tengo 146 agentes con 537 modulos configurados (por ahora) y me faltarían añadir unos 20 más. Acabo de ejecutar el script de pandora_db (aunque lo tengo en el cron.daily) y sigue sucediendo lo mismo.

La configuración más relevante del servidor es la siguiente:

network_timeout 5
server_keepalive 45
server_threshold 5
network_threads 20
icmp_checks 1
tcp_checks 1
tcp_timeout 30
snmp_checks 1
snmp_timeout 5
snmp_proc_deadresponse 1
plugin_threads 2
plugin_timeout 15
wmi_timeout 10
wmi_threads 2
recon_threads 1
dataserver_threads 15
max_log_size 65536
max_queue_files 2500

Por si sirve de algo. Gracias por todo, parece que ya vamos acercándonos al problema.

Un saludo.
David.
 Reply


Users browsing this thread: 2 Guest(s)


(c) 2006-2018 Artica Soluciones Tecnológicas. Contents of this wiki are under Create Common Attribution v3 licence. | pandorafms.com | pandorafms.org

Theme © MyBB Themes