
Monitoritzant el SLA dels Serveis de Centreon
Una cosa curiosa i que depèn de les circumstàncies pot venir bé pot ser el conèixer el SLA de qualsevol servei que estem monitoritzant actualment als nostres Centreon. Pot també estar pensat per quan monitoritzem a nivell de Negoci, per donar visibilitat de la seva disponibilitat.
Com sabem, Centreon almacena sus métricas y estados en una BD de MariaDB, podemos sencillamente mediante queries de MySQL sacar en tiempo o en % el estado de un Servicio monitorizado en Centreon. Podremos saber cuánto tiempo (o porcentaje) ha estado en estado OK, Warning, Critical, Unknown o en Mantenimiento. Per a què? bo, de todos es sabido que podemos conocer el SLA de cualquier Host o Servicio en Centreon, pero otra cosa es monitorizarlo para alertarnos de cuando este no se cumple, o por ejemplo para visualizarlos en nuestro Servicio de Negocio vía NagVis.
Bé, para comenzar sería interesante que si no estás monitorizando queries de MySQL, eches un vistazo a aquest post. Cuando tengas ya el script que permita hacer consultas a BBDD de MySQL, podremos crear los Comandos que necesitamos y cada uno con su tipo de consulta. Ya que unos comandos nos servirán para monitorizar el SLA de Hosts, otros de Servicios, otros nos darán el resultado en tiempo y otros en %, así que dependiendo lo que necesites te dejo aquí ciertas posibilidades:
- SLA de Servicios OK en %:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT ROUND((SUM(OKTimeScheduled)/($ARG1$ * 86400))*100,2) as porcentaje FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA' -U %
- SLA de Servicios OK en Tiempo:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT CONCAT(FLOOR(HOUR(sec_to_time(SUM(OKTimeScheduled))) / 24), 'd_', MOD(HOUR(sec_to_time(SUM(OKTimeScheduled))), 24), 'h_', MINUTE(sec_to_time(SUM(OKTimeScheduled))), 'm') AS Tiempo FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA'
- SLA de Servicios Warning en %:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT ROUND((SUM(WARNINGTimeScheduled)/($ARG1$ * 86400))*100,2) as porcentaje FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA' -U %
- SLA de Servicios Warning en Tiempo:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT CONCAT(FLOOR(HOUR(sec_to_time(SUM(WARNINGTimeScheduled))) / 24), 'd_', MOD(HOUR(sec_to_time(SUM(WARNINGTimeScheduled))), 24), 'h_', MINUTE(sec_to_time(SUM(WARNINGTimeScheduled))), 'm') AS Tiempo FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA'
- SLA de Servicios Critical en %:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT ROUND((SUM(CRITICALTimeScheduled)/($ARG1$ * 86400))*100,2) as porcentaje FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA' -U %
- SLA de Servicios Critical en Tiempo:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT CONCAT(FLOOR(HOUR(sec_to_time(SUM(CRITICALTimeScheduled))) / 24), 'd_', MOD(HOUR(sec_to_time(SUM(CRITICALTimeScheduled))), 24), 'h_', MINUTE(sec_to_time(SUM(CRITICALTimeScheduled))), 'm') AS Tiempo FROM log_archive_service, services WHERE log_archive_service.service_id = services.service_id AND description = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY log_id DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA'
- SLA de Hosts Uptime en %:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT ROUND((SUM(UPTimeScheduled)/($ARG1$ * 86400))*100,2) as porcentaje FROM hosts, log_archive_host WHERE log_archive_host.host_id = hosts.host_id AND hosts.name = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY date_end DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA' -U %
- SLA de Hosts Uptime en Tiempo:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT CONCAT(FLOOR(HOUR(sec_to_time(SUM(UPTimeScheduled))) / 24), 'd_', MOD(HOUR(sec_to_time(SUM(UPTimeScheduled))), 24), 'h_', MINUTE(sec_to_time(SUM(UPTimeScheduled))), 'm') AS Tiempo FROM hosts, log_archive_host WHERE log_archive_host.host_id = hosts.host_id AND hosts.name = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY date_end DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA'
- SLA de Hosts Downtime en %:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT ROUND((SUM(DOWNTimeScheduled)/($ARG1$ * 86400))*100,2) as porcentaje FROM hosts, log_archive_host WHERE log_archive_host.host_id = hosts.host_id AND hosts.name = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY date_end DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA' -U %
- SLA de Hosts Downtime en Tiempo:
$CENTREONPLUGINS$/Nagios-Plugins/check_mysql_query.pl -q "SELECT CONCAT(FLOOR(HOUR(sec_to_time(SUM(DOWNTimeScheduled))) / 24), 'd_', MOD(HOUR(sec_to_time(SUM(DOWNTimeScheduled))), 24), 'h_', MINUTE(sec_to_time(SUM(DOWNTimeScheduled))), 'm') AS Tiempo FROM hosts, log_archive_host WHERE log_archive_host.host_id = hosts.host_id AND hosts.name = '$ARG2$' AND from_unixtime(date_end) > date_sub(now(), INTERVAL $ARG1$ day) order BY date_end DESC" -H 127.0.0.1 -d centreon_storage -u centreon -p CONTRASEÑA_USUARIO_CENTREON -t 60 --no-querytime -T -g -l 'SLA'
Y ahora sólo falta crear tantos Servicios para monitorizar el SLA como nos interese, en este caso práctico, yo los estoy utilizando únicamente para medir el SLA de los Servicios de Negocio, y por tanto para visualizarlos en NagVis. Como argumentos pondremos los días del SLA que nos interesa ver y en el Nombre del Servicio, el nombre único de un Servicio a chequear.
I com sempre, tras grabar y exportar la configuración, tendremos nuestros servicios SLA listos para chequear mediante una query en la base de datos de Centreon el tiempo o porcentaje del estado de un Servicio.
Y en NagVis, con el Gadget de RawNumbers podremos añadir los ítems SLA monitorizados y quedará más atractivo a la hora de movernos entre mapas y conocer el SLA que ofrece cualquier servicio, ideal para perfiles no 100% técnicos y quieran conocer el estado de su infraestructura en tiempo real.