Nagios fait du temps réel, mais pour avoir un historique des valeurs mesurées, il faut utiliser un "add-on". On trouve sur NagiosExchange différents modules permettant cela. L'intérêt est bien sûr d'observer des tendances ou des variations dans le temps.

L'add-on plus pratique, à mon sens, est Nagiosgraph. Il stocke ses données dans une base RRD, et peut donc en tirer des graphes. Il gère aussi bien les données de performances (perfdata) renvoyées par les plug-ins de Nagios, que le texte (output). Sa configuration est relativement aisée.

C'est ce dernier point qui le différencie de NagiosGrapher. Celui-ci fait de plus jolis graphes, il sait même configurer automatiquement Nagios quand tu ajoutes des services. Mais il m'a l'air un poil plus lourd : service à faire tourner en permanence (en Perl), paquetages Perl exotiques, configuration plus poussée, changement à la volée de la configuration de Nagios (toujours risqué, ça, hmmm). Mais si, contrairement à moi, tu n'es pas laminé du bulbe, tu obtiendra de plus grandes satisfaction avec NagiosGrapher qu'avec le simpliste Nagiosgraph.

Prérequis

Apache
CGI
Perl
Nagios
RRDTool

Installation

Télécharge donc la dernière version de Nagiosgraph sur Sourceforge. En ce qui me concerne, j'ai la version 0.7. Je la fais tourner avec un Nagios 2.1.

Il suffit de détarzipper l'archive dans le répertoire de Nagios (/usr/local/nagios/ en général) sous le nom nagiosgraph par exemple.

Configuration

Le fichier INSTALL est assez clair, il suffit de suivre les instructions.

Attention à l'activation du traitement des données de performance : il faut non seulement l'activer globalement dans nagios.cfg (process_performance_data = 1), mais aussi pour chaque service concerné (process_perf_data 1). Pour ce qui me concerne, je l'ai activé globalement dans ma définition de service générique, un template dont héritent tous mes autres services (voir ci-dessous).

Attention aussi au paramétre "heartbeat" de nagiosgraph.conf : il détermine pour RRDTool l'écart maximal entre deux collectes de données.Comme mon intervalle de vérification par défaut est de 15 minutes, et pas de 5 minutes comme le suppose l'auteur de Nagiosgraph, mon "heartbeat" n'est pas de 600 (2 x 5 minutes exprimées en secondes), mais de 1800 (2 x 15 minutes). En fait, je l'ai même rallongé un peu (3000) pour ne pas perdre de données entre deux redémarrages de Nagios. Parce que, comme tu l'as remarqué, Nagios attend un bon 1/4 d'heure avant d'ordonnancer son premier contrôle (comment ça se fait d'ailleurs ?).

nagiosgraph.conf

Mon fichier de configuration à moi, ça donne ça :

# File:    $Id:nagiosgraph.conf,v 1.6 2005/10/08 05:55:08 sauber Exp $
# Author:  (c) Soren Dossing, 2005
# License: OSI Artistic License
#          http://www.opensource.org/licenses/artistic-license.php

# Debug levels
# 0 = None
# 1 = Critical
# 2 = Error
# 3 = Warn
# 4 = Info
# 5 = Debug
debug = 2

# Location of debug log file
logfile = /usr/local/nagios/nagiosgraph/log/nagiosgraph.log

# Directory to store rrd database files
rrddir =  /usr/local/nagios/nagiosgraph/rrd

# File containing regular expressions to identify service and perf data
mapfile = /usr/local/nagios/nagiosgraph/map

# Color scheme for graphs. Choose a number between 1 and 8.
colorscheme = 1

# Heartbeat. In seconds, twice the size of servicecheck intervals
heartbeat = 3000

# Location of performance data log file. Comment out it not used.
perflog = /usr/local/nagios/var/perfdata.log

Fichier "map"

Le fichier map décrit pour Nagiosgraph quelles données collecter et comment les stocker.

Voici un extrait de mon fichier de configuration, qui illustre l'utilisation des perfdatas et de l'output, avec NSClient (si ce lien est mort, comme je le suppute, vas voir sur NagiosExchange) ou des checks Linux.

Définition du Service Nagios	Défintion correspondante dans le fichier "map"
# Generic service definition template define service{ name generic-service register 0 check_period 24x7 max_check_attempts 3 normal_check_interval 15 retry_check_interval 5 active_checks_enabled 1 passive_checks_enabled 0 parallelize_check 1 obsess_over_service 0 check_freshness 0 event_handler_enabled 0 flap_detection_enabled 0 process_perf_data 1 retain_status_information 1 retain_nonstatus_information 1 notification_interval 60 notification_period 24x7 notification_options w,u,c,r notifications_enabled 1 }
define service{ use generic-service name Server-Cpu register 0 service_description Charge CPU contact_groups nt-admins check_command nsclient_cpuload!5,50,80 }	# Service type: nsclient CPU # check command: check_nt -H Address -v CPULOAD -l5,50,80 # output: CPU Load 9% (5 min average) # perfdata: '5 min avg Load'=9%;70;80;0;100 /perfdata:.5 min avg Load'=(\d+)%;./ and push @s, [ ntload, [ 'avg05min', GAUGE, $1 ] ];
define service{ use generic-service name Server-Mem register 0 service_description Occupation memoire contact_groups nt-admins check_command nsclient_memuse!70!80 }	# Service type: nsclient Memory # check command: check_nt -H Address -v MEMUSAGE # output: Memory usage: total:4195.81 Mb - used: 1987.96 Mb (47%) - free: 2207.85 Mb (53%) # perfdata: 'Memory usage'=1987.96Mb;2937.07;3356.65;0.00;4195.81 /output:Memory usage:.* - used:.$(\d+)%$ - free:./ and push @s, [ ramuse, [ 'percent', GAUGE, $1 ] ];
define service{ use generic-service name nrpe-check-load register 0 service_description Charge CPU normal_check_interval 5 retry_check_interval 1 contact_groups linux-admins check_command check_nrpe!check_load }	# Service type: linux remote load # check command: check_nrpe -H Address -c check_load # output: OK - load average: 1.69, 1.07, 0.83 # perfdata: load1=1.690000;3.000000;5.000000;0.000000 \ # load5=1.070000;3.000000;5.000000;0.000000\ # load15=0.830000;3.000000;5.000000;0.000000 /output:.*load average: (\d+\.\d+), (\d+\.\d+), (\d+\.\d+)/ and push @s, [ linuxload, [ 'avg01min', GAUGE, $1 ], [ 'avg05min', GAUGE, $2 ], [ 'avg15min', GAUGE, $3 ] ];

Cette configuration va générer automatiquement des RRDs pour tous les hôtes utilisant ces services. Pour mettre au point le fichier map, tu peux :

faire un "tail -f /usr/local/nagios/var/perfdata.log", pour voir passer en direct les perfdata, et en déduire l'expression régulière Perl appropriée
mettre le niveau de debug à 5 dans nagiosgraph.conf, pour voir si la collecte se passe comme prévu

Maintenant que ton fichier map ressemble à quelque chose, reste à ajouter dans Nagios un lien vers les URLs permettant d'afficher les graphes.

Liens dans Nagios

Il est question dans le fichier INSTALL de nagiosgraph d'une icône pour signaler les graphes dans Nagios. Elle n'est pas fournie dans la distribution, mais tiens, prends celle-ci si tu veux : , à coller dans le répertoire share/images/logos de Nagios.

Pour me simplifier la configuration, j'ai créé un hostgroup avec tous les serveurs utilisant par exemple le service Server-Cpu.

define hostgroup{
   hostgroup_name  x-nsclient
   alias           Pour affichage icone graphe
   members         SERVEUR1,SERVEUR2,SERVEUR3
}

L'insertion de mon icône "graphe" se fait via le fichier de configuration de Nagios serviceextinfo.cfg :

define serviceextinfo {
   service_description    Charge CPU
   hostgroup              x-nsclient
   notes                  Graph
   notes_url              /nagiosgraph/show.cgi?host=$HOSTNAME$&service=$SERVICEDESC$&db=ntload,avg05min&rrdopts=%2Dl%200%20%2Du%20100
   icon_image             graph.gif
   icon_image_alt         View graphs
}

Vas-y, redémarre Nagios, tu vas voir : ça marche.