Comme tous les processus de « garantie », la gestion de la disponibilité est un processus de planification et de conception des services. Il permet de s’assurer que les niveaux de disponibilité délivrés pour les services atteignent ou dépassent les besoins exprimés par les métiers, et ce à un coût acceptable.
Cette production du plan sera l’aboutissement de différentes activités :
l'analyse de l’infrastructure pour détection des points de faiblesse (SPOF).
Parmi les exemples de SPOF les plus classiques, on trouve le routeur qui donne accès à Internet ou le firewall, mais également un onduleur sur lequel sont branchées toutes les alimentations du serveur… ;
l'analyse des conséquences d’une panne sur un composant (CFIA - Component Failure Impact Analysis) ;
l'analyse d’impact des changements sur le plan de disponibilité.
Vous devrez finalement vous assurer que les mesures visant à améliorer la disponibilité sont mises en œuvre à des coûts acceptables.
Gérez les délais des incidents
Le cycle de vie des incidents indique que plusieurs délais indépendants existent et composent le délai global ressenti lors d’un incident. Un des objectifs de la gestion de la disponibilité est de déterminer des solutions pour réduire ces délais. Ces derniers se décomposent en :
Délai de détection ⇒ supervision.
Temps de réponse => maintenabilité.
Diagnostic ⇒ base de connaissance/formation.
Temps de réparation ⇒ maintenabilité/servicabilité
Vous aurez donc différents leviers à actionner pour améliorer la disponibilité des services à l'échelle de la gestion des incidents.
Proposez des architectures fiables et disponibles
Un des buts de la Gestion de la Disponibilité est de s’assurer que la durée et l’impact des incidents affectant les services IT sont minimisés pour permettre une reprise normale de l’exploitation du business le plus rapidement possible. Ceci est possible si les infrastructures sont rendus fiables et résilientes.
Les infrastructures de l’entreprise sont fiables si elles assurent un certain niveau de disponibilité et si les incidents qui se produisent ont un impact réduit sur l’activité. C’est par exemple le cas d’architecture système résiliente dont les composants sont capables de supporter des pannes tout en rendant le service, par exemple via des disques en RAID 1 ou une alimentation redondante.
Fiabilité ? Disponibilité ? Qu'est-ce qui se cache derrière ces termes ?
La fiabilité
C’est par exemple la durée de fonctionnement d’un disque dur sans rencontrer de panne. On parle souvent du MTBF (Mean Time Between Failure) qui correspond au temps moyen entre les pannes.
La disponibilité
Vous devrez le calculer en tenant compte de l’ensemble de la chaîne de traitement depuis le poste de travail jusqu’à l’application sur le serveur, en passant par les réseaux, les systèmes, les bases de données…
Le taux de disponibilité est calculé par la formule suivante :
D = (AST - DT)/AST
AST = temps de service convenu ;
DT = temps d’indisponibilité.
La maintenabilité
Concrètement, cette information indique si un fabriquant de matériel ou un mainteneur dispose toujours de la pièce qui doit éventuellement être remplacée. Si cette pièce demande un long délai pour être remplacée, soit parce qu’elle est très lointaine, soit parce qu’il faut la fabriquer spécialement, cela implique un temps de réparation ou de remise en service qui sera très long.
Imaginez l’impact sur le délai de traitement de l’incident si le spécialiste est situé dans une autre ville ou si la pièce n’est plus disponible. Et que dire du fameux « on ne touche pas à un serveur qui fonctionne » lorsque celui-ci donne toute satisfaction mais devient obsolète, et ne sera bientôt plus maintenu par le constructeur ?
La servicabilité
Ici, on parle de la capacité du fournisseur à agir sur le composant, et non pas du composant lui-même. Dans ce cas, il s’agit de savoir si le fournisseur dispose de la compétence elle-même. C’est exactement ce qu’il s’est passé lors du passage à l’an 2000 avec la pénurie de développeurs COBOL et les formations organisées dans l’urgence pour pallier le manque.
En résumé
La gestion de la disponibilité est un processus de planification et de conception.
Son objectif principal est de fournir une infrastructure résiliente afin d’éviter ou de limiter un arrêt de service.
L’analyse de risque, l’étude des points de faiblesse de l’infrastructure et l’analyse d’impact sur le métier permettent d’évaluer les faiblesses à corriger.
Le taux de disponibilité du service doit être calculé de bout en bout et du point de vue du client.