Si les coupures d’électricité sont une cause fréquente de pannes dans les datacenters, elles ne sont plus les seules. En effet, les défaillances des systèmes IT et les erreurs réseaux sont à l’origine de panne de plus en plus nombreuses. C’est pourquoi l’Institut Uptime s’est intéressé aux pannes connues pour savoir qu’elle était l’origine des interruptions de services non planifiées. Pour se faire, la société a décortiqué 162 interruptions de services signalées dans les médias traditionnels et sociaux au cours des trois dernières années.
27 pannes ont fait l’objet d’articles dans les médias en 2016, 57 en 2017 et 78 en 2018. « Les pannes de services se retrouvent de plus en plus régulièrement à la une des médias » a déclaré Andy Lawrence, directeur exécutif de la recherche à l'Institut. Cela ne signifie pas nécessairement que le nombre de pannes augmente en flèche mais plutôt que les temps d’interruption attirent de plus en plus l'attention. « Il est clair que pour les utilisateurs, l’impact des pannes est certainement plus dommageable aujourd’hui » ajoute-t-il.
L’étude a permis de mettre en évidence que dans les pannes globales les problèmes de réseau et des systèmes IT sont davantage mis en cause que ceux liés à l’alimentation électrique. On explique cela par le fait que les systèmes d’alimentation électrique sont plus fiables que par le passé et qu’il y a donc moins de coupures de courant dans les datacenters.
En parallèle, la complexité croissante des environnements IT est à l’origine d’un nombre croissant de problème liés à l’IT et aux réseaux. « Désormais, les données sont dispersées dans plusieurs endroits, avec des dépendances critiques par rapport au réseau, par rapport à la façon dont les applications sont architecturées et à la façon dont les bases de données se répliquent. C’est un système très complexe, et il faut aujourd'hui moins d’événements pour en perturber le fonctionnement » a expliqué Todd Trader, vice-président de l’optimisation et de la stratégie IT à l’Institut Uptime.
Une tendance d’autant plus marquée lorsque l’on compare les causes d’une année sur l’autre. 28 % des pannes étaient liées à des problèmes d’alimentation électrique en 2017 contre 11 % l’année suivante. Les défaillances liées aux systèmes informatiques sont restées relativement constantes : 32 % en 2017 puis 35 % en 2018. Les pannes imputables aux problèmes de réseau ont augmenté de façon significative, passant de 19 % en 2017 à 32 % en 2018. « Les choses sont reliées non pas à un ou deux sites mais à trois ou quatre sites, voire plus, Le réseau joue un rôle de plus en plus important dans la résilience informatique » remarque Todd Traver.
Afin de pouvoir distinguer une interruption qui peut menacer l’activité d’une entreprise d’une panne juste gênante, l’Institut Uptime a mis au point une grille d’évaluation avec une échelle de 5 niveaux :
- niveau 1 : désigne un arrêt négligeable. La panne est enregistrable mais il y a peu ou pas d’impact évident sur les services et aucune interruption de service.
- niveau 2 : qualifie une interruption de service minimale. Les services sont perturbés, mais l’effet sur les utilisateurs, les clients ou la réputation est minime.
- niveau 3 : désigne une interruption de service importante pour l’entreprise. Il s’agit d’interruptions du service à la clientèle ou aux utilisateurs, le plus souvent de portée, de durée ou d’effets limités. L’impact financier est minime ou nul mais il y a un certain impact sur la réputation ou la conformité.
- niveau 4 : concerne une panne d’exploitation ou de service grave entraînant une perturbation du service et / ou des opérations impliquant des pertes financières, des manquements à la conformité, des atteintes à la réputation et peut-être même des problèmes de sécurité avec éventuellement des pertes de clients.
- niveau 5 : qualifie une panne critique pour l’entreprise ou la mission, entraînant une interruption majeure et dommageable des services et / ou des opérations, impliquant d’importantes pertes financières, des problèmes de sécurité, des manquements à la conformité, des pertes de clients et des atteintes à la réputation.
Cette analyse a été approfondie par les chercheurs qui ont identifié plus spécifiquement l’origine des pannes de datacenters.
Les motifs des pannes les plus courants quand le réseau est en panne :
- coupures de fibres en dehors du datacenter et nombre insuffisant d’alternatives de routage
- panne intermittente des principaux commutateurs et absence de routeurs secondaires
- panne majeure de switch sans sauvegarde
- configuration incorrecte du trafic pendant la maintenance
- mauvaise configuration des routeurs et des réseaux définis par logiciel
- défaut d’alimentation de composants individuels non sauvegardés comme des commutateurs et des routeurs
Pour l’informatique, les causes les plus courantes sont :
- mise à niveau mal gérée
- échec et corruption de données subséquente d’un grand nombre de disques ou de systèmes de stockage SAN
- défaillance de synchronisation ou erreurs de programmation dans le système d’équilibrage de charge ou de gestion du trafic
- système de défaillance / synchronisation ou de reprise après sinistre mal programmés
- perte de puissance au profit de composants individuels non sauvegardés
Quand c’est l’alimentation électrique qui fait défaut, les motifs des pannes sont :
- la foudre provoque des surtensions et des coupures d’électricité
- défaillances intermittentes avec les commutateurs de transfert et impossibilité de démarrer les générateurs ou d’effectuer les transferts vers un second datacenter
- pannes de l’onduleur et absence de transfert vers les systèmes secondaires
- le fournisseur n’arrive pas à délivrer la puissance nécessaire avec défaillance subséquente du générateur ou de l’onduleur
- dommages causés aux équipements informatiques par surtension
« De façon générale, les entreprises devraient accorder plus d’attention à la résilience des datacenters. Elles ont besoin de connaître leurs architectures, de bien comprendre toutes les interdépendances, d’identifier les motifs des défaillances, de prévoir des solutions en cas d’échec. Or ce dernier aspect est souvent négligé » ajoute Todd Traver.
Lire l'article
Source : Le Monde Informatique