Article de recherche. Allons à la source du problème et corrigeons-le.
Comme d'habitude, la surveillance fonctionnait la nuit. C'est bien que cela ait fonctionné, même excellent. Dommage la nuit.
Un serveur HP Proliant DL360 Gen9 est tombé en panne. iLO a craché une erreur, le serveur zabbix a détecté un événement, a déclenché un problème matériel. Le déclencheur a envoyé une lettre, un SMS et un script a fonctionné qui a envoyé un fichier d'appel à Asterisk. Et notre téléphonie m'est parvenue, la nuit, une infection. Je n'ai pas compris ce que le robot a marmonné dans le téléphone, mais la tâche principale d'élever l'administrateur a été terminée, comme on dit, voir les détails dans le SMS.
Le cache du contrôleur RAID Smart Array P440ar a échoué :
État du module de cache - Dégradé
A première vue, le problème n'est pas critique, il peut attendre jusqu'au matin. Et le matin, les problèmes ont commencé - une forte dégradation des disques. Il a fallu plus d'une journée pour déplacer des machines virtuelles de cet hyperviseur vers un autre serveur. Je n'ai pas mesuré, mais la vitesse de transfert de données a été multipliée par cinq. Certains services ont dû être arrêtés.
Il s'est avéré que le cache du contrôleur RAID optimise sensiblement les performances des baies.
Trouver un problème
Le serveur n'est plus sous garantie, vous devrez régler le problème vous-même.
Il existe plusieurs points de défaillance possibles :
- Le problème est logiciel, peut-être dû au firmware récent du contrôleur RAID. Redémarrer, réinitialiser les paramètres du contrôleur RAID, éteindre et rallumer le cache peut aider.
- Problème avec le contrôleur RAID. Le micrologiciel ou le remplacement peut aider.
- Problème avec le module de cache. Le démontage-assemblage, le remplacement du module de cache aidera.
- Problème avec les fils ou les contacts. Le démontage-assemblage, la reconnexion de la batterie, le remplacement de la batterie aideront.
- Problème de batterie. Remplacer la batterie aidera.
Tout d'abord, redémarrez le serveur et iLO. N'a pas aidé.
État de la batterie vérifié. État OK.
Ce n'est pas clair, démarrons dans HPSSA (HP Smart Storage Administrator). Nous redémarrons le serveur, au démarrage, appuyez sur F9 pour accéder aux utilitaires système.
Sélectionnez Configuration système.
Sélectionnez le contrôleur problématique : RAID 1 intégré : contrôleur Smart Array P440ar.
Sélectionnez Quitter et lancez HP Smart Storage Administrator (HPSSA).
Sélectionnez (déjà sélectionné) Administrateur Smart Storage. Vous pouvez également y accéder en sélectionnant F10 (Intelligent Provisioning) lors du chargement, mais vous aurez besoin de temps pour changer d'élément dans cette fenêtre.
Nous attendons le chargement de Smart Storage Administrator.
On peut voir qu'un avertissement est allumé sur le contrôleur RAID Smart Array P440ar.
Le texte d'erreur ici est plus informatif :
Smart Array P440ar dans l'emplacement intégré a une ou plusieurs batteries/condensateurs de module de cache qui se rechargent. Les opérations de mise en cache telles que l'extension, l'extension et la migration sont temporairement suspendues jusqu'à ce que les batteries/condensateurs soient complètement chargés. Les opérations de mise en cache reprendront automatiquement une fois la charge terminée.
Il s'avère que la batterie est en cours de charge. Cela se produit lorsque vous branchez une batterie déchargée. L'erreur disparaîtra après une charge complète. Mais dans mon cas, la batterie est installée depuis longtemps, l'erreur elle-même ne disparaît pas.
Lançons les diagnostics.
Serveur → Actions → Diagnostic.
Afficher le rapport de diagnostic.
La collecte des données de diagnostic commence.
Cache du contrôleur RAID désactivé, aucune autre erreur. Regardé à travers le rapport, n'a rien trouvé de spécial.
Regardons le cache. Outils → Gestionnaire de cache → Cache du contrôleur → Détails du cache du contrôleur.
- État du cache : activé, mais pas actuellement actif.
- Détails de l'état du cache : cache désactivé ; la charge de la source d'alimentation est faible.
- État de la batterie/du condensateur : Recharge
Le cache est désactivé car La batterie est en cours de chargement et le niveau de la batterie est faible. Vous pouvez voir plus de détails : Afficher plus de détails.
Des informations plus détaillées ne nous aident pas beaucoup, la seule chose qui est intéressante dans notre cas est l'entrée :
- Activer le cache d'écriture lorsque la batterie/le condensateur n'est pas présent ou n'est pas complètement chargé : désactivé
Il existe une option dans le cache du contrôleur qui vous permet d'activer le cache lorsqu'il n'y a pas de batterie ou lorsque la batterie est faible. Si le serveur était un serveur de combat, si nous avions un besoin urgent de faire fonctionner le serveur, alors activer cette option nous aiderait beaucoup. Mais nous ne pouvons pas activer cette option, car le cache est actuellement désactivé : il n'y a pas d'actions disponibles. Malheureusement, il existe une solution de contournement.
Solution temporaire au problème
En plus du cache du contrôleur, chaque disque physique possède son propre cache, qui est désactivé par défaut dans les matrices RAID. Allumons-le.
Définissez la case à cocher État du cache d'écriture du lecteur physique sur Activé. Enregistrer les paramètres.
Les paramètres du contrôleur ont été enregistrés avec succès. Les paramètres ont été sauvegardés. Que pensez-vous qu'il va se passer maintenant ? C'est vrai, le cache du contrôleur RAID sera désactivé... et tous ses avertissements seront effacés.
Regardons le cache. Outils → Gestionnaire de cache → Cache du contrôleur → Détails du cache du contrôleur.
- État du cache : OK
- État de la batterie/du condensateur : OK
Même la batterie a cessé de se charger. Mais ce n'est pas le principal, le bouton Modifier les paramètres de mise en cache est apparu, cliquez.
Nous sommes avertis que l'activation du cache avec une batterie défectueuse entraînera une perte de données si l'alimentation est soudainement coupée. Mais encore, nous pouvons maintenant, si nous le voulons vraiment, activer l'option "Activer le cache d'écriture lorsque la batterie/le condensateur n'est pas présent ou n'est pas complètement chargé". Je ne l'allumerai pas, je n'ai rien d'urgent. Si vous désactivez à nouveau le cache du disque physique, l'erreur ne se reproduira pas avant le prochain cycle de test de la batterie.
Il devient clair que le problème est dans la batterie elle-même ou dans ses fils. Assurons-nous cela. Nous redémarrons le serveur, appuyez sur F9, dans les applications intégrées, nous chargeons le mode de diagnostic. Nous effectuons un contrôle express du système.
Lors de la vérification des piles : Principal - Remplacer.
Solution
Changez la batterie du serveur :
https://internet-lab.ru/hpe_proliant_dl360_gen9_battery_change_video
Commentaires
Enregistrer un commentaire