Accéder au contenu principal

HP Smart Array - cache module status degraded

 

Article de recherche. Allons à la source du problème et corrigeons-le.

Comme d'habitude, la surveillance fonctionnait la nuit. C'est bien que cela ait fonctionné, même excellent. Dommage la nuit.

Un serveur HP Proliant DL360 Gen9 est tombé en panne. iLO a craché une erreur, le serveur zabbix a détecté un événement, a déclenché un problème matériel. Le déclencheur a envoyé une lettre, un SMS et un script a fonctionné qui a envoyé un fichier d'appel à Asterisk. Et notre téléphonie m'est parvenue, la nuit, une infection. Je n'ai pas compris ce que le robot a marmonné dans le téléphone, mais la tâche principale d'élever l'administrateur a été terminée, comme on dit, voir les détails dans le SMS.

Le cache du contrôleur RAID Smart Array P440ar a échoué :

État du module de cache - Dégradé


 A première vue, le problème n'est pas critique, il peut attendre jusqu'au matin. Et le matin, les problèmes ont commencé - une forte dégradation des disques. Il a fallu plus d'une journée pour déplacer des machines virtuelles de cet hyperviseur vers un autre serveur. Je n'ai pas mesuré, mais la vitesse de transfert de données a été multipliée par cinq. Certains services ont dû être arrêtés.

Il s'est avéré que le cache du contrôleur RAID optimise sensiblement les performances des baies.

Trouver un problème

Le serveur n'est plus sous garantie, vous devrez régler le problème vous-même.

Il existe plusieurs points de défaillance possibles :

  1. Le problème est logiciel, peut-être dû au firmware récent du contrôleur RAID. Redémarrer, réinitialiser les paramètres du contrôleur RAID, éteindre et rallumer le cache peut aider.
  2. Problème avec le contrôleur RAID. Le micrologiciel ou le remplacement peut aider.
  3. Problème avec le module de cache. Le démontage-assemblage, le remplacement du module de cache aidera.
  4. Problème avec les fils ou les contacts. Le démontage-assemblage, la reconnexion de la batterie, le remplacement de la batterie aideront.
  5. Problème de batterie. Remplacer la batterie aidera.

Tout d'abord, redémarrez le serveur et iLO. N'a pas aidé.

État de la batterie vérifié. État OK.


Ce n'est pas clair, démarrons dans HPSSA (HP Smart Storage Administrator). Nous redémarrons le serveur, au démarrage, appuyez sur F9 pour accéder aux utilitaires système.


Sélectionnez Configuration système.

Sélectionnez le contrôleur problématique : RAID 1 intégré : contrôleur Smart Array P440ar.



Sélectionnez Quitter et lancez HP Smart Storage Administrator (HPSSA).


Sélectionnez (déjà sélectionné) Administrateur Smart Storage. Vous pouvez également y accéder en sélectionnant F10 (Intelligent Provisioning) lors du chargement, mais vous aurez besoin de temps pour changer d'élément dans cette fenêtre.


Nous attendons le chargement de Smart Storage Administrator.


On peut voir qu'un avertissement est allumé sur le contrôleur RAID Smart Array P440ar.

Le texte d'erreur ici est plus informatif :

Smart Array P440ar dans l'emplacement intégré a une ou plusieurs batteries/condensateurs de module de cache qui se rechargent. Les opérations de mise en cache telles que l'extension, l'extension et la migration sont temporairement suspendues jusqu'à ce que les batteries/condensateurs soient complètement chargés. Les opérations de mise en cache reprendront automatiquement une fois la charge terminée.

Il s'avère que la batterie est en cours de charge. Cela se produit lorsque vous branchez une batterie déchargée. L'erreur disparaîtra après une charge complète. Mais dans mon cas, la batterie est installée depuis longtemps, l'erreur elle-même ne disparaît pas.

Lançons les diagnostics.



Serveur → Actions → Diagnostic.

Afficher le rapport de diagnostic.


La collecte des données de diagnostic commence.



Cache du contrôleur RAID désactivé, aucune autre erreur. Regardé à travers le rapport, n'a rien trouvé de spécial.

Regardons le cache. Outils → Gestionnaire de cache → Cache du contrôleur → Détails du cache du contrôleur.


  • État du cache : activé, mais pas actuellement actif.
  • Détails de l'état du cache : cache désactivé ; la charge de la source d'alimentation est faible.
  • État de la batterie/du condensateur : Recharge

Le cache est désactivé car La batterie est en cours de chargement et le niveau de la batterie est faible. Vous pouvez voir plus de détails : Afficher plus de détails.


Des informations plus détaillées ne nous aident pas beaucoup, la seule chose qui est intéressante dans notre cas est l'entrée :

  • Activer le cache d'écriture lorsque la batterie/le condensateur n'est pas présent ou n'est pas complètement chargé : désactivé

Il existe une option dans le cache du contrôleur qui vous permet d'activer le cache lorsqu'il n'y a pas de batterie ou lorsque la batterie est faible. Si le serveur était un serveur de combat, si nous avions un besoin urgent de faire fonctionner le serveur, alors activer cette option nous aiderait beaucoup. Mais nous ne pouvons pas activer cette option, car le cache est actuellement désactivé : il n'y a pas d'actions disponibles. Malheureusement, il existe une solution de contournement.

Solution temporaire au problème

En plus du cache du contrôleur, chaque disque physique possède son propre cache, qui est désactivé par défaut dans les matrices RAID. Allumons-le.



Smart Array P440ar → Actions → Configurer → Modifier les paramètres du contrôleur.

Définissez la case à cocher État du cache d'écriture du lecteur physique sur Activé. Enregistrer les paramètres.


Les paramètres du contrôleur ont été enregistrés avec succès. Les paramètres ont été sauvegardés. Que pensez-vous qu'il va se passer maintenant ? C'est vrai, le cache du contrôleur RAID sera désactivé... et tous ses avertissements seront effacés.

Regardons le cache. Outils → Gestionnaire de cache → Cache du contrôleur → Détails du cache du contrôleur.


  • État du cache : OK
  • État de la batterie/du condensateur : OK

Même la batterie a cessé de se charger. Mais ce n'est pas le principal, le bouton Modifier les paramètres de mise en cache est apparu, cliquez.



Nous sommes avertis que l'activation du cache avec une batterie défectueuse entraînera une perte de données si l'alimentation est soudainement coupée. Mais encore, nous pouvons maintenant, si nous le voulons vraiment, activer l'option "Activer le cache d'écriture lorsque la batterie/le condensateur n'est pas présent ou n'est pas complètement chargé". Je ne l'allumerai pas, je n'ai rien d'urgent. Si vous désactivez à nouveau le cache du disque physique, l'erreur ne se reproduira pas avant le prochain cycle de test de la batterie.

Il devient clair que le problème est dans la batterie elle-même ou dans ses fils. Assurons-nous cela. Nous redémarrons le serveur, appuyez sur F9, dans les applications intégrées, nous chargeons le mode de diagnostic. Nous effectuons un contrôle express du système.


Lors de la vérification des piles : Principal - Remplacer.

Solution

Changez la batterie du serveur :

https://internet-lab.ru/hpe_proliant_dl360_gen9_battery_change_video




Commentaires

Posts les plus consultés de ce blog

cPanel DDOS attack - Mitigate Slowloris Attacks - mod_qos

Apache mod_evasive Mod_evasive is a module available for the Apache HTTP server that can automatically block attacks by rate-limiting any IP that sends too many requests in a short time. Start by installing the module from WHM’s  EasyApache 4  interface. Select the  Currently Installed Packages  profile, search for  mod_evasive  in the  Apache Modules  section, and then install it. The default settings are good for most servers, but you can tweak them further by editing the configuration file  /etc/apache2/conf.d/300-mod_evasive.conf . You can also whitelist specific IP addresses or classes, so legitimate requests are not blocked. Configure CSF to block attacks While  mod_evasive  works very well, it only protects the Apache webserver. In order to harden other services as well, you can install the free  ConfigServer Security & Firewall  (CSF), which also includes a WHM plugin. As the  root  user, install CSF with these terminal commands: cd /usr/src rm -fv csf.tgz wget https://down

Spool file is locked (another process is handling this message)

LOG: MAIN cwd=/usr/local/cpanel/whostmgr/docroot 4 args: /usr/sbin/exim -v -Mrm 1dUoey-0006YJ-3A Message 1dUoey-0006YJ-3A is locked LOG: skip_delivery MAIN Spool file is locked (another process is handling this message) To do this you can run the following commands. |exim -Mt 1dUoey-0006YJ-3A |exim -Mrm 1dUoey-0006YJ-3A I am also providing the following page in case you want more information regarding the exim command options. http://www.exim.org/exim-html-current/doc/html/spec_html/ch-the_exim_command_line.html

Open Media Vault NAS change password

Known Root Password Login to the OMV using the root user and the current password via SSH or Console enter the following command passwd root The new password is now active. Unknown Root Password, but Admin Access to OMV GUI is Available In this scenario we still can help ourselves with the GUI. The method we use is, that we create a cron job for the root user which then resets the password. Navigate to System -> Cron Jobs Press the +Add button UN-tick the enabled box, so that the cronjob does not run automatically. put into the command field the following line, replace newpasswd with your password: echo "root:newpasswd" | chpasswd press okay select the newly created cron job Click the run button. in the opening window click the start button. It will shortly deactivate and activate again. open ssh or console and login as root with your new password. Root and Admin Password Unknown If you do not know the root password, you need to boot with a Li