Nous avons rencontré des erreurs Overall disks health et Software state health :

 

 

Cela concernait 4 HDD de deux ESXi différents :

 

 

Au niveau vmkernel.log, on apercevait les messages d’erreurs suivants :

2016-11-23T13:22:35.056Z cpu0:33702)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x12 (0x439f32e28e00, 0) to dev “naa.50000397285891d1” on path “vmhba0:C0:T5:L0” Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. Act:NONE

2016-11-23T13:15:58.832Z cpu4:50814 opID=352896dc)PLOG: PLOGOpenDevice:3703: Disk handle open failure for device naa.50000397285891d1:2, status:Busy

2016-11-23T13:15:58.838Z cpu4:50814 opID=352896dc)PLOG: PLOGOpenDevice:3703: Disk handle open failure for device naa.50000397285891d1:2, status:Busy

Ceci semblait indiquer un problème sur le backend.

De notre côté, les storage providers étaient tous up and running :

 

 

Nous avons depuis la ruby vsphere console vérifié le statut du cluster vSAN et son état de santé. Tout était ok :

 

 

Sur les ESXi impactés, nous avons vérifié l’état d’un des disques non healthy.

Le paramètre In CMMDS était à false au lieu de true.

 

 

Nous avons essayé de monter le disk group, sans succès :

 

 

unable to mount: Disk with VSAN uuid 52431ec7-7309-e02e-0a8d-bb530653f54c failed to appear in LSOM

Nous avons alors décidé de mettre l’esxi en maintenance et de supprimer le disk group puis de le réajouter :

Esxi in maintenance mode with full data migration :

 

 

Pour la suppression des disques du disk group il a fallu sélectionner no data migration, sinon nous avions une erreur :

 

 

 

 

A chaque remove de disque, nous vérifions l’état du cluster vSan :

 

 

Nous avons ensuite ré-ajouter le disk group :

 

 

Sortie l’Esxi de maintenance mode et vérifié le health. Les erreurs avaient disparues.

 

 

Share