Un de nos ESX, pour une raison inexpliquée, redémarrait de manière totalement aléatoire après plusieurs semaines de production.

Apres un diagnostique interne, une ouverture d’un case chez IBM puis l’ouverture d’un case chez vMware, aucune cause n’a été trouvée.

Il se trouve que dans le BIOS une option était à l’origine de cela.

Reboot on NMI (non-maskable interrupt) : ainsi à la moindre erreur de contrôle mémoire le serveur reboot, il est donc nécessaire de désactiver cette option.

Dans le Bios du serveur, allez dans Advanced Option, Baseboard Management Controller (BMC) puis Settings. A la ligne Reboot System on NMI, changez la valeur à Disabled.

20131226_142721

 

Share