[Résolu] Perturbations web dans la journée du vendredi 12 janvier 2018

Les annonces officielles de FranceServ Hébergement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

Bonjour,

Dans la journée d'hier vendredi 12 janvier 2018 à certaines heures, le service Web est devenu assez lent à certains moments avec des pics de charge très importants simultanément sur les différents nœuds de la HA, principalement dans la soirée jusqu'à ce que je découvre le problème et que je me mette dessus.

Différents essais ont été effectués sur l'opcache, memcache, modifications & désactivation des cgroup dans le kernel et relance du serveur NFS.

Il semblerai que le problème venait bien du NFS car depuis que le maître a été relancé, les nœuds web se sont stabilisés et les graphiques de supervision sont maintenant bien plus cohérents.

Pour rappel, toutes les machines Web et Filer ont été redémarrées et mises à jour dimanche dernier pour contrer à la faille Spectre / Meltdown, ce qui a surement entrainé ces soucis. Comme le problème n'était pas visible constamment, il était difficile à identifier.

Désolée pour les désagréments occasionnés, la situation est maintenant résolue.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

Le problème s'est représenté cette nuit pendant quelques minutes mais a rapidement été identifié. J'en ai alors profité pour migrer les liens NFS en NFSv4 pour bénéficier des améliorations de version ce qui pourrai résoudre une fois pour toute cette situation.

Aussi, je viens de mettre à jour à l'instant la dernière version du service MySQL MariaDB causant une perturbation des services pendant moins d'une minute, ce qui pourrai aussi résoudre ces soucis.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

elodie a écrit :J'en ai alors profité pour migrer les liens NFS en NFSv4 pour bénéficier des améliorations de version ce qui pourrai résoudre une fois pour toute cette situation.
Le problème s'est représenté une nouvelle fois il y a une petite heure, sauf que cette fois-ci tous les nœuds n'ont pas été impactés en même temps, permettant à la HA de jouer enfin son rôle pour que ça ne soit pas perceptible par les internautes.

Seconde bonne nouvelle : un journal d'erreur est enfin apparu, me confirmant que c'est bien un problème lié avec NFS :

Code : Tout sélectionner

kernel: [701938.037923] NFS: nfs4_reclaim_open_state: Lock reclaim failed!
(ligne répétée une vingtaines de fois pendant le problème.)

J'ai pu trouver sur Internet une personne qui utilise les mêmes et dernières versions (Kernel 4.9.65-3+deb9u2 avec NFS 1:1.3.4-2.1) et qui a les mêmes symptômes : https://lists.debian.org/debian-user/20 ... 00107.html

Je vais donc intervenir sur le serveur NFS cette nuit à partir d'une heure du matin afin dans un premier temps, désactiver les verrous dans les points de montage NFS assez inutiles vu que les nœuds Web font essentiellement de la lecture NFS.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

elodie a écrit :Je vais donc intervenir sur le serveur NFS cette nuit à partir d'une heure du matin afin dans un premier temps, désactiver les verrous dans les points de montage NFS assez inutiles vu que les nœuds Web font essentiellement de la lecture NFS.
Opérations effectuées, je surveille maintenant à nouveau le comportement du service Web.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

Bonjour,

J'ai enfin identifié le problème et les corrections sont en cours.

Le souci est que je surveillai jusqu'à maintenant uniquement les graphiques de supervision sans penser que les courbes étaient lissées sur 5 minutes, faussant ainsi les résultats.

La négociation réseau était de 100 Mbps sur le réseau interne NFS pour les nœuds Web dans la grappe HA mais comme les graphiques affichaient uniquement une utilisation moyenne de 32 Mbps et 72 Mbps au maximum (par machine), je pensai être dans les clous. Sauf que ces valeurs étaient lissées et tendaient à dépasser les 100 Mbps.

Lors d'un trafic Web plus important, les processus PHP attendaient chacun leurs tours dans ce tuyau d'étranglement, causant des ralentissements dans les traitements et l'affichage des pages Web.

Le réseau NFS vas alors migrer sur du 1 Gbps (1 024 Mbps) afin de résoudre une fois pour toute ces désagréments. Les optimisations NFS ces derniers jours avaient pu calmer en partie ces problèmes et vas ajouter encore plus de stabilité avec un réseau plus rapide.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Avatar de l’utilisateur
Elodie
Fondatrice / Responsable
Fondatrice / Responsable
Messages : 7938
Inscription : 2 avril 2010 à 20:14

elodie a écrit :Le réseau NFS vas alors migrer sur du 1 Gbps (1 024 Mbps) afin de résoudre une fois pour toute ces désagréments.
C'est fait, tout est maintenant résolu.
Vous avez une question ? Posez-la de préférence sur le forum et si ça demande un contact plus instantané, n'hésitez pas à vous rendre sur le t'chat IRC. Si votre question est personnelle, contactez-nous directement.
Répondre