Degraded performance

Incident Report for Make IT Safe

Postmortem

Résumé du Rapport d’Incident du 02/04/2025

Description de l’incident et impact

Un dysfonctionnement DNS a touché l’infrastructure SaaS Make IT Safe, empêchant les serveurs de production situés en zone GRA7 (OVH) de résoudre les DNS publics. Cela a entraîné des problèmes de connectivité et des ralentissements sévères, rendant la solution intermittente pour les clients.

Chronologie de l’incident

13h57 : Détection de lenteurs sur la solution SaaS.

14h05 : Analyse des infrastructures (réseau, serveurs, logs) → Erreur de résolution DNS identifiée.

14h20 - 15h00 : Tentatives de correction (changement de DNS, reset TCP/IP, ajout d’interface réseau, redémarrage du serveur) → Aucune amélioration.

15h : OVH annonce un incident réseau affectant les zones GRA7/GRA9/GRA11.

15h51 : OVH corrige partiellement l’incident, mais le problème DNS persiste sur certaines instances.

21h00 : L’équipe Make IT Safe reconfigure les DNS OVH, ce qui corrige le problème au niveau local.

23h15 : OVH termine sa maintenance et résout définitivement le problème sur toutes les instances.

Analyse post-incident et mesures correctives

  • Mesure 1 : Mise en place d’une surveillance des requêtes DNS sur les environnements de production pour anticiper ce type d’incident.
  • Mesure 2 : Ajout des DNS OVH (213.186.33.99) en complément des DNS publics (Google 8.8.8.8, Quad9 9.9.9.9) sur les environnements de production et préproduction.

Conclusion

Ces mesures doivent améliorer la réactivité face à des incidents similaires et garantir une meilleure continuité de service en cas de modifications des politiques DNS d’OVH.

Posted Apr 03, 2025 - 21:04 CEST

Resolved

This incident has been resolved.
Posted Apr 03, 2025 - 09:07 CEST

Update

The issue was identified as a DNS restriction on OVH’s floating IP service. The problem has now been resolved, and all systems are functioning normally.
Posted Apr 03, 2025 - 09:03 CEST

Update

We are continuing to investigate this issue.
Posted Apr 03, 2025 - 09:00 CEST

Investigating

Slowness is observed when loging due to DNS problems. Maintenance is in progress to resolve the problem. We will keep you updated on the progress. Thank you for your patience.
Posted Apr 02, 2025 - 17:15 CEST
This incident affected: Make IT Safe (Grouped SAAS, Dedicated SAAS).