Un effondrement simultané de ChatGPT et Grok

Le 23 octobre 2025, en fin d’après-midi, de nombreux utilisateurs ont constaté que ChatGPT refusait de répondre, affichant l’erreur « too many concurrent requests » et se bloquant dans des chargements infinis. Quelques minutes plus tard, des signaux similaires sont apparus pour Grok, le chatbot d’Anthropic, surtout aux États-Unis. Sur Downdetector, les incidents se sont multipliés, laissant penser à une panne commune à plusieurs services basés sur l’IA.

ChatGPT : l’erreur « Too Many Concurrent Requests »

En Italie et dans plusieurs pays européens, c’est principalement ChatGPT qui a souffert de cette panne. Les utilisateurs, en tapant leurs requêtes, se sont retrouvés face à une page vide ou à une roue de chargement infinie. La page de statut officielle d’OpenAI a rapidement confirmé que :

  • les API de ChatGPT subissaient un débit de requêtes anormalement élevé, générant des refus d’accès ;
  • certaines fonctionnalités embarquées, comme l’API d’analyse de texte et l’interface de chat, étaient temporairement désactivées pour limiter la surcharge.

Le pic d’incidents a eu lieu sur la côte Est des États-Unis lors de la matinée locale, amplifié par un trafic massif de sessions d’IA en synchronisation avec les heures de bureau.

Grok : des signalements en hausse aux États-Unis

Moins répandu en Europe, Grok a cependant affiché des dysfonctionnements similaires dans sa zone d’origine. Les premiers témoignages sont apparus vers 15h00 UTC, majoritairement sur la côte Est, où l’usage de Grok est le plus dense. Sur les forums et réseaux sociaux, les développeurs et testeurs américains rapportaient :

  • des délais de réponse très longs ou des coupures de connexion brutales ;
  • des erreurs serveur « 500 Internal Server Error » ou « Service Unavailable » ;
  • une hausse des incidents pour d’autres services AI hosted on AWS dans la même région.
Lire  Un malware Android piège l'armée russe : découvrez comment une application innocente a révélé des secrets militaires !

En Italie, les signalements restaient encore peu nombreux, mais l’inquiétude grandissait à mesure que la panne de ChatGPT s’éternisait.

Un écosystème de services impactés

Si ChatGPT et Grok ont été les têtes d’affiche de cette panne, d’autres services hébergés sur AWS us-east-1 ont également montré des signes de faiblesse :

  • des API de traduction et de synthèse vocale tributaire de R53 (Route 53) sont devenues inaccessibles ;
  • des authentifications via STS (Security Token Service) étaient refusées ou très lentes, bloquant la connexion de nombreuses applications mobiles ;
  • des microservices annexes, tels que les bases de données en cache et les files d’attente de tâches, ont enregistré des erreurs sporadiques.

Cet ensemble de défaillances a renforcé l’hypothèse d’un incident global au sein de l’infrastructure AWS de la côte Est, souvent critiquée pour sa centralisation excessive.

AWS us-east-1 dans le viseur

Plusieurs administrateurs système et observateurs techniques ont pointé du doigt deux services clés :

  • Route 53 : les coupures de résolution DNS dans us-east-1 ont provoqué des échecs de requêtes vers les API, rendant certaines URL injoignables ;
  • Security Token Service : des tokens d’accès invalides ou expirés prématurément ont empêché des authentifications correctes, baptisant l’incident « STS outage ».

Ces deux points de défaillance peuvent suffire à paralyser l’ensemble d’un service hébergé, justifiant la mise en échec simultanée des chatbots et de leurs dépendances.

Réactions et mises à jour d’OpenAI

Alors que la situation se dégradait, OpenAI a commencé à publier des mises à jour sur sa page de statut :

  • vers 17h45 UTC : « Nous analysons actuellement un problème d’authentification causant des refus sur ChatGPT et l’API. »
  • à 18h00 UTC : « Les erreurs sont en diminution. La reprise progressive des services est en cours. »
Lire  Tesla condamné à 243 M$ après un accident mortel lié à l’Autopilot – l’affaire qui ébranle Elon Musk !

Les équipes techniques d’OpenAI n’ont à ce stade pas livré de diagnostic définitif, se réservant la publication d’un post-mortem lorsque tous les logs seront examinés. Les utilisateurs ont cependant pu constater un retour progressif à la normale, avec la diminution des erreurs 429 (« too many requests ») et 503 (« service unavailable »).

Comment se prémunir et réagir

Face à ces interruptions récurrentes, voici quelques conseils pour les développeurs et utilisateurs de services en ligne :

  • mettre en place un mécanisme de bascule (failover) vers une autre région AWS ou un second fournisseur de cloud ;
  • utiliser un cache local ou un service de backup léger pour limiter les impacts en cas de perte de l’API principale ;
  • surveiller de près les pages de statut et les flux Twitter officiels pour réagir en temps réel aux incidents ;
  • prévoir des délais de retry progressifs et un circuit de secours pour éviter les boucles infinies de requêtes.

Ces bonnes pratiques permettent de garantir une continuité de service, même en cas de défaillance majeure chez un fournisseur cloud.

La résilience au cœur des architectures modernes

L’incident du 23 octobre rappelle que la dépendance à un seul point d’échec—en l’occurrence AWS us-east-1—peut fragiliser l’ensemble des services, même les plus avancés. Pour les infrastructures critiques :

  • la géo-redondance devient impérative, en distribuant les charges entre plusieurs régions et fournisseurs ;
  • les tests de tolérance aux pannes (chaos engineering) aident à renforcer la robustesse face aux coupures imprévues ;
  • une supervision proactive des indicateurs réseau et applicatifs permet de détecter les anomalies avant qu’elles ne se propagent.
Lire  Ce que Jack Dongarra a révélé sur les supercalculateurs du futur va vous laisser sans voix !

En mettant en œuvre ces stratégies, entreprises et startups peuvent réduire l’impact des pannes globales et offrir à leurs utilisateurs une expérience plus fiable, même lorsque des géants comme ChatGPT ou Grok vacillent momentanément.

By Octave