Anthropic muscle son modèle Claude Sonnet avec la version 5

Tendances technologiques, Cloud Computing, Logiciels,

Suivant la voie initiée Sonnet 4.5 et 4.6, cette version 5.0 revendique des progrès codage. (Crédit Anthropic)

Avec Claude Sonnet 5, Anthropic rebat les cartes du segment moyenne gamme des LLM, en ciblant frontalement les développeurs et les équipes sécurité. Plus autonome, meilleur en codage et doté de garde-fous renforcés, Sonnet 5 devient le modèle par défaut de l'assistant Claude tout en restant agressif sur les prix face à GPT‑5.6 Terra d'OpenAI.

Anthropic continue d'exécuter sa stratégie de gamme avec le lancement de Claude Sonnet 5, dans la famille modèle « médian » de l'éditeur, située entre Haiku, plus léger, et Opus, positionné sur le très haut de gamme. Dévoilé fin juin, Sonnet 5 s'installe immédiatement comme modèle par défaut pour les offres Free et Pro de l'assistant Claude, et sera également proposé aux abonnés Max, Team et Enterprise, ainsi qu'aux développeurs via l'API. Il est aussi déjà proposé parmi les autres modèles (Sonar 2, GPT 5.4, GLM 5.2, Nemotron 3 Ultra, Kimi K 2.6 et Gemini 3.1 Pro) dans Perplexity. En toile de fond, Anthropic cherche à consolider une offre cohérente, allant de modèles grand public fortement bridés comme Fable 5 jusqu'à Mythos 5, réservé à un cercle restreint d'organisations de confiance, en naviguant au plus près des exigences réglementaires américaines.

Un modèle midrange qui monte en gamme Commercialement, Sonnet 5 se positionne comme le modèle de travail quotidien pour les entreprises qui ne veulent pas payer le prix d'un modèle « flagship » pour chaque requête. Anthropic maintient la logique tarifaire de la génération précédente : 3 dollars HT par million de tokens en entrée et 15 dollars par million de tokens en sortie, avec une remise de lancement jusqu'au 31 août 2026 à 2 dollars et 10 dollars respectivement. À ce niveau de prix, Sonnet 5 se situe légèrement au‑dessus de Terra, le modèle midrange de GPT‑5.6 chez OpenAI, tout en revendiquant des performances globales plus proches des modèles premium de la gamme Opus 4.8.

Sur le plan des capacités, Anthropic conserve une fenêtre de contexte de 1 million de tokens - aujourd'hui un standard sur ce segment - et mise sur une meilleure exploitation de cette profondeur plutôt que sur une inflation des jetons. L'éditeur insiste particulièrement sur la dimension agentique du modèle : Sonnet 5 planifie, enchaîne des actions avec des outils (navigateur, terminal, API) et sait fonctionner de façon autonome sur des tâches complexes, là où Sonnet 4.6 demandait davantage de pilotage humain. Pour les opérateurs IA, cela signifie des scénarios plus crédibles d'agents IA opérant comme de véritables coéquipiers numériques, notamment dans le développement logiciel et le support métier.

Plus performant en codage Anthropic revendique des progrès mesurables en codage, terrain sur lequel Sonnet 4.5 et 4.6 avaient déjà posé des jalons solides. Sonnet 5 affiche un gain de 5,1 points sur le benchmark SWE‑Bench Pro et de 13,4 points sur Terminal‑Bench 2.1 par rapport à son prédécesseur, des suites de tests qui simulent la résolution de tickets réels et de sessions terminal complexes. OpenAI conserve toutefois un léger avantage sur Terminal‑Bench 2.1 avec Terra, qui dépasse Sonnet 5 d'environ 4 points, rappelant que la bataille du code reste très disputée dans ce segment.

Au‑delà du développement, l'éditeur met en avant un score de 1 618 sur le benchmark GDPval‑AA v2, qui évalue la capacité du modèle à prendre en charge des tâches de « knowledge work » couvrant 44 métiers différents. Sonnet 4.5 plafonnait à 1 395 points, ce qui illustre un saut qualitatif non négligeable pour les cas d'usage de rédaction, synthèse, analyse et assistance aux métiers. Couplé à la planification de tâches et à l'usage d'outils, ce bond de performance ouvre la voie à des workflows où Sonnet 5 ne se contente plus de produire du texte, mais orchestre réellement des chaînes d'actions - par exemple pour la gestion d'incidents, l'analyse d'impact d'un changement ou la préparation de rapports réglementaires.

Autonomie et risques accrus... et garde-fous renforcés Cette montée en autonomie n'est pas sans conséquences sur la surface de risque. Un agent capable de déclencher des appels API, de manipuler des fichiers ou d'interagir avec des systèmes de production démultiplie mécaniquement les scénarios d'attaque potentiels. Anthropic affirme avoir précisément travaillé ce volet, en faisant de Sonnet 5 une évolution aussi bien en robustesse qu'en fonctionnalités : le modèle serait plus efficace que Sonnet 4.6 pour bloquer les requêtes malveillantes et les attaques par injection de prompt, ces instructions cachées dans les données traitées par le LLM pour en détourner le comportement.

L'éditeur va jusqu'à affirmer que Sonnet 5 « ne peut pas développer d'exploits fonctionnels », limitant ainsi sa dangerosité dans un contexte de cybersécurité offensive. Concrètement, cela se traduit par des garde‑fous plus stricts sur les réponses liées à la création de malware, à l'exploitation de vulnérabilités ou au contournement de mécanismes de sécurité. Pour les RSSI et équipes GRC, ce discours sera à prendre avec prudence et nécessitera des validations internes, mais il marque une inflexion intéressante : Anthropic ne se contente plus de filtrer des sorties, il revendique un modèle intrinsèquement bridé sur certains comportements sensibles.

Cet ajustement intervient alors que les autorités américaines viennent de lever des contrôles à l'export qui avaient conduit Anthropic à suspendre temporairement l'accès à Mythos 5 et Fable 5 quelques jours après leur lancement en avril. L'éditeur annonce la reprise progressive de la mise à disposition de ces deux modèles, avec une diffusion large pour Fable 5, conçu comme un « Mythos safe » pour le grand public, et un accès limité de Mythos 5 à un nombre restreint d'organisations de confiance. Dans ce contexte, Sonnet 5 apparaît comme le compromis stratégique : suffisamment capable pour adresser des cas d'usage avancés, mais calibré pour rester dans une zone de risque jugée acceptable par les régulateurs.

Un modèle par défaut taillé pour l'entreprise En faisant de Sonnet 5 le modèle par défaut des offres Free et Pro de Claude, Anthropic change de nature la base de performances accessible au plus grand nombre. Là où certains concurrents réservent leurs modèles les plus autonomes et les plus performants à des offres haut de gamme ou strictement API, Anthropic banalise un niveau agentique qui, il y a encore quelques mois, relevait plutôt des lignes Opus et Mythos. Pour les entreprises, plusieurs implications se dessinent :

- Une montée en puissance de Claude Code, l'environnement de développement basé sur Sonnet, qui bénéficiera directement des gains sur SWE‑Bench Pro et Terminal‑Bench, et pourrait devenir un atelier crédible pour des développements quasi autonomes sous supervision humaine.

- Une pression accrue sur les modèles concurrents midrange, notamment Terra chez OpenAI, qui devra concilier agressivité tarifaire et maintien d'un léger avantage sur certains benchmarks.

- La possibilité de déployer plus largement des cas d'usage d'agents IA dans les métiers, sans recourir systématiquement à des modèles premium plus coûteux, grâce à un modèle qui conjugue performance, grande fenêtre de contexte et garde‑fous renforcés.

Dans les faits, la bascule vers Sonnet 5 comme modèle par défaut signifiera pour beaucoup d'équipes IT et métiers une amélioration automatique de la qualité des réponses et de la fiabilité des plans d'action générés, sans changement d'intégration - que ce soit dans les interfaces web Claude, via l'API ou au travers des intégrations cloud comme Google Vertex AI. Pour les DSI et responsables de plateformes, l'enjeu sera désormais moins de choisir « si » l'on utilise Sonnet 5 que de définir « comment » l'outiller, le gouverner et le superviser, dans des architectures où des agents IA deviennent peu à peu des composants à part entière des chaînes de production numériques.