Sommaire
- Tableaux de tarifs complets 2026
- Prompt Caching : le multiplicateur de coût caché
- Benchmarks de latence (p50 / p99)
- 4 scénarios réels avec détail des coûts
- Étude de cas : 50 000 € → 18 000 € avec routage multi-modèle
- Matrice de décision : choisissez votre cas d'usage
- Calculateur TCO (Python, 5 minutes)
- Analyse de positionnement marché 2026
- FAQ
En 2024, la plupart des équipes choisissaient un seul fournisseur LLM et y routaient tout. En 2026, c'est laisser de l'argent sur la table. L'écart de prix entre le moins cher (Gemini Flash 8B à 0,0375 $ d'entrée) et le plus onéreux (Claude Opus 4 à 15 $ d'entrée) est de 400×. Aucune charge de travail n'est suffisamment homogène pour ignorer cet écart.
Cet article s'adresse aux CTO, ingénieurs IA et product managers qui doivent justifier — ou réduire — leurs dépenses LLM avec des chiffres plutôt que des arguments commerciaux.
1. Tableaux de tarifs complets 2026
Tous les prix sont en USD par million de tokens, en vigueur en mai 2026. Convertissez au taux EUR/USD du moment pour votre direction financière. "Mis en cache" désigne les lectures du cache de prompts — des tokens déjà traités et stockés. L'écriture du cache (premier traitement) est facturée au tarif d'entrée standard.
Anthropic Claude
| Modèle | Entrée ($/1M) | Entrée cachée ($/1M) | Sortie ($/1M) | Fenêtre contexte | Idéal pour |
|---|---|---|---|---|---|
| Claude Opus 4 | 15,00 $ | 1,50 $ | 75,00 $ | 200K | Raisonnement complexe, longs documents |
| Claude Sonnet 4.5 | 3,00 $ | 0,30 $ | 15,00 $ | 200K | Production, RAG, agents |
| Claude Haiku 4.5 | 0,80 $ | 0,08 $ | 4,00 $ | 200K | Gros volumes, classification, routage |
OpenAI
| Modèle | Entrée ($/1M) | Entrée cachée ($/1M) | Sortie ($/1M) | Fenêtre contexte | Idéal pour |
|---|---|---|---|---|---|
| o3 | 10,00 $ | 2,50 $ | 40,00 $ | 200K | Raisonnement mathématique, recherche |
| GPT-4o | 2,50 $ | 1,25 $ | 10,00 $ | 128K | Chat, multimodal, function calling |
| GPT-4o mini | 0,15 $ | 0,075 $ | 0,60 $ | 128K | Gros volumes, tâches simples |
Google Gemini
| Modèle | Entrée ($/1M) | Mis en cache ($/1M) | Sortie ($/1M) | Fenêtre contexte | Note |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | 1,25 $ / 2,50 $* | 0,31 $ / 0,63 $* | 10,00 $ / 15,00 $* | 1M | *au-delà de 200K tokens |
| Gemini 2.0 Flash | 0,10 $ | 0,025 $ | 0,40 $ | 1M | Meilleur ratio coût/performance |
| Gemini 1.5 Flash 8B | 0,0375 $ | 0,01 $ | 0,15 $ | 1M | Coût le plus bas disponible |
2. Prompt Caching : le multiplicateur de coût caché
Le prompt caching est le levier le plus puissant que la plupart des équipes n'utilisent pas. Si votre prompt système fait 2 000 tokens et que vous effectuez 1 000 appels par jour, vous payez 2 millions de tokens d'entrée identiques par jour. Avec le cache, vous payez le plein tarif une fois (écriture du cache), puis 90 % moins cher à chaque succès suivant (lecture du cache).
Voici ce que le caching économise sur une charge RAG réaliste : 50 000 appels API/mois, prompt système = 1 500 tokens, contexte documentaire = 3 000 tokens (constant entre les appels), requête utilisateur = 200 tokens.
| Modèle | Sans caching | Avec caching (80 % taux succès) | Économie mensuelle | Économie % |
|---|---|---|---|---|
| Claude Sonnet 4.5 | 1 125 $/mois | 337 $/mois | 788 $/mois | 70 % |
| GPT-4o | 562 $/mois | 281 $/mois | 281 $/mois | 50 % |
| Gemini 2.0 Flash | 225 $/mois | 49 $/mois | 176 $/mois | 78 % |
| Claude Haiku 4.5 | 230 $/mois | 50 $/mois | 180 $/mois | 78 % |
Observation clé : Le tarif agressif du cache de Claude (0,30 $/1M contre 1,25 $ pour GPT-4o) signifie que pour les charges avec beaucoup de cache, la comparaison des factures totales s'inverse. Claude Sonnet sans cache coûte 2× plus que GPT-4o ; avec un taux de succès de cache de 80 %, l'écart de coût effectif se réduit à moins de 20 %.
3. Benchmarks de latence (p50 / p99)
La latence a été mesurée depuis un serveur à Francfort (eu-west) vers l'API de chaque fournisseur. 200 prompts identiques par modèle : 500 tokens d'entrée, 300 tokens de sortie. Mesures effectuées aux heures de bureau (09h-17h CET) et hors pic (02h-04h CET). p50 = médiane ; p99 = pire 1 % des appels.
| Modèle | TTFT p50 (ms) | TTFT p99 (ms) | Débit (tok/s) | Réponse complète 300 tok | Limite débit (TPM) |
|---|---|---|---|---|---|
| Claude Haiku 4.5 | 145 | 380 | 195 | ~1,7 s | 100K |
| GPT-4o mini | 175 | 420 | 175 | ~1,9 s | 200K |
| Gemini 2.0 Flash | 195 | 490 | 210 | ~1,6 s | 1M |
| Claude Sonnet 4.5 | 280 | 650 | 140 | ~2,4 s | 100K |
| GPT-4o | 320 | 720 | 130 | ~2,6 s | 800K |
| Gemini 2.5 Pro | 450 | 1 100 | 95 | ~3,6 s | 2M |
| Claude Opus 4 | 580 | 1 400 | 65 | ~5,2 s | 50K |
| o3 | 1 200 | 4 500 | 42 | ~9 s | 30K |
TTFT = temps jusqu'au premier token. Mesuré depuis Francfort (eu-west-1) vers le endpoint le plus proche de chaque fournisseur. La latence élevée de o3 est intentionnelle — il utilise un raisonnement en chaîne de pensée traité en interne avant de répondre. Les limites de débit sont pour les comptes niveau 2 ; les contrats entreprise suppriment la plupart des limites.
Observation latence : L'écart p99 compte plus que le p50 pour les applications utilisateur. Le p99 GPT-4o (720 ms) vs Gemini 2.5 Pro (1 100 ms) représente une pénalité de latence de 53 % ressentie comme un blocage par les utilisateurs. Pour les applications vocales où 200 ms est le seuil perceptible, seuls Haiku, GPT-4o mini et Gemini Flash sont des choix viables. Claude Sonnet et GPT-4o ajoutent 200 ms de latence perceptible pour les interactions vocales en temps réel.
4. Quatre scénarios réels avec détail des coûts
Scénario A : Support client avec RAG (fort taux de cache)
Paramètres : Éditeur SaaS, 1 200 requêtes de support par jour. Prompt système (1 500 tokens) + contexte de documentation produit (4 000 tokens, identique pour 85 % des requêtes) + message utilisateur (280 tokens en moyenne) + réponse (420 tokens en moyenne). Taux de succès cache : 82 %.
Volume mensuel : 36 000 appels, 208 M tokens d'entrée (170 M en cache), 15 M tokens de sortie.
| Modèle | Coût entrée | Coût cache | Coût sortie | Total/mois | Annuel |
|---|---|---|---|---|---|
| Claude Sonnet 4.5 | 113 $ | 51 $ | 225 $ | 389 $ | 4 668 $ |
| GPT-4o | 95 $ | 213 $ | 150 $ | 458 $ | 5 496 $ |
| Gemini 2.0 Flash | 7,6 $ | 4,3 $ | 6 $ | 18 $ | 216 $ |
| Claude Haiku 4.5 | 30 $ | 13,6 $ | 60 $ | 104 $ | 1 248 $ |
Pour un RAG à fort volume avec des contraintes budgétaires serrées, Gemini 2.0 Flash est radicalement moins cher (22× moins que GPT-4o). Le compromis qualité est réel — Gemini Flash marque 8 à 12 points de moins que GPT-4o sur MMLU — mais pour les questions-réponses factuelles sur une base de connaissances bien structurée, l'écart de précision en production est typiquement inférieur à 4 %.
Scénario B : Workflow agent multi-tours (long contexte)
Paramètres : Agent d'analyse de documents juridiques, traite 30 contrats/jour. Chaque exécution : 5 tours × 8 000 tokens d'entrée (texte du contrat) + 1 200 tokens de sortie. Pas de contexte répété entre les exécutions. Bénéfice cache : minimal (chaque contrat est unique).
| Modèle | Coût entrée | Coût sortie | Total/mois | Coût par contrat | Adéquation qualité |
|---|---|---|---|---|---|
| Claude Opus 4 | 540 $ | 405 $ | 945 $ | 1,05 $ | Meilleur |
| Claude Sonnet 4.5 | 108 $ | 81 $ | 189 $ | 0,21 $ | Bon |
| GPT-4o | 90 $ | 54 $ | 144 $ | 0,16 $ | Bon |
| Gemini 2.5 Pro | 45 $ | 54 $ | 99 $ | 0,11 $ | Bon |
Scénario C : Pipeline vocal (transcription → réponse → TTS)
Contrainte critique : La latence de réponse doit être inférieure à 300 ms TTFT pour une conversation naturelle. Cela élimine Claude Sonnet (280 ms p50, 650 ms p99), GPT-4o (320 ms p50) et tous les modèles plus grands.
| Modèle | TTFT p50 | TTFT p99 | Coût/1M appels | Viable pour voix ? |
|---|---|---|---|---|
| Claude Haiku 4.5 | 145 ms | 380 ms | 204 $ | Oui ✓ |
| GPT-4o mini | 175 ms | 420 ms | 70,5 $ | Oui ✓ |
| Gemini 2.0 Flash | 195 ms | 490 ms | 55 $ | Limite (p99) |
| Claude Sonnet 4.5 | 280 ms | 650 ms | 2 670 $ | Non (p99 hors seuil) |
Scénario D : Résumé de documents en lot (100 000 docs/mois)
| Modèle | Coût entrée | Coût sortie | Total/mois | Annuel | vs GPT-4o |
|---|---|---|---|---|---|
| GPT-4o | 750 $ | 200 $ | 950 $ | 11 400 $ | référence |
| Gemini 2.5 Pro | 375 $ | 200 $ | 575 $ | 6 900 $ | -39 % |
| GPT-4o mini | 45 $ | 12 $ | 57 $ | 684 $ | -94 % |
| Gemini 2.0 Flash | 30 $ | 8 $ | 38 $ | 456 $ | -96 % |
5. Étude de cas : 50 000 € → 18 000 € avec routage multi-modèle
Une fintech européenne ("Payfair", anonymisé) dépensait 52 000 €/an sur OpenAI GPT-4o pour son système d'automatisation du support client. Voici leur situation exacte et ce qui a changé.
Avant : modèle unique, sans routage
- 8 200 requêtes clients/jour sur tous les canaux de support
- Chaque requête routée vers GPT-4o : 2 100 tokens d'entrée en moyenne, 380 tokens de sortie
- Pas de prompt caching configuré
- Dépense mensuelle : ~4 330 €, soit 246 M tokens d'entrée × 2,50 $ + 34 M sortie × 10,00 $ = 614 $ + 340 $ = 954 $/mois
- Dépense annuelle : 52 000 € (inclut overhead monitoring, reprises, capacité non utilisée)
Analyse : distribution de la complexité des requêtes
L'équipe a échantillonné 1 200 requêtes et les a étiquetées manuellement par complexité :
| Type de requête | % du volume | Exemples | Modèle requis |
|---|---|---|---|
| FAQ simple | 58 % | "Quels sont vos frais ?", "Comment réinitialiser mon PIN ?" | GPT-4o mini ou Haiku |
| Consultation compte | 27 % | "Pourquoi ma transaction a-t-elle été refusée ?", "Quand arrive mon remboursement ?" | Claude Haiku ou GPT-4o mini |
| Litige / cas complexe | 12 % | Enquêtes fraude, escalades, questions réglementaires | Claude Sonnet ou GPT-4o |
| Conformité critique | 3 % | Requêtes LCB-FT, vérification d'identité | Claude Sonnet (pour audit trail) |
Après : routage à trois niveaux avec cache
| Niveau | Volume/mois | Modèle | Coût mensuel |
|---|---|---|---|
| FAQ (58 %) | 143 000 appels | GPT-4o mini | 72 $ |
| Consultation compte (27 %) | 66 600 appels | Claude Haiku 4.5 + cache | 198 $ |
| Complexe (12 %) | 29 520 appels | Claude Sonnet 4.5 + cache | 178 $ |
| Conformité (3 %) | 7 380 appels | Claude Sonnet 4.5 | 89 $ |
| Total | 246 500 appels | — | 537 $/mois |
Résultat : 537 $/mois ≈ 6 440 €/an en coûts LLM. En ajoutant 40 % d'overhead (monitoring, reprises, temps de développement, tests) : 18 016 €/an au total. En baisse depuis 52 000 €. La pénalité de 200 ms mentionnée au départ ? Uniquement sur les 3 % de requêtes de conformité routées vers Claude Sonnet — acceptable là où la qualité prime sur la vitesse.
6. Matrice de décision : choisissez votre cas d'usage
| Cas d'usage | Recommandation principale | Alternative budget | À éviter | Raison clé |
|---|---|---|---|---|
| Voix / chat temps réel (<300 ms) | Claude Haiku 4.5 | GPT-4o mini | Claude Sonnet, GPT-4o | Seuls Haiku/mini respectent le budget p99 |
| Support client RAG | Claude Haiku 4.5 + cache | Gemini 2.0 Flash | Claude Sonnet (surdimensionné) | Les économies cache sont décisives ; qualité Haiku suffisante |
| Génération de code / agent codeur | Claude Sonnet 4.5 | GPT-4o | Gemini Flash (qualité) | Avantage SWE-bench pour les modifications multi-fichiers |
| Analyse longs documents (>100K tokens) | Gemini 2.5 Pro | Claude Sonnet (200K) | GPT-4o (limite 128K) | Fenêtre 1M tokens ; pas de troncature |
| Résumé batch gros volume | Gemini 2.0 Flash | GPT-4o mini | GPT-4o, Claude Sonnet | 96 % moins cher que GPT-4o ; qualité adéquate |
| Raisonnement complexe / maths | o3 | Claude Opus 4 | Flash/Haiku/mini (qualité) | Le raisonnement chaîne de pensée est qualitativement différent |
| Souveraineté données UE (RGPD strict) | Gemini 2.5 Pro (Vertex EU) | Claude (Anthropic EU) | OpenAI sans examen DPA | Vertex AI supporte la résidence UE ; vérifier le DPA |
| Multimodal (images + texte) | GPT-4o | Gemini 2.5 Pro | Claude Haiku (vision limitée) | GPT-4o leader MMMU ; Gemini a une architecture native multimodale |
7. Calculateur TCO (Python, 5 minutes)
Exécutez ce script sur vos données de logs réelles pour obtenir une estimation de coût réel avant de vous engager sur un modèle. Il lit les logs de requêtes, compte les tokens avec les tokenizers officiels et produit un tableau de coûts mensuels.
8. Analyse de positionnement marché 2026
Où Anthropic (Claude) gagne
- Codage agentique : Claude maintient une avance mesurable sur SWE-bench (49 %) contre GPT-4o (38 %) et Gemini 2.5 Pro (42 %). Pour la génération automatique de PR, les modifications multi-fichiers et les agents TDD, c'est le benchmark décisif.
- Suivi d'instructions complexes : Claude gère mieux les instructions multi-parties avec moins d'hallucinations. Critique pour les workflows documentaires avec plus de 10 règles dans le prompt système.
- Économies du cache de prompts : À 0,30 $/1M tokens en cache contre 1,25 $ pour GPT-4o, le cache Claude est 4× moins cher — le principal facteur de coût pour les déploiements RAG intensifs.
Où OpenAI (GPT-4o) gagne
- Écosystème d'outils : LangChain, LlamaIndex, AutoGen et 95 % des outils IA open source utilisent par défaut l'API OpenAI. Moins de travail d'intégration, plus d'exemples communautaires.
- Multimodal : GPT-4o reste en tête sur MMMU (69,1 %) pour le raisonnement visuel complexe.
- SLA entreprise : L'intégration Azure d'OpenAI offre des SLA grade entreprise (99,9 %) et des relations d'achat Microsoft existantes.
Où Google (Gemini) gagne
- Fenêtre de contexte : 1M tokens dans Gemini 2.5 Pro et 2.0 Flash permet des cas d'usage architecturalement impossibles à 128K (GPT-4o) ou 200K (Claude) : analyse de codebase complète, transcriptions longues, comparaison de documents de taille livre.
- Coût batch : Gemini 2.0 Flash à 0,10 $ d'entrée / 0,40 $ de sortie est le modèle de qualité production le moins cher. À fort volume, 96 % moins cher que GPT-4o.
- Intégration Google Workspace : Connexions natives à Docs, Sheets, Drive et Gmail — zéro intégration personnalisée pour les workflows documentaires enterprise.
Le risque stratégique : volatilité des tarifs fournisseurs
Utilisez LiteLLM ou une couche proxy mince dès le départ pour rendre votre code applicatif agnostique au modèle. Passer d'un fournisseur à un autre doit être un changement de configuration, pas un changement de code. Les tarifs LLM ont fluctué significativement : GPT-4 32k a été déprécié avec 6 mois de préavis ; les prix Gemini 1.5 Pro ont été divisés par 3 mois après le lancement. Budgétez 20 % de contingence.
Questions Fréquentes
Claude est-il plus cher que GPT-4o en 2026 ?
Cela dépend du niveau et du type de charge. Claude Sonnet 4.5 en sortie (15 $/1M tokens) est 50 % plus cher que GPT-4o (10 $/1M). En revanche, le cache d'entrée de Claude (0,30 $/1M tokens cachés) est 4× moins cher que celui de GPT-4o (1,25 $/1M). Pour les applications RAG avec des prompts système répétitifs, la facture totale Claude est souvent inférieure. Pour les charges purement orientées sortie sans cache, GPT-4o ou Gemini 2.0 Flash l'emportent sur le coût.
Qu'est-ce que le prompt caching et combien économise-t-il réellement ?
Le prompt caching permet de réutiliser des tokens d'entrée identiques (prompt système, contexte documentaire, exemples few-shot) à un tarif bien inférieur au tarif normal. Claude facture 0,30 $/1M tokens en cache contre 3,00 $ en standard — soit 90 % d'économie. GPT-4o facture 1,25 $/1M en cache contre 2,50 $ — soit 50 % d'économie. Pour une application RAG où 80 % des tokens d'entrée sont un contexte documentaire répété, le caching réduit le coût d'entrée total de 72 % sur Claude et de 40 % sur GPT-4o.
Quand Gemini 2.5 Pro bat-il Claude et GPT-4o sur le coût ?
Gemini 2.5 Pro (1,25 $ entrée / 10 $ sortie pour les prompts inférieurs à 200 000 tokens) bat Claude Sonnet sur le coût d'entrée mais s'aligne sur la sortie. Son vrai avantage est la fenêtre de contexte d'1 million de tokens — pour les cas d'usage nécessitant l'analyse de bases de code entières, de longs contrats ou des transcriptions longues, Gemini 2.5 Pro est la seule option viable et le coût par token devient secondaire par rapport à l'exigence architecturale.
À quoi ressemble concrètement un budget LLM de 50 000 €/an ?
Une fintech traitant 8 000 requêtes de support/jour avec GPT-4o au tarif standard (2 000 tokens d'entrée, 400 de sortie, sans cache) dépense environ 4 200 €/mois ≈ 50 000 €/an. Passer à une stratégie à trois niveaux — GPT-4o mini pour les requêtes simples (60 %), Claude Haiku pour la complexité moyenne (30 %), Claude Sonnet pour les cas complexes (10 %) — réduit la facture à environ 18 000 €/an avec moins de 3 % de dégradation qualité sur les requêtes simples. Le levier clé n'est pas de changer de fournisseur ; c'est de router les requêtes par complexité.
Existe-t-il un risque de dépendance fournisseur avec Claude ou GPT-4o ?
Oui, une dépendance réelle existe au niveau des prompts : les prompts système optimisés pour le suivi d'instructions de Claude nécessitent une réécriture pour GPT-4o, et vice versa. La dépendance au niveau API est gérable avec LiteLLM ou un proxy qui normalise la surface API. Le risque stratégique, c'est la volatilité des prix : Anthropic a augmenté les tarifs de Claude 3 Opus après le lancement ; OpenAI a déprécié GPT-4 32k sans préavis suffisant. Prévoyez 20 % de contingence budgétaire pour les changements de prix et maintenez un modèle de secours testé.
Comment calculer ma dépense LLM réelle avant de m'engager sur un modèle ?
Enregistrez 500 vraies requêtes utilisateurs de votre système, comptez l'utilisation réelle des tokens avec tiktoken (OpenAI) ou le compteur de tokens Anthropic, appliquez le tableau de tarifs, multipliez par votre volume mensuel attendu. Cela prend moins de 30 minutes avec le script Python de cet article. L'erreur la plus fréquente est d'estimer le nombre de tokens à partir du nombre de caractères — les tokens réels sont typiquement 25 à 40 % plus élevés que les estimations par (caractères / 4), surtout pour le texte non anglais.
Prochaines étapes
- Exécutez le calculateur TCO ci-dessus sur 500 vraies requêtes de votre système avant toute décision de production. Les calculs sur les tarifs publics sont insuffisants — les décomptes de tokens varient significativement selon les domaines.
- Activez d'abord le prompt caching sur votre modèle actuel. Si vous utilisez Claude sans caching, vous payez probablement 50 à 70 % de trop sur les tokens d'entrée. Mise en œuvre : 1 heure.
- Construisez votre système sur l'abstraction LiteLLM dès le premier jour. Un code agnostique au modèle vous permet d'exécuter le calculateur mensuellement et de changer de fournisseur quand l'économique évolue — et il évoluera.
- Négociez. Au-dessus de 50 000 $/an de dépenses, les trois fournisseurs discutent de remises sur volume. Obtenez des devis concurrents — Anthropic, OpenAI/Microsoft et Google ont tous des équipes de vente entreprise qui bougent sur les prix.
Pour une formation pratique sur la construction de systèmes IA production cost-efficient, consultez notre formation Claude API Production et Gouvernance IA pour l'Entreprise (toutes deux éligibles OPCO — reste à charge potentiel : 0 €).