IA auto-hébergée ou SaaS pour la synthèse de réunion, le vrai coût
L'IA open-source semble gratuite, jusqu'à ce qu'on compte la facture GPU, l'astreinte et les heures de prompt engineering. Voici le calcul.
L'argument pour auto-héberger une stack open-source de synthèse de réunion est simple. Vos données ne quittent jamais votre infrastructure. Vous contrôlez le modèle, les prompts, le pipeline. Les briques, Whisper pour la transcription, un LLM open-weights pour la synthèse, une file, une couche de stockage, sont toutes disponibles librement. Sur le papier, c'est la réponse maximaliste côté vie privée.
En pratique, la question n'est pas de savoir si l'auto-hébergement fonctionne. Il fonctionne. La question est combien il coûte à faire tourner.
Cet article est le détail de coût honnête, écrit par des gens qui l'ont fait.
Les briques nécessaires
Une stack auto-hébergée de synthèse de réunion, de bout en bout :
- Ingestion et stockage audio, découpage à l'upload, normalisation des formats, stockage durable avec politique de rétention.
- Transcription, Whisper (large-v3 ou distil-whisper) sur GPU, avec diarisation des locuteurs (pyannote ou équivalent).
- Synthèse, un LLM open-weights (Llama 3.x 70B, Mixtral 8x22B ou similaire) sur GPU avec assez de VRAM et de concurrence pour absorber la file.
- Orchestration, file de tâches, retry, observabilité, versionnement des prompts, stockage des sorties.
- Frontend web, UI d'upload, polling de statut, téléchargement de synthèse, gestion d'équipe, auth, facturation interne si vous refacturez.
- Opérations, monitoring, astreinte, planification de capacité GPU, mises à jour de modèle, patching de sécurité.
Chacune est un problème résoluble. Aucune n'est gratuite.
Ce que ça coûte vraiment, année 1
Les chiffres ci-dessous supposent une équipe mid-market qui synthétise environ 200 heures d'audio de réunion par mois, disons 30 à 50 utilisateurs actifs. Choix d'infrastructure réalistes mais conservateurs ; les déploiements en production varieront.
| Poste de coût | Estimation année 1 | Notes |
|---|---|---|
| Infrastructure GPU (transcription + synthèse) | 18 000–36 000 € | Instance réservée H100/A100 pour le steady-state + burst |
| Stockage objet et bande passante | 1 200–3 000 € | Chunks audio, artefacts intermédiaires, archive de synthèses |
| Orchestration et file | 1 800–3 600 € | File managée, stack d'observabilité |
| Temps ingénierie (build) | 60 000–120 000 € | Un senior, 3–6 mois pour livrer un v1 utilisable |
| Temps ingénierie (run) | 30 000–60 000 € / an | 0,25–0,5 ETP astreinte, mises à jour modèle, patches |
| Prompt engineering / qualité | 15 000–30 000 € / an | Itérations sur la qualité de synthèse selon les types de réunion |
| Conformité et audit | 5 000–20 000 € / an | Si vous avez des obligations RGPD, SOC 2 ou sectorielles |
| Total année 1 | ~130 000–270 000 € | Hors achat matériel si vous partez full on-prem |
Année 2 et suivantes, le coût de build disparaît mais le coût de run reste : à peu près 50 000–110 000 € par an pour le même profil d'usage.
À titre de comparaison, un SaaS de synthèse de réunion sur le même profil d'usage coûte typiquement entre 5 000 et 30 000 € par an, selon le palier, le fournisseur et le nombre de sièges.
Auto-héberger une stack de synthèse de réunion coûte à peu près cinq à dix fois ce que coûte un SaaS UE-par-défaut sur le même profil d'usage. L'argument pour l'auto-hébergement doit venir d'ailleurs que du coût.
Quand l'auto-hébergement est le bon choix
Le tableau coût change pour certaines équipes. L'auto-hébergement s'impose quand :
- Votre classification de données interdit tout traitement par un tiers. Certains contextes défense, renseignement et certaines configurations santé n'autorisent simplement pas un SaaS externe, indépendamment de la posture RGPD. Si la classification dit non aux tiers, l'auto-hébergement est l'unique option.
- Vous avez déjà une empreinte GPU et une équipe MLOps qui peut absorber la charge. Si les GPU sont déjà là pour d'autres workloads et que l'astreinte existe déjà, le coût marginal d'ajouter la synthèse de réunion est plus bas que ce que le tableau suggère.
- Vous avez besoin de contrôle total sur le comportement du modèle. Formats de synthèse spécifiques, vocabulaire métier, intégration à des pipelines internes propriétaires. Les SaaS permettent une part de personnalisation ; l'auto-hébergement la permet entièrement.
- Vous êtes à l'échelle où le SaaS au siège dépasse le coût d'infrastructure. Une entreprise de 5 000 sièges en usage quotidien intensif peut renverser le calcul. La plupart des équipes ne sont pas à cette échelle.
Pour ces cas, l'auto-hébergement est raisonnable. Le coût est réel, mais les alternatives ne le sont pas.
Quand le SaaS est le bon choix
Le défaut pour la plupart des équipes. Le SaaS s'impose quand :
- Vous n'avez pas d'équipe MLOps ni d'empreinte GPU. Le coût de build est ce qu'il est. Constituer une équipe pour supporter la synthèse, c'est du recrutement, de l'infrastructure et un an de travail. Acheter une licence SaaS, c'est un mardi.
- La conformité RGPD ou sectorielle est satisfaite par un fournisseur UE-par-défaut. Si un SaaS stocke et traite en UE, avec une rétention courte et sans entraînement sur les données utilisateurs, il satisfait la plupart des cadres. La raison d'auto-héberger s'évapore.
- Le cas d'usage est la productivité d'équipe au sens large, pas un format spécialisé. Points de status, appels client, enregistrements de recherche, synthèse générique. Les SaaS s'en sortent bien.
- Vous voulez les améliorations qualité sans devoir les expédier. Les fournisseurs SaaS mettent à jour les modèles, ajoutent des types de synthèse, itèrent sur les prompts en continu. Vous récupérez les upgrades sans les heures de prompt engineering.
Pour la plupart des équipes, y compris la plupart des équipes européennes sous RGPD, la réponse est SaaS, spécifiquement un SaaS qui expédie une architecture UE-par-défaut. C'est l'architecture qu'EnClair expédie.
Une note sur la rétention
EnClair stocke audio et synthèses pendant 24 heures, puis supprime les deux. Hébergement et traitement en Europe. Nous n'entraînons aucun modèle sur les entrées ou sorties utilisateurs. La posture complète est sur la page sécurité. Pour un comparatif structuré des alternatives, voir l'article synthèse de réunion conforme RGPD.
À retenir
« L'open-source est gratuit » n'est pas le bon angle pour la synthèse de réunion auto-hébergée. L'open-source est sous licence libre. Le faire tourner coûte de l'argent réel, matériel, temps, ops, conformité, et les coûts de run ne ressemblent pas à un abonnement SaaS sur le même usage. Si votre classification de données ou votre échelle imposent l'auto-hébergement, faites-le ; le calcul tient à l'échelle ou en contexte régulé. Pour tous les autres, un SaaS UE-par-défaut est la réponse moins chère, plus rapide et tout aussi confidentielle.
Tags
- Comparatif
- Workflow
- Industrie