
Chez Zoom comme chez Twilio, les dirigeants mettent en avant les récents progrès de l’IA vocale, désormais capable de mener des échanges plus fluides et naturels. (Crédit Pexels)
Lors de l'événement Goldman Sachs Communacopia + Technology, Zoom et Twilio ont dévoilé des assistants vocaux plus réactifs et naturels, visant à rendre les échanges plus clairs et fluides.
Les assistants vocaux hésitants, les silences gênants et les erreurs de compréhension appartiendront bientôt au passé. C'est du moins la promesse des dirigeants de Zoom et Twilio, convaincus que la voix IA vit enfin sa mue technologique. Lors de la conférence Goldman Sachs Communacopia + Technology (le 8 septembre 2025 à San Francisco), les deux groupes ont évoqué des progrès majeurs qui lèvent peu à peu les freins à son adoption. Chez Twilio, le CEO Khozema Shipchandler observe un changement de perception : les utilisateurs préfèrent désormais échanger avec des agents vocaux dans certains contextes, notamment en santé. « Les conversations gagnent en fluidité. Les silences ou malaises propres aux échanges humains disparaissent », explique-t-il. Autre évolution notable : la latence, longtemps considérée comme un point faible, serait aujourd'hui quasiment effacée. Chez Zoom, le CEO Eric Yuan met lui aussi en avant des progrès importants. L'entreprise a développé AI Companion, un assistant vocal multilingue aux intonations plus naturelles. L'objectif : éliminer les pauses artificielles et renforcer la fluidité des conversations.
Une technologie encore perfectible
Sur le terrain, tout n'est pas encore au point. Plusieurs chaînes de restauration rapide, dont McDonald's et Taco Bell, ont suspendu leurs tests de commande vocale au drive, l'IA peinant encore à comprendre certains accents ou bruits de fond. Pour Jack Gold, analyste principal chez J. Gold Associates, la difficulté vient de la variabilité du langage : « Même dans une seule langue comme l'anglais, les accents et les intonations diffèrent énormément. »
Malgré ces limites, le potentiel reste immense. Dans la livraison de repas, 35 % des commandes passent encore par téléphone. L'IA vocale pourrait fluidifier ces échanges et accélérer la prise de commande. « Sa capacité est illimitée », estime Khozema Shipchandler. De plus, la voix constitue un moyen naturel pour obtenir des informations, car tout le monde ne maîtrise pas parfaitement la saisie au clavier, note Jack Gold.
Déploiement et sécurité
L'usage de la voix gagne aussi le grand public. De plus en plus d'utilisateurs dialoguent désormais à voix haute avec ChatGPT, signe que la voix devient un mode d'interaction privilégié. « D'ici deux ou trois ans, de nombreuses solutions reposeront sur cette technologie », anticipe Eric Yuan.
Reste à gérer la question sensible de la sécurité. Les risques d'usurpation de voix se multiplient, poussant les acteurs du secteur à développer des systèmes de reconnaissance vocale et de vérification rapide des identités. Zoom collabore d'ailleurs avec des experts en cybersécurité pour encadrer le déploiement de ses IA. Pour Jack Gold, l'évolution est inévitable : « À mesure que les modèles s'enrichiront de meilleures données, les erreurs s'effaceront progressivement. La voix IA entre dans une phase de maturité accélérée. »
Suivez-nous