Microsoft investit lourdement dans Azure pour fournir des ressources à ChatGPT

Tendances technologiques, Tendances marché,

Selon la presse économique, Microsoft a investi plusieurs millions de dollars en infrastructure IT et notamment sur les accélérateurs GPU Nvidia pour entraîner et faire fonctionner ChatGPT d'OpenAI dans Azure. (Crédit Photo : Microsoft)

Outre les milliards investis dans OpenAI, Microsoft a également dépensé des centaines de millions en hardware sur son cloud Azure. Nvidia est le grand gagnant de cette architecture accompagnant l'engouement pour les IA génératives.

Les investissements de Microsoft dans ChatGPT ne concernent pas seulement OpenAI. La firme américaine a aussi dépensé énormément d'argent dans le matériel pour ses datacenters Azure, preuve que, pour l'instant, les solutions d'IA sont réservées aux très grosses entreprises. Le partenariat entre Microsoft et OpenAI remonte à 2019, date à laquelle Microsoft a investi 1 Md$. Il a fait monter les enchères en janvier en investissant 10 milliards de dollars supplémentaires. Mais ChatGPT a aussi besoin de ressources pour fonctionner notamment sur Azure. Le montant n'a pas été révélé, mais selon un article de Bloomberg, Microsoft a déjà dépensé « plusieurs centaines de millions de dollars » pour l'entraînement du fameux chatbot.

Nvidia grand gagnant du partenariat OpenAI et Microsoft

Dans deux messages postés dans un blog, Microsoft a expliqué en détail ce qu'elle a fait pour construire l'infrastructure d'IA sur laquelle fonctionne ChatGPT dans le cadre du service Bing. Le fournisseur proposait déjà des machines virtuelles ND A100 v4 pour le traitement de l'IA basées sur les accélérateurs basé sur des GPU A100 de Nvidia. Il propose désormais l'instance ND H100 v5 basée sur du matériel plus récent dont les tailles de VM varient de huit à des milliers d'accélérateurs GPU H100. Dans son billet de blog, Matt Vegas, chef de produit Azure HPC+AI, écrit que, par rapport aux instances ND A100 v4, les performances des v5 seront nettement plus rapides pour les modèles d'IA.

Les dernières VM sont alimentées par des H100 Tensor Core (génération « Hopper ») interconnectés via la dernière génération de NVSwitch et NVLink 4.0 (avec des débits de 3,6 Tbt/s entre 8 GPU locales dans chaque VM), le réseau InfiniBand Quantum-2 CX7 de Nvidia à 400 Gb/s, des puces Intel Xeon Scalable de 4ème génération (« Sapphire Rapids ») avec des interconnexions PCIe Gen5 et de la mémoire DDR5 (avec 16 canaux de 4800 MHz). Matt Vegas n'a pas précisé la quantité de hardware, mais il a indiqué que Microsoft mettait à la disposition des clients Azure plusieurs exaflops de calcul intensif. À notre connaissance, il n'existe qu'un seul supercalculateur de ce niveau, selon la dernière liste semestrielle TOP500 des ordinateurs les plus rapides au monde, à savoir le Frontier de l'Oak Ridge National Labs. Mais le problème du TOP500, c'est que tout le monde ne signale pas ses supercalculateurs si bien qu'il existe peut-être d'autres systèmes aussi puissants que Frontier dont nous n'avons pas connaissance.

Une infrastructure affinée avec le temps

Dans un autre billet de blog, Microsoft explique comment l'entreprise a commencé à travailler avec OpenAI pour créer les infrastructures nécessaires au LLM qui sous-tend ChatGPT. Selon Nidhi Chappell, cheffe de produit Azure High Performance Computing and AI de Microsoft, il a fallu relier autrement des milliers de GPU, en utilisant une solution à laquelle même Nvidia n'avait pas pensé. « Il ne s'agit pas d'acheter un tas d'accélérateurs GPU, de les connecter et de les faire fonctionner ensemble. Il y a beaucoup d'optimisation au niveau du système pour obtenir les meilleures performances, et il faut l'expérience de plusieurs générations d'accélérateurs GPU pour y parvenir », a déclaré la responsable.

Pour entraîner un LLM, la charge de travail est répartie entre des milliers d'accélérateurs GPU dans un cluster et, à certaines étapes du processus, ils échangent des informations sur le travail qu'ils ont effectué. Un réseau InfiniBand transfère les données à haut débit, car l'étape de validation doit être terminée avant que les GPU ne puissent commencer l'étape de traitement suivante. L'infrastructure Azure est optimisée pour l'entraînement de grands modèles de langage, mais il a fallu des années d'améliorations progressives de la plateforme d'IA pour y parvenir. La combinaison des accélérateurs GPU, de matériel de réseau et de logiciels de virtualisation nécessaire pour fournir Bing AI est immense et est répartie dans 60 régions Azure à travers le monde. Les instances ND H100 v5 sont disponibles en avant-première et seront offertes en standard dans le portefeuille Azure, mais Microsoft n'a pas précisé quand.

Par Andy Patrizio, IDG NS (adapté par Jean Elyan)