AMD propose de l'inférence IA en mode local avec sa carte Instinct MI350P

Matériels,

La carte Instinct MI350p intègre un GPU doté de 144 Go de HBM3E contre 288 pour le MI350X.

Avec le lancement de la carte PCIe Instinct MI350P, le géant des puces propose une solution capable de transformer n'importe quel serveur en moteur d'IA générative.

Pour exécuter des capacités IA (de type inférence ou RAG) sur des serveurs ou des stations de travail déjà en production dans les entreprises, AMD vient de dévoiler son accélérateur Instinct MI350P au format PCIe. Jusqu'à présent, le fournisseur proposait ses GPU Instinct sous forme de modules OAM pour serveurs, par lots de huit. Ces cartes ciblent donc les décideurs IT ou les utilisateurs qui ne souhaitent pas investir dans des systèmes GPU dédiés onéreux, lesquels nécessitent souvent, en parallèle, des dispositifs d'alimentation et de refroidissement adaptés. Un point que confirme Suresh Andani, VP Compute and Enterprise AI chez AMD, dans une vidéo associée à cette annonce : « Avec la MI350P PCIe, vous pouvez faire évoluer facilement vos serveurs standards d'entreprise pour l'IA sans modifications, en conservant le rack et le système de refroidissement par air. »

Un GPU aux performances diminuées

En quelque sorte, AMD cherche à démocratiser l'accès à des accélérateurs IA à moindre coût, même si, pour l'heure, il ne communique pas de prix. Techniquement, le GPU embarqué sur cette carte exploite l'architecture CDNA 4 (gravée en 3 nm par TSMC) avec 144 Go de mémoire HBM3E pour un débit de 4 To/s, à comparer aux MI350X et MI355X qui intègrent 288 Go pour 8 To/s de bande passante. Côté performances IA, AMD annonce de 2 299 à 4 600 téraflops en MXFP4 et en MXFP6. De plus, la carte MI350P prend en charge la technologie de sparsité, qui consiste à ignorer les valeurs nulles dans les ensembles de données et les matrices, réduisant ainsi le temps de traitement. Selon la firme de Santa Clara, cela permet aux formats de haute précision, tels que INT8 et BF16, d'offrir des performances optimales. La carte supporte aussi l'ensemble de la pile logicielle open source ROCm proposée par le fournisseur, ce dernier indique également qu'une seule carte peut gérer des modèles de langage allant de 200 à 250 milliards de paramètres. Sa consommation est donnée à 600 W par défaut (elle peut être limitée à 450 W pour des machines moins puissantes), contre 1 000 W à 1 400 W pour la MI355X. Côté format, la carte occupe deux emplacements pour une longueur de 10,5 pouces (26,7 cm).

Par Benoît Huet