Nvidia dope ses switchs Spectrum-X pour Ethernet

Des algorithmes maison permettront d'optimiser les performances des systèmes Nvidia Spectrum-X utilisés pour connecter des GPU entre plusieurs serveurs et même entre différents centres de données. 

Nvidia souhaite rendre les communications GPU-GPU longue distance via Ethernet plus rapides et plus fiables sur ses équipements, et espère y parvenir grâce à des algorithmes Ethernet présentés vendredi dernier. Les algorithmes Spectrum-XGS sont des protocoles logiciels intégrés aux derniers équipements Ethernet de Nvidia. Ils ajustent automatiquement les performances des réseaux longue distance afin que les GPU répartis dans plusieurs centres de données fonctionnent comme un superordinateur IA unique et unifié. « Il ne s'agit pas d'un nouvel élément matériel, mais d'une infrastructure Spectrum-X qui, grâce à de nouveaux algorithmes, transfère efficacement davantage de données sur de plus longues distances entre les sites », a déclaré Gilad Shainer, vice-président senior chargé des réseaux chez Nvidia, à Network World. M. Shainer donnera plus de détails sur cette technologie le 26 août lors de la conférence Hot Chips à Palo Alto, en Californie. 

Les entreprises étendent leurs installations de centres de données en raison de leur taille et de leurs limites en matière d'alimentation électrique, ce qui les oblige à répartir les GPU sur de plus longues distances, a déclaré M. Shainer. Les algorithmes XGS ajustent les performances des réseaux longue distance en analysant en temps réel des données télémétriques telles que les distances entre les datacenters, les modèles de trafic, les niveaux de congestion et les mesures de performance. Les algorithmes ajustent ensuite le contrôle de la congestion, le routage et l'équilibrage de la charge. L'Ethernet traditionnel traite généralement toutes les connexions de la même manière, tandis que XGS « ajuste automatiquement l'algorithme en fonction de la distance à couvrir », explique M. Shainer. La mise en oeuvre de Spectrum-XGS est en cours pour des datacenters distants de plusieurs centaines de kilomètres. Elle est intégrée aux commutateurs Spectrum-X, aux SuperNIC ConnectX-8 et aux systèmes équipés de GPU Blackwell. « Ces algorithmes sont différents de ceux qui fonctionnent à l'intérieur d'un centre de données », explique M. Shainer. 

Personnalisation de la norme  Ethernet est une norme industrielle, mais les fournisseurs apportent généralement leurs propres ajustements à leurs équipements Ethernet. Spectrum-XGS est probablement la première amélioration Ethernet personnalisée de Nvidia pour les communications GPU et IA à longue distance, selon Jim McGregor, analyste principal chez Tirias Research. « Si vous pouvez estimer la distance, cela améliore les performances globales. C'est une chose de le faire à l'intérieur des centres de données, c'en est une autre d'estimer les performances entre les centres de données », a précisé M. McGregor. Les GPU finiront par se répandre sur de plus longues distances en raison des contraintes de puissance et de coût, a poursuivi ce dernier. « Cela pourrait fonctionner pour les centres de données modulaires, comme les conteneurs d'expédition, que les clients installent et connectent à des réseaux à grande échelle ». 

Cette technologie pourrait aider les entreprises qui exploitent des clusters de formation multi-campus et qui sont limitées par la puissance disponible dans une région de déploiement, a déclaré Leonard Lee, analyste exécutif chez Next Curve. « Elle semble principalement destinée à l'entraînement pour le moment... mais il ne fait aucun doute que XGS trouvera des débouchés dans le domaine de l'inférence », a déclaré M. Lee. M. Shainer a déclaré que la personnalisation Ethernet des équipements par les fournisseurs dépendait des implémentations. Les datacenters virtualisés se concentrent généralement sur les petits paquets, les fournisseurs hyperscale se concentrent sur le débit et les fournisseurs de services visent des tampons plus profonds pour des distances plus longues. Les ajustements XGS de Nvidia comprennent « un routage adaptatif fin, paquet par paquet », qui élimine les problèmes de paquets perdus ou de tampons profonds, dans lesquels les paquets sont sauvegardés pour éviter toute perte, a indiqué M. Shainer. En général, les tâches d'IA sont réparties entre plusieurs GPU, qui se coordonnent ensuite pour fournir un résultat unifié. Le routage adaptatif garantit la synchronisation du réseau et des GPU sur de longues distances lors de l'exécution de charges de travail d'IA, a souligné M. Shainer. 

Bugs de gigue  « Si je retransmets le paquet, je crée une gigue, ce qui signifie qu'un GPU parmi plusieurs sera retardé et que tous les autres devront attendre que ce GPU ait terminé », a expliqué M. Shainer. Les améliorations apportées au contrôle de la congestion éliminent les goulots d'étranglement en équilibrant les transmissions entre les commutateurs. Nvidia a testé les algorithmes XGS sur son matériel serveur et a mesuré une amélioration de 1,9 fois la communication entre GPU par rapport à la technologie réseau standard, ont déclaré des dirigeants lors d'une présentation sur cette technologie. 

Les fournisseurs de cloud disposent déjà de réseaux longue distance à haut débit. Par exemple, le réseau Jupiter à grande échelle de Google utilise la commutation optique pour assurer des communications rapides entre ses puces IA, appelées TPU. Il est important de séparer l'infrastructure physique des algorithmes logiciels tels que XGS, a indiqué l'analyste. Les réseaux de fibre optique qui couvrent le continent existent déjà pour connecter différents systèmes, mais ce sont les protocoles logiciels en constante évolution qui fonctionnent sur ces réseaux qui déterminent les performances réelles, a-t-il ajouté. 

Un changement par rapport à InfiniBand  L'Ethernet existe depuis 50 ans, mais n'était pas un terrain de prédilection pour Nvidia, promoteur de la technologie de réseau InfiniBand - depuis le rachat de Mellanox - pour les communications GPU longue distance. Mais l'industrie s'oriente de plus en plus vers l'Ethernet et l'Ultra Ethernet, qui sont des normes ouvertes, pour des raisons notamment liées au coût, a déclaré M. McGregor de Tirias Research. L'achat de la technologie XGS risque de fidéliser les clients à d'autres produits Nvidia, a déclaré M. Lee de Next Curve. « Nvidia souhaite fournir une solution complète pour son matériel, mais en combinant différentes options avec des produits tels que NVLink Fusion », a souligné M. Lee.

Le réseau est devenu un marché important pour Nvidia, générant 5 milliards de dollars pour le dernier trimestre clos le 27 avril, soit une hausse de 56 % par rapport au même trimestre de l'année précédente. Mais la concurrence s'intensifie également avec des acteurs Ethernet historiques tels qu'Arista Networks, Cisco, Ciena, Broadcom, HPE/Juniper et d'autres qui adaptent leurs produits de réseau optique régional et de campus, a conclu M. Lee.  

s'abonner
aux newsletters

suivez-nous

Publicité

Derniers Dossiers

Cybersécurité, le double visage de l'IA

Cybersécurité, le double visage de l'IA

En cybersécurité, l'IA joue un double rôle : le gentil en aidant à détecter et à prévenir les menaces, à automatiser les processus de sécurité, à simuler et anticiper les...

Publicité