AWS dévoile sur son infrastructure réseau pour l'IA

La dernière génération de datacenters d'AWS dispose de capacités de refroidissement liquide pour les puces d'IA dont le modèle Grace Blackwell Superchip de Nvidia. (crédit : AWS)

Pour accélérer sa capacité d'innovation, AWS construit ses propres systèmes d'exploitation réseau et dispositifs associés, y compris des cartes d'interface réseau NIC, des commutateurs et des routeurs.

Amazon Web Services a sérieusement renforcé son réseau pour gérer les demandes toujours plus importantes associées à ses applications et services d'IA. Dans un récent billet de blog, Prasad Kalyanaraman, vice-président des services d'infrastructure chez AWS, a donné un aperçu des mesures prise par le fournisseur pour optimiser son réseau mondial afin de gérer les charges de travail liées à l'IA. Déjà, M. Kalyanaraman a rappelé que depuis plus de 25 ans, Amazon utilisait l'IA et l'apprentissage machine pour piloter des fonctions comme les recommandations d'achat et les choix d'emballage, et que les clients ont pu accéder à des services d'IA et d'apprentissage machine par l'intermédiaire d'AWS. Aujourd'hui, l'activité d'AWS impliquant l'IA représente plusieurs milliards de dollars. « Plus de 100 000 clients de tous secteurs, dont Adidas, New York Stock Exchange, Pfizer, Ryanair et Toyota, utilisent les services d'IA et de ML d'AWS pour offrir à leurs clients de nouvelles expériences », a écrit M. Kalyanaraman. « De plus, de nombreux modèles d'IA générative de premier plan sont formés et exécutés sur AWS. »

AWS a construit sa propre architecture basée sur Ethernet qui repose sur son interface réseau Elastic Fabric Adapter (EFA) personnalisée. Celle-ci utilise le propre protocole de transport réseau Scalable Reliable Datagram (SRD) d'AWS. « Ce protocole de transport réseau SRD (Scalable Reliable Datagram) que nous avons élaboré peut utiliser les réseaux modernes de datacenters multi-instances (avec un grand nombre de chemins de réseau) tout en surmontant leurs limites (déséquilibre de la charge et latence incohérente lorsque des flux non liés entrent en collision). Au lieu de préserver l'ordre des paquets, le SRD envoie les paquets sur autant de chemins de réseau que possible, tout en évitant ceux qui sont surchargés. Pour minimiser la gigue et garantir la réponse la plus rapide aux fluctuations de la congestion du réseau, le SRD est mis en oeuvre dans la carte réseau Nitro personnalisée d'AWS », explique AWS dans un descriptif publié par l'IEEE.

Des avantages à construire ses composants d'infrastructure réseau

Selon M. Kalyanaraman, la décision de construire sa propre architecture réseau, y compris ses propres cartes d'interface réseau et routeurs, présente un certain nombre d'avantages pour AWS. « Notre approche est unique en ce sens que nous avons développé nos propres dispositifs de réseau et systèmes d'exploitation de réseau pour chaque couche de la pile, de la carte d'interface réseau (Network Interface Card, NIC) au commutateur de haut de rack, au réseau du centre de données, au routeur orienté vers l'Internet et à nos routeurs dorsaux. Avec cette approche, nous pouvons non seulement mieux contrôler l'amélioration de la sécurité, de la fiabilité et des performances pour les clients, mais aussi innover plus rapidement que d'autres », a encore écrit M. Kalyanaraman.

Par exemple, AWS a récemment livré un nouveau réseau optimisé pour les charges de travail d'IA générative - et ce, en à peine sept mois. « Notre réseau UltraCluster de première génération, construit en 2020, prenait en charge 4 000 unités de traitement graphique, ou GPU, avec une latence de huit microsecondes entre les serveurs. Le dernier réseau UltraCluster 2.0 prend en charge plus de 20 000 GPU avec une latence réduite de 25 %. Il a été construit en sept mois seulement, et atteindre cette vitesse n'aurait pas été possible sans l'investissement à long terme dans nos propres dispositifs et logiciels de réseau personnalisés », a déclaré M. Kalyanaraman. Désigné en interne sous le nom de réseau « 10p10u », l'UltraCluster 2.0, introduit en 2023, offre un débit de plusieurs dizaines de pétabits par seconde, avec un temps d'aller-retour ou round-trip time, inférieur à 10 microsecondes. « Le nouveau réseau permet de réduire d'au moins 15 % le temps nécessaire à l'entrainement d'un modèle », a fait valoir M. Kalyanaraman.

Tactiques de refroidissement et design de puces axés sur l'efficacité énergétique

Une autre priorité d'AWS en matière d'infrastructure est d'améliorer en permanence l'efficacité énergétique de ses centres de données. L'entraînement et l'exécution de modèles d'IA peuvent être extrêmement gourmands en énergie. « Les puces d'IA effectuent des calculs mathématiques à grande vitesse, ce qui les rend essentielles pour les modèles de ML. Elles génèrent aussi beaucoup plus de chaleur que les autres types de puces, de sorte que les nouveaux serveurs d'IA qui nécessitent plus de 1 000 watts de puissance par puce devront être refroidis par liquide. Cependant, certains services AWS utilisent des infrastructures de réseau et de stockage qui ne nécessitent pas de refroidissement liquide, et par conséquent, refroidir ces infrastructures avec du liquide serait inefficace sur le plan énergétique », a aussi expliqué M. Kalyanaraman. « La dernière conception de datacenter d'AWS intègre de manière transparente des solutions de refroidissement par air optimisées ainsi que des capacités de refroidissement liquide pour les puces d'IA les plus puissantes, comme les Superchips Grace Blackwell de Nvidia. Cette conception flexible et multimodale du refroidissement permet d'obtenir des performances et une efficacité maximales, que nous exécutions des charges de travail traditionnelles ou des modèles AI/ML. »

Depuis plusieurs années, AWS conçoit ses propres puces, notamment les puces AWS Trainium et AWS Inferentia, pour que l'entraînement et l'exécution de modèles d'IA génératifs soient plus économes en énergie. « AWS Trainium accélère et réduit le coût de la formation des modèles ML jusqu'à 50 % par rapport à d'autres instances Amazon EC2 comparables optimisées pour la formation des modèles, et AWS Inferentia permet aux modèles de générer des inférences plus rapidement et à moindre coût, avec une performance de coût jusqu'à 40 % supérieure à celle d'autres instances Amazon EC2 comparables optimisées pour l'inférence », a ajouté M. Kalyanaraman. La troisième génération de puce d'IA Trainium2 d'AWS sera disponible dans le courant de l'année. « Par rapport aux puces Trainium de première génération, la formation avec la puce Trainium2 sera jusqu'à 4 fois plus rapide et il sera possible de la déployer dans des UltraClusters EC2 comptant jusqu'à 100 000 puces. Cela signifie que l'on pourra former des modèles de base et de grands modèles de langage en une fraction du temps, tout en améliorant l'efficacité énergétique jusqu'à 2 fois », a affirmé M. Kalyanaraman. « De plus, AWS travaille avec des partenaires comme Nvidia, Intel, Qualcomm et AMD pour offrir des accélérateurs dans le cloud pour les applications de ML et d'IA générative », a aussi indiqué M. Kalyanaraman.

Des connexions dédiées à 400 Gbps lancées

Début juillet, AWS a annoncé que son service privé à large bande passante Direct Connect offrait désormais des connexions dédiées natives de 400 Gbps entre AWS et les datacenters et les installations de colocation. Les connexions natives à 400 Gbps offrent une bande passante plus élevée, sans les coûts opérationnels liés à la gestion de plusieurs connexions à 100 Gbps dans un groupe d'agrégation de liaisons. « La capacité accrue fournie par les connexions 400 Gbps est particulièrement bénéfique pour les applications qui transfèrent des ensembles de données à grande échelle, comme pour l'apprentissage machine et la formation de grands modèles de langage ou les systèmes avancés d'aide à la conduite pour les véhicules autonomes », a déclaré AWS.