en ,

Modèle d’IA utilisant des GPU AMD pour l’entraînement atteint un jalon

ZAYA1 : une nouvelle ère pour le modèle d’IA

Dans le paysage actuel de l’intelligence artificielle, de nombreuses entreprises cherchent à s’affranchir de la dominance de certains acteurs du marché. C’est dans cette optique que trois entreprises ont participé à un projet ambitieux, visant à concevoir un modèle d’IA capable de rivaliser avec les géants existants sans recourir aux outils habituels.

Un partenariat innovant

Le résultat de cette collaboration se concrétise avec ZAYA1, un modèle de fondation qui utilise entièrement des GPU AMD et une infrastructure mise en place par IBM. Ce modèle est déjà décrit comme un point de référence dans l’optimisation des ressources matérielles pour l’entraînement d’IA. En utilisant les puces Instinct MI300X, cette équipe a réussi à prouver que des alternatives aux infrastructures basées sur NVIDIA étaient non seulement possibles, mais également efficaces.

Fonctionnement et architecture du modèle

ZAYA1 est construit sur une architecture complexe mais pragmatique, activant 760 millions de paramètres au sein d’un total de 8,3 milliards. Il a été entraîné sur un volume impressionnant de 12 billions de tokens, et ce en plusieurs étapes. Ce qui attire l’attention ici, c’est l’utilisation d’une méthode d’attention compressée, qui permet au modèle de rester performant tout en gérant efficacement la mémoire.

Un avantage compétitif pour les entreprises

Pour les entreprises qui font face à des contraintes d’approvisionnement ou à des fluctuations des coûts des GPU, ZAYA1 représente une option concrète. Imaginez une banque qui cherche à développer un modèle d’IA pour des enquêtes ; avec le modèle d’AMD, il devient possible de le faire efficacement sans avoir à jongler avec des configurations complexes. Grâce à la mémoire généreuse des MI300X, les ingénieurs peuvent expérimenter sans la pression de devoir constamment paralléliser leurs opérations.

Technologie sous-jacente et optimisation

Le passage d’un environnement NVIDIA à la plateforme ROCm a exigé un certain travail d’adaptation. De fait, chaque détail compte ici : la taille des tampons, la hiérarchisation des opérations, tout a été minutieusement ajusté. Ces efforts permettent de maximiser les performances et de réduire les coûts d’inférence. Des choix techniques, comme le traitement en anneau et l’attention par arbre, offrent une flexibilité lors du décodage des séquences d’entrée.

Vers de nouvelles perspectives dans l’IA

Ce modèle ouvre la voie à d’autres modèles d’IA basés sur des architectures d’AMD, en offrant un plan d’action pour les entreprises qui envisagent une diversification de leurs fournisseurs. Ne pas dépendre exclusivement d’un acteur majeur permet non seulement d’augmenter la capacité d’entraînement, mais aussi de protéger les organisations contre d’éventuelles pénuries de matériel.

Au final, ce projet montre qu’il existe un chemin alternatif pour celles et ceux qui désirent adapter leurs infrastructures d’IA. C’est une avancée dont on pourrait tous bénéficier.

Comment OpenAI et Thrive testent un nouveau modèle d’intelligence artificielle pour les entreprises

DeepSeek V3.2 égalise les performances de GPT-5 avec 90 % de coûts de formation en moins