Seria AMD Instinct GPU devine populară în comunitatea de calcul și AI. Iata de ce.

Nu există nicio îndoială că NVIDIA continuă să domine spațiul de calcul paralel cu diversele sale serii GPU populare. Dar cu acceleratoarele AMD Instinct AI care echipează două dintre cele mai noi și mai mari supercomputere (Frontier și El Capitan) și sprijinul tot mai mare al comunității pentru platforma lor open-source ROCm, NVIDIA ar fi putut găsi cel mai mare rival al lor de până acum.

Deci, ce sunt exact acceleratoarele AMD Instinct AI? Ce le face puternice și cum se compară cu GPU-urile Tensor de la NVIDIA?

Ce este un procesor AMD Instinct?

Procesoarele Instinct de la AMD sunt hardware la nivel de întreprindere utilizate pentru calcularea de înaltă performanță (HPC) și procesarea accelerată de AI. Spre deosebire de GPU-urile obișnuite, de calitate pentru consumatori, GPU-urile Instinct sunt specializate pentru a gestiona mai bine învățarea AI și alte sarcini de înaltă performanță prin inovații software și hardware.

instagram viewer

Seria de GPU-uri Instinct de la AMD a fost folosită pentru a alimenta primul supercomputer care a spart bariera Exascale, performând la 1,1 EFLOP la operații cu precizie dublă pe secundă. În prezent, supercalculatoarele care folosesc GPU-uri Instinct sunt utilizate pentru a cerceta tratamentele pentru cancer, energia durabilă și schimbările climatice.

Cum procesoarele Instinct accelerează AI și HPC

Pentru cele mai puternice servere și supercomputere mainstream din lume pentru a realiza procesarea la nivel Exascale, acceleratoarele AMD Instinct au trebuit să fie echipate cu mai multe upgrade-uri și inovații tehnologice.

Să discutăm câteva dintre tehnologiile noi și actualizate utilizate pe GPU-urile AMD Instinct.

1. Calculați ADN (CDNA)

Credit imagine: Pascal Liebart/AMDLibrary

Recentele acceleratoare AMD Instinct (începând de la MI100) au folosit arhitectura CDNA a companiei.

CDNA se concentrează în primul rând pe caracteristici precum procesarea paralelă, ierarhia memoriei și performanțe de calcul optimizate prin tehnologia lor Matrix Core. Chiar și HPC și AI sau învățarea automată care rulează pe un singur server pot fi acceptate de CDNA, precum și de computerele uriașe Exascale.

Tehnologia AMD Matrix Core accelerează învățarea AI prin sprijinirea operațiunilor de precizie mixtă. Capacitatea de a calcula cu o precizie diferită permite GPU-urilor Instinct să calculeze eficient operațiunile matricei pe baza nivelului de precizie necesar.

Cele mai populare formate de precizie de calcul includ FP64, FP32, FP16, BF16 și INT8. FP înseamnă Floating Point, BF pentru Brain Floating Point și INT pentru Integer. Cu cât numărul corespunzător formatului este mai mare, cu atât calculul este mai precis. Funcționarea la 64 de biți este cunoscută sub numele de precizie dublă. Cu 32 de biți este o singură precizie, pe 16 biți este pe jumătate și așa mai departe.

Deoarece o mare parte a modelelor de deep learning nu necesită prea multă precizie, având capacitatea de a calcula matrice operațiunile la jumătate de precizie sau chiar un sfert de precizie pentru deducere reduc semnificativ volumul de muncă, accelerând astfel AI învăţare.

2. Memorie cu lățime de bandă mare (HBM)

Credit imagine: Jason De Vos/AMDLibrary

Fiecare accelerator AMD Instinct AI vine cu până la 880 de nuclee Matrix. Cu procesoarele AMD Matrix Core capabile să facă 383 TFLOP de calcule cu jumătate de precizie, este necesară o memorie ultrarapidă. Cele mai recente oferte Instinct ale AMD sunt echipate cu memorie cu lățime de bandă mare (HBM) în loc de RAM obișnuită DDR4 sau DDR5.

Spre deosebire de memoria convențională, HBM utilizează ceea ce este cunoscut sub numele de arhitectură stivuită 3D. Acest tip de arhitectură se referă la o abordare de proiectare în care matrițele DRAM sunt stivuite vertical una peste alta. Acest lucru permite stivuirea matrițelor atât pe axa verticală, cât și pe axa orizontală, de unde și termenul de stivuire 3D.

Cu această tehnologie de stivuire 3D, HBM-urile pot avea capacități de memorie fizică de până la câteva sute de gigabytes per modul, în timp ce DRR5 poate face doar până la zeci de gigabytes per modul. Pe lângă capacitate, HBM-urile sunt, de asemenea, cunoscute că au performanțe mai mari în ceea ce privește rata de transfer și o eficiență energetică mai bună decât memoria DDR obișnuită.

3. Infinity Fabric

O altă inovație inclusă în GPU-urile Instinct este tehnologia AMD Infinity Fabric. Infinity Fabric este un tip de sistem de interconectare care conectează CPU-urile și GPU-urile într-un mod inteligent și dinamic. Acest lucru permite componentelor să comunice eficient între ele.

Cu Infinity Fabric, în loc să conecteze componente cu o magistrală obișnuită, componentele sunt acum conectate într-o rețea asemănătoare ochiului în care lățimile de bandă pot fi de până la câteva sute de gigabytes pe secundă.

Pe lângă interconexiunea asemănătoare ochiurilor, Infinity Fabric folosește și senzori încorporați în fiecare matriță pentru controlează frecvența, ratele de transfer de date și alte comportamente adaptative, optimizând și minimizând performanța latenta.

4. Platforma de dezvoltare ROCm

CUDA (compute unified device architecture) de la NVIDIA este cea mai utilizată platformă de dezvoltare pentru antrenarea modelelor AI. Problema cu CUDA este că funcționează doar cu GPU-uri NVIDIA. Acesta este unul dintre motivele majore pentru care NVIDIA deține majoritatea covârșitoare a cotelor de piață pentru acceleratoarele GPU HPC și AI.

Având în vedere că AMD dorea să obțină o parte mai mare din piața HPC și AI, a trebuit să își dezvolte propria platformă, ROCm (Radeon Open Compute). ROCm este o platformă software open-source care permite GPU-urilor Instinct să fie utilizate ca acceleratoare AI.

Deși nu face neapărat parte din hardware-ul Instinct, ROCm este fundamental atunci când vine vorba de supraviețuirea liniei de GPU-uri Instinct. Cu ROCm, dezvoltatori și cercetătorii obțin instrumentele ROCm, compilatorul, driverele de kernel, o întreagă serie de biblioteci și acces la cadre precum TensorFlow și PyTorch pentru a le dezvolta împreună. preferat Limbajul de programare AI.

Cum se compară Acceleratoarele Instinct AI cu Acceleratoarele Radeon GPU AI?

AMD oferă gama sa Instinct de GPU-uri pentru întreprinderi și GPU-uri Radeon pentru consumatorii obișnuiți. După cum sa discutat mai devreme, Instinct GPU utilizează arhitectura CDNA AMD, HBM și interconectarea Infinity Fabric. În schimb, Radeon folosește arhitectura RDNA AMD, memorie DDR6 și Infinity Cache.

Deși este mai puțin capabilă, seria Radeon de acceleratoare AI oferă încă un pumn implementând unul sau două nuclee de accelerator AI per unitate de calcul. Cel mai recent GPU Radeon RX7900 XT are două nuclee acceleratoare AI per unitate de calcul, permițând 103 TFLOP de vârf de jumătate de precizie și 52 TFLOP de calcule de vârf cu o singură precizie.

În timp ce seria de GPU-uri Instinct este mai potrivită pentru LLM-uri și HPC, acceleratoarele Radeon AI pot fi folosite pentru reglarea fină a modelelor pre-antrenate, inferențe și sarcini grafice intensive.

AMD Instinct vs. Tensorul NVIDIA

Potrivit unui Sondaj TrendForce, NVIDA are o cotă de piață de 80% pentru GPU-urile de server, în timp ce AMD are doar 20%. Acest succes copleșitor de la NVIDIA se datorează faptului că sunt o companie specializată în proiectarea și asamblarea GPU-urilor. Acest lucru le permite să proiecteze GPU-uri semnificativ mai bune, fără egal cu alte oferte.

Să comparăm Instinct MI205X de la AMD și H100SXM5 de la NVIDIA folosind specificațiile de la Site-ul oficial al AMD și Fișa tehnică proprie a NVIDIA:

Model GPU

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOP)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

După cum puteți vedea în tabel, MI250X de la AMD are performanțe mai bune în ceea ce privește dubla precizie și jumătate de precizie calcule, în timp ce H100SXMS de la NVIDIA este mult mai bun în ceea ce privește matricea de jumătate de precizie și un sfert de precizie calculele. Acest lucru face ca MI250X de la AMD să fie mai potrivit pentru HPC, în timp ce H100SXMS de la NVIDIA cu învățare și inferență AI.

Viitorul procesoarelor Instinct de la AMD

Deși cea mai recentă ofertă a AMD, MI250X, este proiectată pentru HPC, viitorul lor MI300 este mai orientat spre instruirea AI. Acest accelerator AI se anunță a fi un APU, combinând GPU și CPU într-un singur pachet. Acest lucru permite MI300 să folosească arhitectura APU de memorie unificată CNDA3, unde GPU-ul și procesorul vor folosi o singură memorie, crescând eficiența și reducând prețul.

Deși AMD nu va concura astăzi cu NVIDIA pe piața acceleratoarelor AI, odată ce MI300 va fi lansat și ROCm va deveni lustruită, seria AMD Instinct ar putea fi suficient de bună pentru a smulge o parte semnificativă a pieței acceleratoarelor AI de la NVIDIA.