GPU-urile Nvidia au parcurs un drum lung, nu doar în ceea ce privește performanța jocurilor, ci și în alte aplicații, în special inteligența artificială și învățarea automată. Cei doi factori principali responsabili pentru performanța GPU-ului Nvidia sunt nucleele CUDA și Tensor prezente pe aproape fiecare GPU Nvidia modern pe care îl puteți cumpăra.
Dar ce fac exact aceste nuclee și, dacă ambele sunt folosite în aplicații de inteligență artificială și de învățare automată, cu ce sunt diferite?
Ce sunt nucleele CUDA și pentru ce sunt folosite?
CUDA înseamnă Compute Unified Device Architecture, care nu face prea mult pentru a explica prezența lor într-un GPU. Aceste nuclee au fost introduse în gama Nvidia GPU în arhitectura Maxwell din 2014 și sunt specializate în procesarea paralelă.
Ele sunt destul de asemănătoare cu nucleele CPU în ceea ce privește funcționarea lor, dar sunt mai bune la manipularea anumitor sarcini, inclusiv hashuri criptografice, motoare fizice, proiecte legate de știința datelor și chiar jocuri dezvoltare.
În timp ce am acoperit deja modul în care nucleele CUDA afectează performanța de joc a computerului dvs, sunt la fel de utile în a scăpa numerele. În timp ce chiar și cele mai puternice procesoare au nuclee în două cifre, GPU-urile Nvidia vin cu câteva mii de nuclee CUDA, făcându-le mult mai rapide la sarcini numerice. În plus, deoarece fac aceste calcule în paralel, obțineți viteze mult mai mari cu nucleele CUDA.
Miezurile CUDA sunt mai rapide decât nucleele CPU obișnuite atunci când vine vorba de calcularea numerelor, dar încă nu sunt soluția ideală. Asta pentru că nu au fost niciodată destinate să fie folosite în acest mod. Nucleele CUDA au fost create special pentru procesarea grafică și pentru a face GPU-urile Nvidia mai capabile în performanța jocurilor.
Ce sunt nucleele tensorilor și pentru ce sunt folosite?
Pe măsură ce GPU-urile au început să fie folosite pentru sarcinile de lucru cu inteligență artificială și învățare automată, Nvidia a introdus nuclee Tensor în arhitectura Volta pentru GPU-urile centrelor de date începând cu 2017.
Cu toate acestea, a durat până la arhitectura Nvidia Turing (RTX 20-Series GPU) pentru ca aceste nuclee să vină pe GPU-urile de consum. Tine minte că, în timp ce plăcile GTX 16-Series se bazează, de asemenea, pe arhitectura Turing, ele nu includ niciun ray tracing sau Tensor. miezuri.
În timp ce nucleele CUDA au fost adecvate în cel mai bun caz pentru sarcinile de lucru computaționale, nucleele Tensor au crescut avantajul fiind semnificativ mai rapide. În timp ce nucleele CUDA pot efectua doar o operațiune pe ciclu de ceas, nucleele Tensor pot gestiona mai multe operațiuni, oferindu-le o creștere incredibilă a performanței. În mod fundamental, toate nucleele Tensor fac este să mărească viteza de multiplicare a matricei.
Această creștere a vitezei de calcul vine cu prețul preciziei, nucleele CUDA fiind semnificativ mai precise. Acestea fiind spuse, atunci când vine vorba de antrenarea modelelor de învățare automată, nucleele Tensor sunt mult mai eficiente în ceea ce privește viteza de calcul și costul total; prin urmare, pierderea de precizie este adesea neglijată.
Cum afectează nucleele Tensor și CUDA performanța GPU?
După cum probabil puteți ghici până acum, în timp ce nucleele CUDA și Tensor pot gestiona aceleași sarcini de lucru, ambele sunt nuclee specializate pentru randarea grafică și, respectiv, sarcinile numerice.
Aceasta înseamnă că, în funcție de utilizatorul către care este vizat un anumit GPU, acesta va avea un număr diferit de nuclee. De exemplu, dacă luăm în considerare RTX 4090, cel mai recent și mai bun GPU pentru gaming al Nvidia, veți obține mult mai multe nuclee CUDA decât nuclee Tensor. De la 16.384 de nuclee CUDA la 512 de nuclee Tensor, mai exact.
În comparație, GPU-ul Nvidia L40 pentru centre de date, bazat pe aceeași arhitectură Ada Lovelace ca și RTX 4090, are 18.176 de nuclee CUDA și 568 de nuclee Tensor. Aceasta ar putea să nu pară o diferență atât de mare, dar poate afecta masiv performanța acestor GPU-uri.
În ceea ce privește performanța teoretică, L40 are 90,52 TFlops de performanță FP16 și FP32, precum și 1.414 GFlops de performanță FP64. Acesta este o creștere masivă a performanței în comparație cu 82,58 TFlops de performanță FP16 și FP32 ale RTX 4090 și 1.290 GFlops de performanță FP64.
Cu excepția cazului în care sunteți familiarizat cu numerele de performanță numerică GPU, cifrele de performanță în virgulă mobilă GPU Nvidia de mai sus ar putea să nu însemne mare lucru pentru dvs. Cu toate acestea, pe scurt, ei arată că L40 este mult mai rapid decât RTX 4090 când vine vorba de calcule numerice - cele necesare pentru inteligența artificială și sarcinile de lucru bazate pe învățarea automată.
Îmbunătățirea performanței devine cu atât mai impresionantă când luați în considerare consumul de energie al celor două GPU-uri. RTX 4090 are un TGP evaluat (a nu fi confundat cu TDP, există o mică diferență) de 450 W, în timp ce L40 este evaluat pentru doar 300 W.
Ambele GPU-uri vor rula jocuri și vor antrena modelul dvs. de învățare automată foarte bine. Cu toate acestea, RTX 4090 va fi mai bun la rularea jocurilor, iar L40 va fi mai bun la antrenarea modelelor de învățare automată.
Cores CUDA vs. Miezuri tensoare: care este mai important?
Ambele nuclee sunt la fel de importante, indiferent dacă vă cumpărați GPU-ul pentru jocuri sau îl puneți într-un rack de centru de date. GPU-urile Nvidia pentru jocuri orientate către consumatori folosesc o mulțime de funcții AI (în special DLSS), iar nucleele Tensor la bord pot fi util.
În ceea ce privește GPU-urile centrelor de date, nucleele CUDA și Tensor funcționează oricum în tandem de cele mai multe ori, așa că le veți obține pe ambele indiferent de GPU-ul pe care îl alegeți. În loc să vă concentrați pe un anumit tip de nucleu din GPU-ul dvs., ar trebui să vă concentrați mai mult pe ceea ce face placa grafică în ansamblu și pe tipul de utilizator căruia îi este destinată.
Nucleele CUDA sunt specializate în gestionarea sarcinilor de lucru grafice, în timp ce nucleele Tensor sunt mai bune la cele numerice. Ele lucrează împreună și sunt interschimbabile într-o oarecare măsură, dar se ocupă de propriile specializări, motiv pentru care există în primul rând.
Diferite GPU-uri sunt specializate în diferite aspecte. RTX 4090 va zdrobi cu ușurință orice joc pe care îl aruncați, în timp ce RTX 4060 poate gestiona doar jocurile 1080p. Dacă nu joci folosind GPU-ul și ai nevoie de el doar pentru a calcula numere sau pentru a antrena rețele neuronale, un GPU pentru centru de date din seria A, cum ar fi A100 sau chiar L40, este cel mai bun pariu.
Nucleele dvs. GPU contează
Mai multe nuclee GPU vă vor oferi performanțe generale mai bune, deoarece GPU-ul dvs. va fi mai versatil și va avea resurse dedicate pentru gestionarea diferitelor sarcini. Cu toate acestea, obținerea orbește a unui GPU cu cel mai mare număr de nuclee nu este cea mai bună decizie. Luați un moment pentru a analiza cu atenție cazul dvs. de utilizare, aruncați o privire asupra capacităților GPU-ului în ansamblu și apoi faceți alegerea.