Cu câteva luni în urmă, dacă doreai să creezi o imagine a ceva, trebuia să poți să schițezi, să pictezi sau să folosești unul dintre instrumentele de photoshop despre care alții vorbesc în continuare. După 2022, totuși, totul s-a schimbat, totul datorită inteligenței artificiale – da, la fel ca în „inteligența artificială”.
În loc să încerce să domine lumea, instrumentele AI înclinate artistic pot transforma orice le descrii într-o imagine.
Vino cu noi când intrăm în lumea vizualizării textului bazat pe inteligență artificială și vezi cum poți folosi astfel de instrumente pentru a-ți transforma gândurile în imagini reale, doar tastând ceea ce ai în minte.
Dall-E: Partea artistică a GPT-3 de la OpenAI
Primele instrumente bazate pe inteligență artificială care au devenit populare s-au bazat pe GPT-3 de la OpenAI. Unul dintre motive a fost deschiderea proiectului către acces extern, ceea ce a condus la unele sugestii care GPT-3 este viitorul muncii creative.
Astăzi puteți folosi instrumentele oficiale pe care le puteți găsi la
Site-ul beta al OpenAI sau soluții terțe care profită de superputerile sale lingvistice. De exemplu, puteți cere GPT-3 să creeze o schiță pentru o postare, să răspundă la întrebări simple sau chiar să revizuiască sau să traducă un text.În 2022, OpenAI a dezvăluit că GPT-3 era la fel de bun la crearea de imagini. Proiectul DALL-E, o piesă din filmul Pixar WALL-E și numele lui Dali, folosește GPT-3 nu pentru a lucra cu text, ci ca motor de creare a imaginilor.
La fel ca în cazul GPT-3 și al textului, DALL-E nu este cu adevărat un geniu creativ, care materializează imaginile din aer. În schimb, a fost „antrenat” pe milioane de imagini care există deja online. Puterile sale AI constă în analiza acelor imagini, luarea de elemente din ele, modificarea, transformarea, ajustarea și, în final, combinarea lor în imagini noi.
Cel puțin, aceasta este o versiune simplificată a ceea ce se întâmplă în fundal. Majoritatea oamenilor le va păsa doar de ceea ce văd în fața lor, și aceasta este o casetă de text în care poți scrie ceva și să-l vezi transformat într-o imagine după câteva minute.
Răspunsul Google Imagen
Google este unul dintre primii trei „jucători” în cercetarea AI. Cu toate acestea, progresul lor nu este ușor de perceput și nici implementările sale în produse nu sunt la fel de accesibile ca ofertele OpenAI.
Una dintre primele implementări disponibile pe scară largă ale Google AI a fost în Google Docs și Gmail, sub formă de completare automată și sugestii mai inteligente, cunoscute sub numele de Smart Compose. Nu ne vom scufunda în detalii, deoarece am tratat anterior Smart Compose (și cum o puteți folosi).
Când aceste funcții sunt active, aplicațiile web Google compară ceea ce tastează utilizatorul cu ceea ce milioane de alții au scris în trecut. Apoi, sugerează ce au tastat după aceea.
Este dovada că, în ciuda a ceea ce ne place să credem, nu suntem atât de diferiți. Dacă 99 din 100 de persoane scriu „mai târziu” după „ne vedem”, probabil că asta am scrie și noi.
Cu toții am folosit o formă de completare automată, chiar și de pe vremea era „dumbphone” sistemul de text predictiv T9. De aceea, instrumentele AI ale Google nu păreau la fel de inteligente ca GPT-3 de la OpenAI. Nu s-au simțit la fel de mult mai în uz decât un sistem T9 mai bun îmbunătățit pentru secolul 21. Și de aceea dezvăluirea lui Imagen a fost puțin șoc.
La fel ca un DALL-E pe steroizi, Imagen este un instrument de vizualizare a textului. Pe baza a ceea ce este disponibil astăzi, Imagen poate produce imagini mai „curate” și mai vii, știind, de asemenea, cum să facă față caracteristicilor avansate precum difuzia și transparența.
Din păcate, la momentul scrierii, accesul la Imagen rămâne restricționat, așa că nu l-am putut încerca.
DALL-E Mini și prietenii: deschis pentru afaceri
Nu puteți accesa liber DALL-E și Imagen — încă. Cu toate acestea, multe alternative sunt deja disponibile dacă doriți să proști cu generarea de imagini textuale bazată pe inteligență artificială.
Ținând cont de faptul că acestea sunt primele zile, iar rezultatele sau experiența utilizatorului pe care le oferă ar putea fi departe de a fi optime, merită totuși să verificați câteva dintre următoarele.
Crearea de meme cu Dall-E Mini
Datorită unei combinații de rezultate mai mult decât adecvate și unei interfețe ușor de utilizat, dar, mai important, disponibilității sale largi, DALL-E mini a devenit unul dintre cele mai populare vizualizatoare de text AI.
Departe de a fi perfecte, uneori rezultatele DALL-E mini ar putea fi mai abstracte decât s-au dorit.
Alteori s-ar putea să nu reușească să creeze ceea ce ai avut în minte, dar se poate apropia destul de mult.
După explozia sa în popularitate, creatorii lui DALL-E mini l-au mutat într-o casă nouă sub un nou brand. Acum puteți găsi cea mai recentă versiune a DALL-E mini ca creion pe propriul site.
Utilizarea Craiyon astăzi este la fel de ușor ca și căutarea online a unei imagini existente. Puteți să vizitați site-ul său, să introduceți o descriere a imaginii dvs. în câmpul său de text și să apăsați Enter. După un timp, veți vedea rezultatele pe ecran.
Ceea ce este izbitor este cât de bune sunt Craiyon și instrumente similare în a imita stilurile vizuale. De exemplu, i-am cerut să evoce imagini cu un cățeluș pe un skateboard:
Apoi, am folosit expresia exactă, dar am adăugat un „stil Pixar” după ea. După un timp, Craiyon a arătat o rețea de imagini mai „desenate”, mai aproape de ceea ce percepem ca fiind grafica cu ray-tracing a Pixar în filmele lor îndrăgite.
Craiyon ne-a dat rezultate și mai bune când am înlocuit „stil Pixar” cu „stil anime” în același prompt.
Animeul este mai stilizat în aspectul său decât imaginile mai realiste ale Pixar, ceea ce pare să fi ajutat Craiyon să producă niște imagini aproape gata de utilizare.
Prostie cu difuzie latentă
Modelul Latent Diffusion antrenat pe setul de date LAION-400M este un alt vizualizator de text AI interesant. Cu toate acestea, este și mai complicat în utilizarea sa. Trebuie să îl rulați online într-o mașină virtuală și să vă jucați cu diferiții săi parametri, în loc să introduceți doar un câmp de text. Totuși, este mai ușor decât pare.
- Viziteaza Spațiu de colaborare Google Latent Diffusion asta e casa ei in prezent.
- Derulați puțin în jos și observați Prompt câmp sub Parametrii. Înlocuiți promptul implicit cu ceea ce doriți să descrie imaginea dvs.
- Alege Run All de la Timp de rulare meniu sau apăsați CTRL + F9.
- Dacă doriți să puteți exporta imaginile produse direct din interiorul instrumentului, răspundeți pozitiv la întrebarea dacă doriți să le conectați la contul dvs. Google Drive. Instrumentul durează un timp pentru a-și finaliza configurarea și trebuie să descarce unele fișiere în timpul procesului.
Creșterea valorilor pentru Pași, Iterații, și Samples_in_parallel, poate duce la rezultate mai detaliate. Cu toate acestea, instrumentul este extrem de solicitant în resurse de pe serverele Google. Ca rezultat, se poate bloca dacă creșteți prea mult aceste valori sau procesul de creare a unei anumite imagini devine mai complicat decât se aștepta.
Alternative interesante
Am petrecut o cantitate semnificativă de timp testând DALL-E mini și Latent Diffusion. Metoda noastră științifică a constat din două părți distincte. În primul rând, a trebuit să venim cu concepte care ar putea fi descrise cu precizie ca nebunești. Apoi, cereți acelor vizualizatoare AI să le transforme în imagini. Mai des decât se aștepta, au reușit, apropiindu-se de configurația generală pe care ne-am imaginat-o.
De asemenea, am încercat câteva dintre alternativele disponibile pentru acest articol. Încă așteptăm accesul la alții. Unele dintre cele care merită verificate sunt (în nicio ordine anume):
- Mijlocul călătoriei
- MindsEye beta
- StarryAI
- Vis
- Difuzie Disco
Arta generată de inteligența artificială va înlocui artele vizuale?
Abundența și popularitatea în continuă creștere a instrumentelor bazate pe inteligență artificială care generează imagini îi fac pe mulți să concluzioneze că artele vizuale vor muri în curând. Ce rost are să investești timp și energie pentru a învăța cum să desenezi sau să folosești un software complicat pentru a vizualiza lucrurile atunci când o IA o poate face mai rapid (și în curând mai bine) decât tine?
Dacă ați observat, acele instrumente sunt toate „instruite pe seturi de date”. În engleză simplă, aceasta înseamnă că ei fac ceea ce fac datorită faptului că oamenii au făcut deja același lucru înainte.
Acesta este indiciu de ce aceste instrumente nu pot înlocui arta, creativitatea și ingeniozitatea umană. Sunt imitatori, replicatori inteligenți. Fără originalele produse de oameni pe care au fost instruiți, ei nu ar putea produce niciun rezultat.
Totuși, acesta este acum și admitem că nu știm ce ne rezervă viitorul. Deocamdată, artiștii vizuali pot dormi în siguranță. În ritmul în care AI evoluează, totuși, mulți specialiști pe această temă sunt de acord că nu este o chestiune dacă va înlocui vreodată munca unor oameni ca a ta cu adevărat. E doar o chestiune de când.
Dar, hei, nu este totul nenorocire. În timp ce Skynet se pregătește să ne ia slujbele, cel puțin ne putem înveseli starea de spirit creând fără efort imagini cu cățeluși pe skateboard-uri!