GPTBot probabil nu este ceea ce crezi.

Recomandări cheie

  • GPTBot de la OpenAI este un crawler web conceput pentru a colecta date de pe site-uri web publice, care este apoi folosit pentru a antrena și îmbunătăți modele AI precum GPT-4 și ChatGPT.
  • Unele dintre cele mai mari site-uri web de pe internet blochează GPTBot deoarece accesează și utilizează conținut protejat prin drepturi de autor fără permisiunea sau compensarea creatorilor.
  • În timp ce site-urile web pot folosi instrumente precum robots.txt pentru a încerca să blocheze GPTBot, nu există garanții că OpenAI se va conforma, oferindu-le control asupra accesării datelor protejate prin drepturi de autor.

În august 2023, OpenAI, puterea de inteligență artificială creditată cu dezvoltarea ChatGPT, a anunțat GPTBot, un crawler web conceput pentru a traversa web și a colecta date.

La scurt timp după acest anunț, unele dintre cele mai mari site-uri web de pe internet au blocat accesul botului pe site-ul lor. Dar de ce? Ce este GPTBot al OpenAI? De ce se tem marile site-uri web și de ce încearcă să o blocheze?

Ce este GPTBot al OpenAI?

GPTBot este un crawler web creat de OpenAI pentru a căuta pe internet și a aduna informații pentru obiectivele de dezvoltare AI ale OpenAI. Este programat să acceseze cu crawlere site-urile web publice și să trimită datele înapoi către serverele OpenAI. OpenAI folosește apoi aceste date pentru a-și antrena și îmbunătăți modelele AI, cu scopul de a construi sisteme de inteligență artificială din ce în ce mai avansate. Pentru a construi modele AI sofisticate precum GPT-4 sau produsele sale secundare precum ChatGPT, crawlerele web sunt aproape indispensabile.

Antrenarea unui model AI necesită o cantitate enormă de date, iar una dintre cele mai eficiente modalități de a colecta aceste date este prin implementarea unor instrumente precum crawlerele web. Crawlerele pot naviga sistematic pe web, pot urma linkuri pentru a indexa volume mari de pagini web și pot extrage date cheie precum text, imagini și metadate care se potrivesc cu un model predefinit.

Aceste date pot fi apoi structurate și introduse în modele AI pentru a-și antrena abilitățile de procesare a limbajului natural sau abilitățile de generare de imagini sau pentru a le antrena pentru alte sarcini AI. Cu alte cuvinte, crawlerele web adună datele care fac posibil ca instrumente precum ChatGPT sau DALL-E să facă ceea ce fac.

Crawlerele web nu sunt un concept nou. Probabil că există milioane de ei care accesează cu crawlere miliardele de site-uri web disponibile astăzi pe internet. Și există cel puțin de la începutul anilor 90. GPTBot este doar unul dintre astfel de crawler-uri deținute de OpenAI. Deci, ce provoacă controversa în jurul acestui crawler web specific?

De ce site-urile tehnologice mari blochează GPTBot?

Conform Business Insider, unele dintre cele mai mari site-uri web de pe internet blochează în mod activ crawler-ul OpenAI pe site-ul lor. Deci, dacă scopul final al GPTBot este de a avansa dezvoltarea AI, de ce unele dintre cele mai mari site-uri de pe internet, dintre care unele au beneficiat într-un fel sau altul de AI, sunt împotriva lui?

Ei bine, iată chestia. De la renașterea din 2022 a tehnologiilor AI generative, au existat numeroase dezbateri cu privire la dreptul companiilor AI de a utilizați, aproape fără limite, date provenite de pe internet, dintre care o parte semnificativă este protejată legal de drepturi de autor. Nu există legi clare care reglementează modul în care aceste companii colectează și utilizează datele în propriul câștig.

Deci, practic, crawlerele precum GPTBot accesează cu crawlere web, captează munca creativă a oamenilor sub formă de text, imagini sau alte forme de media și să-l folosească în scopuri comerciale fără a obține vreo permisiune, licență sau despăgubire față de originalul creatori.

Este un vest sălbatic acolo, iar companiile de inteligență artificială iau tot ce pot pune mâna. Site-uri web mari precum Quora, CNN, New York Times, Business Insider și Amazon nu sunt foarte mulțumiți de faptul că Conținutul protejat prin drepturi de autor este recoltat de aceste crawler-uri, astfel încât OpenAI poate obține beneficii financiare de pe urma acestuia cheltuiala.

De aceea, aceste site-uri implementează „robots.txt”, o metodă veche de zeci de ani de a bloca crawlerele web. Conform OpenAI, GPTBot va respecta instrucțiunile de accesare cu crawlere sau de a evita accesarea cu crawlere a site-urilor web pe baza regulilor încorporate în robots.txt, un fișier text mic care le spune crawlerilor web cum să se comporte pe un site. Dacă aveți un site propriu și v-ar plăcea să opriți GPTBot să vă preia datele, iată cum puteți blocați crawlerele OpenAI de la răzuirea site-ului dvs.

Pot site-urile web să oprească cu adevărat GPTBot?

În timp ce crawlerele precum GPTBot sunt indispensabile pentru colectarea cantităților masive de date necesare antrenează sisteme AI avansate, există preocupări valabile în legătură cu drepturile de autor și utilizarea corectă care nu pot fi ignorat.

Sigur, există instrumente simple, cum ar fi robots.txt, care pot fi folosite pentru a se proteja împotriva acestui lucru, dar dacă GPTBot respectă instrucțiunile din acest fișier este în întregime la discreția OpenAI. Nu există garanții că vor face acest lucru și nu există o modalitate imediată de a spune dacă au făcut acest lucru. În lupta pentru a ține GPTBot departe de datele protejate prin drepturi de autor, OpenAI deține așii, cel puțin pentru moment.