Sunteți îngrijorat de faptul că chatbot-ii AI vă vor răzui site-ul pentru conținut? Din fericire, îi puteți bloca să facă acest lucru. Iată cum.
Așa cum stau lucrurile, chatbot-ii AI au o licență gratuită pentru a vă răzui site-ul și a utiliza conținutul acestuia fără permisiunea dvs. Vă îngrijorează că conținutul dvs. este răzuit de astfel de instrumente?
Vestea bună este că puteți opri instrumentele AI să vă acceseze site-ul web, dar există câteva avertismente. Aici, vă arătăm cum să blocați roboții folosind fișierul robots.txt pentru site-ul dvs. web, plus avantajele și dezavantajele acestui lucru.
Cum accesează AI Chatbots conținutul dvs. web?
Chatbot-ii AI sunt antrenați folosind mai multe seturi de date, dintre care unele sunt open-source și disponibile public. De exemplu, GPT3 a fost antrenat folosind cinci seturi de date, conform o lucrare de cercetare publicată de OpenAI:
- Common Crawl (60% greutate la antrenament)
- WebText2 (22% greutate la antrenament)
- Books1 (8% greutate la antrenament)
- Books2 (8% greutate la antrenament)
- Wikipedia (3% greutate la antrenament)
Common Crawl include petaocteți (mii de TB) de date de pe site-uri web colectate începând cu 2008, în mod similar modului în care algoritmul de căutare Google accesează cu crawlere conținutul web. WebText2 este un set de date creat de OpenAI, care conține aproximativ 45 de milioane de pagini web legate de postări Reddit cu cel puțin trei voturi pozitive.
Deci, în cazul ChatGPT, botul AI nu accesează și accesează cu crawlere paginile dvs. web direct – oricum nu încă. Deși, OpenAI anunțul unui browser web găzduit de ChatGPT și-a exprimat îngrijorarea că acest lucru ar putea fi pe cale să se schimbe.
Între timp, proprietarii de site-uri ar trebui să țină cont de alți chatbot AI, deoarece mai mulți dintre ei ajung pe piață. Bard este celălalt nume mare în domeniu și despre care se cunosc foarte puține lucruri seturile de date fiind folosite pentru a-l antrena. Evident, știm că roboții de căutare Google accesează constant paginile web, dar asta nu înseamnă neapărat că Bard are acces la aceleași date.
De ce sunt îngrijorați unii proprietari de site-uri web?
Cea mai mare îngrijorare pentru proprietarii de site-uri web este că roboții AI precum ChatGPT, Bard și Bing Chat își devalorizează conținutul. Boții AI folosesc conținutul existent pentru a-și genera răspunsurile, dar reduc și nevoia utilizatorilor de a accesa sursa originală. În loc ca utilizatorii să viziteze site-uri web pentru a accesa informații, aceștia pot pur și simplu să solicite Google sau Bing să genereze un rezumat al informațiilor de care au nevoie.
Când vine vorba de chatbot-uri AI în căutare, marea preocupare pentru proprietarii de site-uri web este pierderea traficului. În cazul lui Bard, botul AI rareori include citări în răspunsurile sale generative, spunând utilizatorilor din ce pagini își primește informațiile.
Așadar, în afară de înlocuirea vizitelor site-ului web cu răspunsuri AI, Bard elimină aproape orice șansă ca site-ul sursă să primească trafic, chiar dacă utilizatorul dorește mai multe informații. Bing Chat, pe de altă parte, face mai frecvent link-uri către surse de informații.
Cu alte cuvinte, flota actuală de instrumente AI generative sunt folosind munca creatorilor de conținut pentru a înlocui sistematic nevoia de creatori de conținut. Până la urmă, trebuie să întrebi ce stimulent le lasă proprietarilor de site-uri web pentru a continua publicarea conținutului. Și, prin extensie, ce se întâmplă cu roboții AI când site-urile web încetează să publice conținutul pe care se bazează pentru a funcționa?
Cum să blocați boții AI de pe site-ul dvs
Dacă nu doriți ca roboții AI să vă folosească conținutul web, îi puteți bloca să acceseze site-ul dvs. folosind robots.txt fişier. Din păcate, trebuie să blocați fiecare bot individual și să-i specificați după nume.
De exemplu, botul lui Common Crawl se numește CCBot și îl puteți bloca adăugând următorul cod în fișierul robots.txt:
Agent utilizator: CCBot
Nu permite: /
Acest lucru va împiedica Common Crawl să acceseze cu crawlere site-ul dvs. în viitor, dar nu va elimina datele deja colectate din accesările anterioare.
Dacă ești îngrijorat de noile pluginuri ChatGPT care vă accesează conținutul web, OpenAI a publicat deja instrucțiuni pentru blocarea botului său. În acest caz, botul ChatGPT se numește ChatGPT-User și îl puteți bloca adăugând următorul cod în fișierul robots.txt:
Agent utilizator: ChatGPT-Utilizator
Nu permite: /
Blocarea roboților AI din motoarele de căutare de la accesarea cu crawlere a conținutului este totuși o cu totul altă problemă. Deoarece Google este foarte secret în ceea ce privește datele de antrenament pe care le folosește, este imposibil să identifici ce roboți va trebui să blocați și dacă vor respecta chiar comenzile din dvs. robots.txt fișier (multe crawler-uri nu).
Cât de eficientă este această metodă?
Blocarea roboților AI în dvs robots.txt fișierul este cea mai eficientă metodă disponibilă în prezent, dar nu este deosebit de fiabilă.
Prima problemă este că trebuie să specificați fiecare bot pe care doriți să îl blocați, dar cine poate urmări fiecare bot AI care ajunge pe piață? Următoarea problemă este că comenzile din dvs robots.txt dosarul sunt instrucțiuni neobligatorii. În timp ce Common Crawl, ChatGPT și mulți alți roboți respectă aceste comenzi, mulți roboți nu le respectă.
Cealaltă avertizare mare este că puteți bloca numai roboții AI să efectueze accesări cu crawlere viitoare. Nu puteți elimina date din accesările cu crawlere anterioare sau nu puteți trimite cereri către companii precum OpenAI pentru a vă șterge toate datele.
Din păcate, nu există o modalitate simplă de a bloca accesul tuturor roboților AI la site-ul dvs., iar blocarea manuală a fiecărui bot individual este aproape imposibilă. Chiar dacă țineți pasul cu cei mai recenti roboți AI care roaming pe web, nu există nicio garanție că vor respecta toate comenzile din dvs. robots.txt fişier.
Adevărata întrebare aici este dacă rezultatele merită efortul, iar răspunsul scurt este (aproape sigur) nu.
Există și dezavantaje potențiale la blocarea roboților AI de pe site-ul dvs. web. Mai presus de toate, nu veți putea colecta date semnificative pentru a demonstra dacă instrumente precum Bard beneficiază sau dăunează strategiei dvs. de marketing în căutare.
Da, puteți presupune că lipsa citărilor este dăunătoare, dar ghiciți doar dacă vă lipsesc datele, deoarece ați blocat accesul roboților AI la conținutul dvs. A fost o poveste similară când Google a introdus prima dată fragmente prezentate a căuta.
Pentru interogări relevante, Google afișează un fragment de conținut din paginile web pe pagina de rezultate, răspunzând la întrebarea utilizatorului. Aceasta înseamnă că utilizatorii nu trebuie să facă clic pe un site web pentru a obține răspunsul pe care îl caută. Acest lucru a provocat panică în rândul proprietarilor de site-uri web și al experților SEO care se bazează pe generarea de trafic din interogările de căutare.
Cu toate acestea, genul de interogări care declanșează fragmente recomandate sunt, în general, căutări cu valoare redusă, cum ar fi „ce este X” sau „cum este vremea în New York”. Oricine dorește informații amănunțite sau un raport meteo cuprinzător va face totuși clic, iar cei care nu au fost niciodată atât de valoroși în primul rând.
S-ar putea să găsiți că este o poveste similară cu instrumente AI generative, dar veți avea nevoie de date pentru a dovedi acest lucru.
Nu te grăbi cu nimic
Proprietarii de site-uri web și editorii sunt, în mod clar, preocupați de tehnologia AI și frustrați de ideea ca roboții să-și folosească conținutul pentru a genera răspunsuri instantanee. Cu toate acestea, nu este momentul să ne grăbim în mișcări contraofensive. Tehnologia AI este un domeniu în mișcare rapidă, iar lucrurile vor continua să evolueze într-un ritm rapid. Profitați de această ocazie pentru a vedea cum se desfășoară lucrurile și pentru a analiza potențialele amenințări și oportunități pe care AI le aduce la masă.
Sistemul actual de a se baza pe munca creatorilor de conținut pentru a-i înlocui nu este durabil. Indiferent dacă companii precum Google și OpenAI își schimbă abordarea sau guvernele introduc noi reglementări, ceva trebuie să dea. În același timp, implicațiile negative ale chatbot-urilor AI asupra creării de conținut devin din ce în ce mai evidente, pe care proprietarii de site-uri web și creatorii de conținut le pot folosi în avantajul lor.