Cu ajutorul acestui ghid, împiedicați site-ul dvs. să fie răzuit de crawlerele OpenAI.

În timp ce utilizatorii iubesc ChatGPT pentru cantitatea mare de informații pe care o deține în prezent, nu același lucru se poate spune despre proprietarii de site-uri web.

ChatGPT de la OpenAI folosește crawler-uri pentru a răzui site-uri web, dar dacă sunteți proprietarul unui site și nu doriți ca crawler-ul OpenAI să vă acceseze site-ul web, iată câteva lucruri pe care le puteți face pentru a preveni acest lucru.

Cum funcționează crawlingul OpenAI?

A crawler web (cunoscut și sub denumirea de spider sau robot de căutare) este un program automat care scanează internetul pentru informații. Apoi, compilează acele informații într-un mod care este ușor de accesat pentru motorul dvs. de căutare.

Crawlerele web indexează fiecare pagină a fiecărei adrese URL relevante, concentrându-se de obicei pe site-urile web care sunt mai relevante pentru interogările dvs. de căutare. De exemplu, să presupunem că căutați pe Google o anumită eroare Windows. Crawler-ul web din motorul dvs. de căutare va scana toate adresele URL de pe site-urile web pe care le consideră mai autorizate pe tema erorilor Windows.

instagram viewer

Crawler-ul web al OpenAI se numește GPTBot și, conform documentația OpenAI, oferind acces GPBot la site-ul dvs. web poate ajuta modelul AI să devină mai sigur și mai precis și poate ajuta chiar la extinderea capacităților modelului AI.

Cum să împiedicați OpenAI să vă acceseze cu crawlere site-ul web

La fel ca majoritatea altor crawler-uri web, GPTBot poate fi blocat de la accesarea site-ului dvs. web prin modificarea site-ului robots.txt protocol (cunoscut și ca protocol de excludere a roboților). Acest fișier .txt este găzduit pe serverul site-ului web și controlează modul în care crawlerele web și alte programe automate se comportă pe site-ul dvs. web.

Iată o scurtă listă cu ceea ce robot.txt fisierul poate face:

  • Poate bloca complet accesul GPTBot pe site-ul web.
  • Poate bloca accesarea de către GPTBot numai a anumitor pagini dintr-o adresă URL.
  • Îi poate spune GPTBot ce link-uri poate urma și pe care nu.

Iată cum să controlezi ce poate face GPTBot pe site-ul tău web:

Blocați complet accesul GPTBot pe site-ul dvs. web

  1. Configurați fișierul robot.txt, apoi editați-l cu orice instrument de editare a textului.
  2. Adăugați GPTBot pe site-ul dvs robots.txt după cum urmează:
User-agent: GPTBot
Disallow: /

Blocați accesul numai la anumite pagini de către GPTBot

  1. Configurați robot.txt fișier, apoi editați-l cu instrumentul dvs. de editare de text preferat.
  2. Adăugați GPTBot pe site-ul dvs robots.txt după cum urmează:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Cu toate acestea, rețineți că schimbarea robot.txt fișierul nu este o soluție retroactivă și orice informație pe care GPTBot le-a adunat deja de pe site-ul dvs. web nu va putea fi recuperată.

OpenAI permite proprietarilor de site-uri web să renunțe la accesarea cu crawlere

De când crawlerele au fost folosite pentru a antrena modele AI, proprietarii de site-uri web au căutat modalități de a-și păstra datele private.

Unii se tem că modelele AI le fură, practic, munca, atribuind chiar mai puține vizite pe site-uri web, faptului că acum utilizatorii își obțin informațiile fără a fi nevoiți să-și viziteze site-urile web.

Una peste alta, dacă doriți să blocați complet chatboții AI de la scanarea site-urilor dvs. este alegerea completă a dvs.