Cum să blocați crawlerele OpenAI de la răzuirea site-ului dvs

Cum să blocați crawlerele OpenAI de la răzuirea site-ului dvs
Cititorii ca tine ajută la sprijinirea MUO. Când efectuați o achiziție folosind link-uri de pe site-ul nostru, este posibil să câștigăm un comision de afiliat. Citeşte mai mult.

În timp ce utilizatorii iubesc ChatGPT pentru cantitatea mare de informații pe care o deține în prezent, nu același lucru se poate spune despre proprietarii de site-uri web.





MUO Videoclipul zilei Derulați PENTRU A CONTINUA CU CONȚINUT

ChatGPT de la OpenAI folosește crawler-uri pentru a răzui site-uri web, dar dacă sunteți proprietarul unui site web și nu doriți ca crawler-ul OpenAI să vă acceseze site-ul web, iată câteva lucruri pe care le puteți face pentru a preveni acest lucru.





Cum funcționează crawlingul OpenAI?

A crawler web (cunoscut și sub denumirea de spider sau robot de căutare) este un program automat care scanează internetul pentru informații. Apoi, compilează acele informații într-un mod care este ușor de accesat pentru motorul dvs. de căutare.





Crawlerele web indexează fiecare pagină a fiecărei adrese URL relevante, concentrându-se de obicei pe site-urile web care sunt mai relevante pentru interogările dvs. de căutare. De exemplu, să presupunem că căutați pe Google o anumită eroare Windows. Crawler-ul web din motorul dvs. de căutare va scana toate adresele URL de pe site-urile web pe care le consideră mai autorizate pe tema erorilor Windows.

cum se descarcă pensule pentru a procrea

Crawler-ul web al OpenAI se numește GPTBot și, conform documentația OpenAI , oferirea accesului GPTBot la site-ul dvs. web poate ajuta la antrenarea modelului AI pentru a deveni mai sigur și mai precis și poate ajuta chiar la extinderea capabilităților modelului AI.



Cum să împiedicați OpenAI să vă acceseze cu crawlere site-ul web

La fel ca majoritatea altor crawler-uri web, GPTBot poate fi blocat de la accesarea site-ului dvs. web prin modificarea site-ului robots.txt protocol (cunoscut și ca protocol de excludere a roboților). Acest fișier .txt este găzduit pe serverul site-ului web și controlează modul în care crawlerele web și alte programe automate se comportă pe site-ul dvs. web.

Iată o scurtă listă cu ceea ce robot.txt fisierul poate face:





poți naviga pe internet pe roku
  • Poate bloca complet accesul GPTBot pe site-ul web.
  • Poate bloca accesarea de către GPTBot numai a anumitor pagini dintr-o adresă URL.
  • Îi poate spune GPTBot ce link-uri poate urma și pe care nu.

Iată cum să controlezi ce poate face GPTBot pe site-ul tău web:

Blocați complet accesul GPTBot pe site-ul dvs. web

  1. Configurați fișierul robot.txt , apoi editați-l cu orice instrument de editare a textului.
  2. Adăugați GPTBot pe site-ul dvs robots.txt după cum urmează:
 User-agent: GPTBot 
Disallow: /

Blocați accesul numai la anumite pagini de către GPTBot

  1. Configurați robot.txt fișier, apoi editați-l cu instrumentul dvs. de editare de text preferat.
  2. Adăugați GPTBot pe site-ul dvs robots.txt după cum urmează:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Cu toate acestea, rețineți că schimbarea robot.txt fișierul nu este o soluție retroactivă și orice informație pe care GPTBot le-a adunat deja de pe site-ul dvs. web nu va putea fi recuperată.





OpenAI permite proprietarilor de site-uri web să renunțe la accesarea cu crawlere

De când crawlerele au fost folosite pentru a antrena modele AI, proprietarii de site-uri web au căutat modalități de a-și păstra datele private.

Unii se tem că modelele AI le fură, practic, munca, atribuind chiar mai puține vizite pe site-uri web, faptului că acum utilizatorii își obțin informațiile fără a fi nevoiți să-și viziteze site-urile web.

Una peste alta, dacă doriți să blocați complet chatboții AI de la scanarea site-urilor dvs. este alegerea completă a dvs.

se pot conecta căștile Bluetooth la Xbox