Publicitate
daca tu rulați un site web 10 moduri de a crea un site web mic și simplu, fără exagerareWordPress poate fi exagerat. După cum dovedesc aceste alte servicii excelente, WordPress nu este totul și pune capăt creării de site-uri web. Dacă doriți soluții mai simple, există o varietate din care să alegeți. Citeste mai mult , probabil ați auzit despre un fișier robots.txt (sau „standardul de excludere a roboților”). Indiferent dacă ai sau nu, este timpul să înveți despre asta, deoarece acest fișier text simplu este o parte crucială a site-ului tău. Poate părea nesemnificativ, dar s-ar putea să fii surprins de cât de important este.
Să aruncăm o privire la ce este un fișier robots.txt, ce face acesta și cum să îl configurați corect pentru site-ul dvs.
Ce este un fișier robots.txt?
Pentru a înțelege cum funcționează un fișier robots.txt, trebuie să știți putin despre motoarele de cautare Cum funcționează motoarele de căutare?Pentru mulți oameni, Google ESTE internetul. Este probabil cea mai importantă invenție de la internetul însuși. Și în timp ce motoarele de căutare s-au schimbat mult de atunci, principiile de bază sunt încă aceleași. Citeste mai mult . Versiunea scurtă este că trimit „crawlere”, care sunt programe care caută informații pe internet. Apoi stochează o parte din aceste informații, astfel încât să poată direcționa oamenii către ele mai târziu.
Aceste crawler-uri, cunoscute și ca „boți” sau „păianjeni”, găsesc pagini de pe miliarde de site-uri web. Motoarele de căutare le oferă indicații despre unde să meargă, dar site-urile web individuale pot, de asemenea, să comunice cu roboții și să le spună ce pagini ar trebui să se uite.
De cele mai multe ori, ei fac de fapt opusul și le spun ce pagini au nu ar trebui se uita la. Lucruri precum pagini administrative, portaluri backend, pagini de categorii și etichete și alte lucruri pe care proprietarii de site-uri nu doresc să fie afișate pe motoarele de căutare. Aceste pagini sunt încă vizibile pentru utilizatori și sunt accesibile oricui are permisiunea (care este adesea tuturor).
Dar spunându-le acelor păianjeni să nu indexeze unele pagini, fișierul robots.txt face o favoare tuturor. Dacă ați căutat „MakeUseOf” pe un motor de căutare, ați dori ca paginile noastre administrative să apară în top în clasament? Nu. Asta nu ar ajuta nimănui la nimic, așa că le spunem motoarelor de căutare să nu le afișeze. De asemenea, poate fi folosit pentru a împiedica motoarele de căutare să verifice pagini care ar putea să nu le ajute să clasifice site-ul dvs. în rezultatele căutării.
Pe scurt, robots.txt le spune crawlerilor web ce trebuie să facă.
Pot crawlerele să ignore robots.txt?
Crawlerele ignoră vreodată fișierele robots.txt? Da. De fapt, mulți crawler do ignora. În general, totuși, acele crawler-uri nu provin de la motoare de căutare reputate. Ei provin de la spammeri, colectori de e-mail și alte tipuri de roboti automati Cum să construiți un crawler web de bază pentru a extrage informații de pe un site webAți dorit vreodată să capturați informații de pe un site web? Iată cum să scrieți un crawler pentru a naviga pe un site web și a extrage ceea ce aveți nevoie. Citeste mai mult care umblă pe internet. Este important să țineți cont de acest lucru - utilizarea standardului de excludere a roboților pentru a le spune roboților să țină departe nu este o măsură de securitate eficientă. De fapt, unii roboți ar putea start cu paginile la care le spui să nu meargă.
Motoarele de căutare, totuși, vor face așa cum spune fișierul robots.txt, atâta timp cât este formatat corect.
Cum se scrie un fișier robots.txt
Există câteva părți diferite care intră într-un fișier standard de excludere a robotului. Le voi descompune aici pe fiecare individual.
Declarație agent utilizator
Înainte de a spune unui bot ce pagini nu ar trebui să se uite, trebuie să specificați cu ce bot vorbiți. De cele mai multe ori, veți folosi o declarație simplă care înseamnă „toți roboții”. Arata cam asa:
Agent utilizator: *
Asteriscul reprezintă „toți roboții”. Puteți, totuși, să specificați pagini pentru anumiți roboți. Pentru a face acest lucru, va trebui să cunoașteți numele botului pentru care stabiliți liniile directoare. Ar putea arăta așa:
Agent utilizator: Googlebot. [lista de pagini care nu trebuie accesate cu crawlere] Agent utilizator: Googlebot-Image/1.0. [lista de pagini care nu trebuie accesate cu crawlere] Agent utilizator: Bingbot. [lista de pagini care nu trebuie accesate cu crawlere]
Si asa mai departe. Dacă descoperiți un bot pe care nu doriți să vă acceseze site-ul cu crawlere, puteți specifica și asta.
Pentru a găsi numele agenților utilizator, accesați useragentstring.com [Nu mai este disponibil].
Interzicerea paginilor
Aceasta este partea principală a fișierului dvs. de excludere a roboților. Cu o simplă declarație, îi spui unui bot sau unui grup de roboți să nu acceseze cu crawlere anumite pagini. Sintaxa este ușoară. Iată cum ați interzice accesul la tot ce se află în directorul „admin” al site-ului dvs.:
Nu permiteți: /admin/
Această linie ar împiedica roboții să acceseze cu crawlere yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html și orice altceva care se încadrează în directorul admin.
Pentru a interzice o singură pagină, trebuie doar să o specificați în linia de respingere:
Nu permiteți: /public/exception.html
Acum pagina „excepție” nu va fi trasă, dar orice altceva din folderul „public” va fi.
Pentru a include mai multe directoare sau pagini, enumerați-le pe rândurile următoare:
Nu permiteți: /privat/ Nu permiteți: /admin/ Nu permiteți: /cgi-bin/ Nu permiteți: /temp/
Aceste patru linii se vor aplica oricărui agent de utilizator ați specificat în partea de sus a secțiunii.
Dacă doriți să împiedicați roboții să se uite la orice pagină de pe site-ul dvs., utilizați aceasta:
Nu permite: /
Stabilirea unor standarde diferite pentru roboți
După cum am văzut mai sus, puteți specifica anumite pagini pentru diferiți roboți. Combinând cele două elemente anterioare, iată cum arată:
Agent utilizator: googlebot. Nu permiteți: /admin/ Nu permite: /private/ Agent utilizator: bingbot. Nu permiteți: /admin/ Nu permiteți: /privat/ Nu permite: /secret/
Secțiunile „admin” și „privat” vor fi invizibile pe Google și Bing, dar Google va vedea directorul „secret”, în timp ce Bing nu va vedea.
Puteți specifica reguli generale pentru toți roboții utilizând agentul utilizator asterisc și apoi să dați instrucțiuni specifice roboților și în secțiunile ulterioare.
Punând totul laolaltă
Cu cunoștințele de mai sus, puteți scrie un fișier robots.txt complet. Doar porniți editorul de text preferat (noi suntem fanii lui Sublime 11 sfaturi sublime de text pentru productivitate și un flux de lucru mai rapidSublime Text este un editor de text versatil și un standard de aur pentru mulți programatori. Sfaturile noastre se concentrează pe codarea eficientă, dar utilizatorii generali vor aprecia comenzile rapide de la tastatură. Citeste mai mult aici) și începeți să anunțați roboții că nu sunt bineveniți în anumite părți ale site-ului dvs.
Dacă doriți să vedeți un exemplu de fișier robots.txt, mergeți la orice site și adăugați „/robots.txt” la sfârșit. Iată o parte din fișierul Giant Bicycles robots.txt:
După cum puteți vedea, există destul de multe pagini pe care nu doresc să apară în motoarele de căutare. Au inclus și câteva lucruri despre care nu am vorbit încă. Să aruncăm o privire la ce altceva puteți face în fișierul dvs. de excludere a roboților.
Localizarea sitemap-ului dvs
Dacă fișierul robots.txt le spune roboților unde nu a merge, ta Sitemap face opusul Cum să creezi un sitemap XML în 4 pași simpliExistă două tipuri de hărți de site - o pagină HTML sau un fișier XML. O hartă a site-ului HTML este o singură pagină care arată vizitatorilor toate paginile de pe un site web și, de obicei, are link-uri către acele... Citeste mai mult și îi ajută să găsească ceea ce caută. Și în timp ce motoarele de căutare probabil știu deja unde se află harta site-ului dvs., nu strica să le anunțați din nou.
Declarația pentru o locație pe harta site-ului este simplă:
Harta site-ului: [URL-ul hărții site-ului]
Asta e.
În propriul nostru fișier robots.txt, arată astfel:
Harta site-ului: //www.makeuseof.com/sitemap_index.xml
Cam despre asta e.
Setarea unei întârzieri de accesare cu crawlere
Directiva privind întârzierea accesului cu crawlere le spune anumitor motoare de căutare cât de des pot indexa o pagină de pe site-ul dvs. Se măsoară în secunde, deși unele motoare de căutare îl interpretează ușor diferit. Unii consideră că o întârziere de accesare cu crawlere de 5 le spune să aștepte cinci secunde după fiecare accesare cu crawlere pentru a iniția următoarea. Alții îl interpretează ca pe o instrucțiune de a accesa cu crawlere doar o pagină la fiecare cinci secunde.
De ce i-ai spune unui crawler să nu se târască cât mai mult posibil? La păstrează lățimea de bandă 4 moduri în care Windows 10 vă irosește lățimea de bandă de internetWindows 10 vă irosește lățimea de bandă de internet? Iată cum să verificați și ce puteți face pentru a o opri. Citeste mai mult . Dacă serverul dvs. se luptă să țină pasul cu traficul, este posibil să doriți să instituiți o întârziere a accesării cu crawlere. În general, majoritatea oamenilor nu trebuie să-și facă griji pentru acest lucru. Site-urile mari cu trafic ridicat, totuși, ar putea dori să experimenteze puțin.
Iată cum setați o întârziere de accesare cu crawlere de opt secunde:
Întârziere crawler: 8
Asta e. Nu toate motoarele de căutare vor respecta directiva dumneavoastră. Dar nu strică să întrebi. Ca și în cazul interzicerii paginilor, puteți seta diferite întârzieri de accesare cu crawlere pentru anumite motoare de căutare.
Încărcarea fișierului dvs. robots.txt
După ce aveți toate instrucțiunile din fișierul dvs. configurate, îl puteți încărca pe site-ul dvs. Asigurați-vă că este un fișier text simplu și are numele robots.txt. Apoi încărcați-l pe site-ul dvs., astfel încât să poată fi găsit la yoursite.com/robots.txt.
Dacă utilizați un sistem de management al conținutului 10 cele mai populare sisteme de management de conținut onlineZilele paginilor HTML codificate manual și stăpânirea CSS-ului au trecut de mult. Instalați un sistem de management al conținutului (CMS) și în câteva minute puteți avea un site web pe care să îl partajați cu toată lumea. Citeste mai mult precum WordPress, probabil că există o modalitate specifică în care va trebui să procedați în acest sens. Deoarece diferă în fiecare sistem de gestionare a conținutului, va trebui să consultați documentația pentru sistemul dvs.
Unele sisteme pot avea, de asemenea, interfețe online pentru încărcarea fișierului. Pentru acestea, doar copiați și lipiți fișierul pe care l-ați creat în pașii anteriori.
Nu uitați să vă actualizați fișierul
Ultimul sfat pe care îl voi da este să vă uitați ocazional peste fișierul dvs. de excludere a robotului. Site-ul dvs. se modifică și poate fi necesar să faceți unele ajustări. Dacă observați o schimbare ciudată în traficul motorului dvs. de căutare, este o idee bună să verificați și fișierul. De asemenea, este posibil ca notația standard să se schimbe în viitor. Ca orice altceva de pe site-ul dvs., merită să verificați din când în când.
Din ce pagini excludeți crawlerele de pe site-ul dvs.? Ați observat vreo diferență în traficul motorului de căutare? Împărtășește-ți sfaturile și comentariile mai jos!
Dann este un consultant de strategie de conținut și marketing care ajută companiile să genereze cerere și clienți potențiali. De asemenea, scrie pe blog despre strategie și marketing de conținut la dannalbright.com.