Cum să utilizați Robots txt pentru SEO

Ori de câte ori mergem să explorăm un loc nou, atunci avem nevoie de îndrumare pentru comoditate și pentru a economisi timp! În același mod în care roboți web de genul ăsta de orice motor de căutare folosește fișierul Robots.txt pentru a obține o idee despre modul în care să parcurgă paginile unui anumit site web.

Apropo, comportamentul unor astfel de crawlere de a se deplasa peste tot pe internet, accesează, indexează și servește conținutul către utilizatorii țintă sunt se bazează pe un grup de standarde web cunoscut sub numele de REP sau Robots exclusion protocol, care include și robots.txt.

Ce este Robots txt?

În într-un mod simplu, putem înțelege și ne putem aminti robots.txt ca fiind un amestec de doi termeni: Robot și Txt. Așadar, este un fișier txt sau text care este destinat să fie utilizat de către roboții web posibil cel al motoarelor de căutare.

De asemenea, poate ajuta webmasterii dacă site-ul web pentru a controla comportamentul de crawling al unui agent de utilizator, dar trebuie făcut cu atenție, deoarece nepermiterea unui agent important sau a tuturor pagini a site-ului dvs. de la un motor de căutare precum Google poate fi extrem de periculos.

Webmasterii unui site web pot folosi robots.txt pentru a instrui software-ul de căutare pe web sau agenții de utilizator să ce toate părțile pentru a târî și ce nu a site-ului. Acest lucru se poate face prin utilizarea instrucțiunilor "allow" sau "disallow" în fișierul robots.txt pentru unii sau toți agenții de utilizator de crawlere.

Ce este un fișier Robots txt?

Un motor de căutare este responsabil în principal de două sarcini principale pentru a-și face treaba. Prima este de a descoperi conținutul de pe web prin răscolirea peste tot și indexarea actualizărilor. Următoarea sarcină este de a căuta informații conexe în baza de date a motorului de căutare. indexat pentru a oferi conținutul potrivit în funcție de o interogare de căutare.

Deci, ce este Robots txt?

Motoarele de căutare urmăresc link-uri și să treci de la un site la altul, procesul este numit și "spidering". Ori de câte ori robotul sau crawlerul web ajunge pe un site web nou, atunci înainte de a începe să navigheze pe acesta, caută mai întâi fișierul robots.txt. Dacă găsește unul, atunci îl va citi pentru a obține informații despre cum să parcurgă site-ul web, în special ce să acceseze și ce nu! În cazul în care nu există un fișier robots.txt, utilizatorii-agenți pot începe să cerceteze celelalte informații disponibile pe site-ul web.

Ce ar trebui să fie într-un fișier Robots txt?

Fișierul trebuie să fie format din cel puțin următoarele două elemente;

User-agent: (Numele user-agent-ului)

Nu permite: (Șir de adrese URL care nu trebuie să fie accesate)

Împreună, cele două linii de mai sus pot fi considerate ca un set discret de directive user-agent și sunt separate de alte seturi cu ajutorul unei pauze de linie (/).

Dacă o singură regulă este specificată în fișier pentru mai mulți agenți-utilizatori, atunci crawlerul va citi și va urma mai întâi directivele care sunt menționate într-un grup separat de instrucțiuni.

Cum se accesează Robots txt?

Oricine se poate uita la conținutul fișierului robots.txt prezent pe un site web prin simpla utilizare a metodei browserului.

Cum să obțineți Robots txt?

Trebuie să adăugați robots.txt după fișierul principal URL ca https://demo.com/robots.txt sau subdomeniul acestuia, cum ar fi https://shop.demo.com/robots.txt.

Cum să găsiți txt Robots al unui site web?

Este obligatoriu ca fișierul robots.txt să fie disponibil după domeniul rădăcină. Așadar, puteți menționa același lucru în browser.

Cum să verificați Robot txt pentru site-ul web?

Dacă nu veți găsi nicio pagină .txt la ieșire, înseamnă că nu există nicio pagină robots.txt (activă) prezentă în prezent pe site-ul web.

Cum să găsiți fișierul Robots txt?

Ar trebui să existe fișiere robots.txt separate pentru domeniul rădăcină (demo.com/robots.txt) și pentru fiecare subdomeniu al acestuia(blog.demo.com/robots.txt).

Cum se citește Robots txt?

Toate instrucțiunile prezente în fișier trebuie să fie citite de sus în jos, fie de un om, fie de un robot software! Este posibil ca un robot sau un agent utilizator să nu citească fișierul robots.txt al unui site web. Acest lucru este posibil, de obicei, în cazul răzuitorilor de adrese de e-mail sau al roboților malware de tip crawlere nefaste.

Care este utilizarea de Robots txt?

Există multe avantaje ale utilizării robots.txt pe un site web. Cum ar fi;

- Pentru a cere motoare de căutare pentru a do să nu indexeze anumite fișiere, cum ar fi PDF-uri, imagini etc. de pe site-ul dvs. web. Directivele Meta pot fi folosite și ca alternativă la robots.txt pentru a evita indexarea paginilor, dar nu funcționează pentru fișierele resursă.

- Un webmaster poate asigura un crawling eficient al unui site web prin furnizarea de informații utile. sfaturi pentru roboții săi.

- Pentru a evita ca motoarele de căutare să afișeze orice căutare internă pagina de rezultate pe SERP-ul public.

- Prin blocarea anumitor pagini neimportante sau inutile ale site-ului web, vă puteți maximiza bugetul de căutare pe paginile necesare.

- Pentru a fi utilizate ca meta-robot pentru a evita afișarea conținutului duplicat în SERP.

- Puteți apela la ajutorul acestuia pentru a nu indexa rezultatele interne ale căutării sau paginile web rupte ale site-ului dvs. web.

- Pentru a preveni supraîncărcarea serverelor web care este posibilă atunci când crawlerele încărcare mai multe conținuturi deodată prin adăugarea unei întârzieri de târâre.

- Dacă nu doriți ca oamenii să aterizeze pe o pagină care se află în versiunea de pregătire, aceasta poate avea un impact asupra impresiei, în special a celui care vizitează pentru prima dată un site web.

- Pentru a ajuta agenții utilizator să acceseze cu ușurință locația harta site-ului(s).

Un webmaster poate păstra o anumită secțiune a unui site web (în special cele în construcție sau incomplete) complet privată față de roboții de căutare.

Este necesar să creați fișierul robots.txt dacă numărul de URL-uri indexate depășește așteptările.

Cum se implementează Robots txt?

Acesta este cel mai bun să folosiți orice editor de text, cum ar fi notepad sau wordpad, pentru a crea un fișier text simplu compatibil cu regulile pentru a crea un fișier robots.txt.

Cum se face Robots txt?

Includeți doar directivele de bază precum "User agent:" și "Disallow: /" pentru a crea un fișier de bază pentru site-ul web.

Cum pot crea un fișier Robots txt?

Oricine poate include regulile urmând sintaxa compatibilă în fișierul robots.txt.

Cum să fac un fișier Robots txt pentru site-ul meu?

Cel mai bun mod este să generați mai întâi sitemaps-ul site-ului dvs. și să includeți URL-urile acestuia în partea de jos pentru a fi mai eficient.

Cum se creează fișierul Robots txt?

Termenii comuni care sunt utilizați într-un fișier robots.txt sunt:

- Întârziere la târâre - Indică cât timp trebuie să aștepte un crawler specificat înainte de a accesa conținutul unei pagini. Comanda nu va funcționa pentru Googlebot, însă crawl-ul rata pot fi setate din Google Search Console pentru a face aceeași treabă.

- User-agent - Menționează un anumit web crawler sau user agent (în general un motor de căutare) căruia un webmaster dorește să îi dea instrucțiuni de căutare. Există tehnic nume pentru motoarele de căutare, cum ar fi Googlebot pentru Google și așa mai departe.

- Allow (utilizat de Google) - Este o sintaxă utilă pentru a instrui Googlebot să parcurgă un subfolder sau o pagină care este prezentă în interiorul oricărui subfolder părinte sau a unei pagini care ar putea fi nepermisă.

- Disallow - Este pentru a instrui un robot web să nu acceseze un anumit URL. Comanda nu trebuie să fie permisă de două ori pentru niciun URL.

-Sitemap - Orice agent utilizator compatibil, cum ar fi Yahoo, Ask, Bing sau Google, poate accesa această comandă pentru a găsi locația sitemelor XML menționate pe baza unui URL.

Notă: Expresiile regulate precum semnul dolarului ($) și asterisc (*) pot fi utilizate de către SEO pentru a ajuta agenții de utilizator ai Bing și Google să identifice subfolderele sau paginile. Aici * este sintaxa de potrivire a modelelor pentru a acoperi toate tipurile de opțiuni posibile de sfârșit de URL, iar * reprezintă o secvență diferită de caractere, funcționând ca un simplu wildcard.

Cum să împiedicați bots să vă caute pe site?

Acest lucru se poate face prin blocarea sau interzicerea roboților web prin specificarea directivelor pentru fiecare sau pentru toți pentru a nu accesa o pagină sau un subfolder al unui site web.

Cum să oprești boții de la crawling site-ul meu?

Iată câteva directive utilizate în mod obișnuit în fișierul robots.txt pentru a instrui agenții-utilizatori sau crawlerele web;

Cum să permiteți Robots txt?

1) Permiterea ca fiecare crawler web să găsească tot conținutul

Sintaxă: User-agent: * Disallow:

Cum să prevenim Web Crawlers?

2) Interzicerea accesului unui anumit web crawler la un folder

Sintaxă: User-agent: Googlebot Disallow: /extra-subfolder/

(Instrucțiunea de mai sus cere crawler-ului Google să nu acceseze nicio pagină din locația www.site-name.com/extra-subfolder/)

Cum să dezactivați toate în Robots txt?

3) Interzicerea accesului la orice fel de conținut de către toate crawlerele web

Sintaxă: User-agent: * Disallow: /

(Puteți utiliza instrucțiunile simple ca o soluție pentru Cum să blocați roboții Robots txt?)

Cum să blocați Crawlers?

4) Interzicerea accesului unui anumit web crawler la o anumită pagină web

Sintaxă: User-agent: Googlebot Disallow: /extra-subfolder/useless-page.html

Ce sunt Google Robots?

Popularul motor de căutare folosește mai multe păianjen software care se învârte pe internet și scanează site-urile web. Cele mai importante sunt Googlebot, Googlebot-imagini (utilizat pentru imagini) și Googlebot-news (pentru a indexa și a furniza utilizatorilor informații despre știri).

Cum se creează Robots txt pentru site-ul meu?

Utilizați un editor de text care poate crea un fișier text UTF-8 standard. Crearea fișierului cu ajutorul unui procesor de text poate adăuga orice caracter neașteptat, cum ar fi ghilimelele, și îl poate salva în orice format proprietar care ar putea crea probleme pentru înțelegerea instrucțiunilor de către crawlere. Comentariile pot fi adăugate după specificarea caracterului sau a mărcii #.

Angajați un consultant SEO

Angajați un consultant SEO #1 care locuiește în Londra, care a lucrat cu companii precum Zoopla, uSwitch, Mashable, Thomson Reuters și multe altele. Angajează-l pe Lukasz Zelezny (MCIM, F IDM).

Cum se creează un fișier Robots txt pentru Google?

Iată câteva sugestii privind crearea fișierului, în special pentru agenții de utilizator Google;

1) Dosarul trebuie să respecte standardul de excludere a roboților.

2) Poate include una sau mai multe reguli pentru a permite sau a bloca accesul unui crawler specificat la o anumită cale a unui site.

3) Un webmaster ar trebui să fie familiarizat cu aproape toate sintaxele din fișierul robots.txt pentru a înțelege comportamentul subtil al fiecărei sintaxe.

4) Site-ul nu poate avea mai mult de un fișier robots.txt.

5) Fișierul suportă atât subdomeniile (cum ar fi http://website.demo.com/robots.txt sau orice port non-standard cum ar fi (http://demo:8181/robots.txt).

6) Dacă nu cunoașteți sau nu aveți acces la dosarul rădăcină al site-ului dvs. web, atunci este mai bine să contactați furnizorul de servicii de găzduire web pentru a păstra fișierul robots.txt în interiorul acestuia. În cazul în care nu aveți acces la rădăcina site-ului web, atunci folosiți meta tag-urile ca metodă alternativă de blocare.

7) În fișierul robots.txt pot fi incluse mai multe directive de grup sau reguli (menționate câte una pe linie).

8) Suportă numai caractere ASCII.

9) Un grup oferă informații despre persoanele cărora li se aplică (agent utilizator) și despre toate fișierele sau directoarele pe care un agent nu le poate/poate accesa. Directivele sunt procesate de sus în jos. Un robot web s-a asociat unui singur set de reguli care poate fi specificat separat sau vine primul.

10) Conform presupunerii implicite, un robot poate să cerceteze orice director sau pagină printr-o sintaxă "Disallow:".

11) Directivele utilizate în fișier sunt sensibile la majuscule și minuscule, cum ar fi Disallow: /one.xml nu se aplică la ONE.xml.

12) Se aplică în întregime domeniu al unui site web care constă fie în protocolul https sau http.

De obicei, agenții de utilizator ai Bing și Google folosesc un anumit grup de directive, dar, în mod implicit, sunt preferabile primele reguli de potrivire, deoarece roboții web ai diferitelor motoare de căutare interpretează directivele în mod diferit.

De asemenea, se sugerează webmasterilor să evite pe cât posibil utilizarea sintaxei crawl-delay în fișierul robots.txt pentru a reduce timpul total de căutare al roboților motoarelor de căutare.

Cum să verificați Robots txt?

Puteți lua ajutorul instrumentului robots.txt Tester disponibil pe site-ul Consola pentru administratorii de site-uri web Google pentru a verifica dacă robotul Google este capabil să acceseze URL-ul pe care l-ați blocat deja din căutare. De asemenea, poate afișa erorile de logică și avertismentele de sintaxă, dacă există erori în robots.txt. Puteți să modificați acolo și să îl retestați.

Odată ce totul este în regulă, puteți face față modificărilor și puteți actualiza fișierul principal aflat pe serverul site-ului dvs. web. În mod similar, puteți utiliza diferite instrumente pentru a verifica în avans comportamentul de crawling al motorului de căutare după ce citiți fișierul robots.txt al site-ului dvs. web.

Cum să verificați dacă Robots txt funcționează sau nu?

Puteți verifica, de asemenea, modul în care funcționează robots.txt din site-ul dvs. web utilizând funcția "URL-uri blocate" din cadrul secțiunii "Crawl" din partea stângă a paginii de internet. Instrumente Google pentru webmaster. Cu toate acestea, este posibil să nu afișeze versiunea curentă sau actualizată a fișierului robots.txt, dar poate fi utilizată în scopuri de testare.

Cum să verificați fișierul Robot txt într-un site web?

Încercați să verificați în mod regulat fișierul robots.txt utilizând orice instrument pentru a vedea dacă totul este valid în el și dacă fișierul funcționează în modul corect, așa cum era de așteptat! Apropo, ar putea dura multe zile sau chiar câteva săptămâni pentru ca un motor de căutare să identifice un URL nepermis citind despre acesta din robots.txt și să elimine indexarea acestuia.

Cum să adăugați Robots txt în HTML?

După ce ați inclus toate seturile de reguli în fișier și l-ați numit cu robots.txt, acesta trebuie salvat în folderul principal sau rădăcină al site-ului web de pe server. Un dosar la nivel de rădăcină poate fi un "www' sau "htdocs" care ajută robots.txt să apară lângă numele de domeniu.

Cum se configurează un fișier Robots txt?

Se sugerează întotdeauna să păstrați o dimensiune rezonabilă a fișierului robots.txt, evitând ca directivele nedorite să fie menționate în fișier. Acest lucru se datorează faptului că, cu câțiva ani înainte, John Mueller de la Google a clarificat deja faptul că Googlebot va accesa doar primii 500 kB dintr-un fișier robot.txt. Un fișier uriaș poate fi trunchiat într-un mod nedorit pentru a forma o linie care ar putea fi interpretată ca o regulă incompletă.

La ce este folosit un fișier Robots txt?

Este cunoscut și sub numele de protocol de excludere a roboților sau standard de excludere a roboților, care este utilizat de către site-urile web pentru a comunica cu roboții web sau crawlerele. Motoarele de căutare își folosesc roboții pentru a clasifica site-urile web.

Administratorii de site-uri web folosesc fișierele robots.txt pentru a instrui sau ghida astfel de roboți pentru a obține o mai bună indexare a site-urilor lor web. Nu aveți nevoie de un fișier robots.txt dacă nu doriți să controlați accesul agentului utilizator la nicio zonă a site-ului dumneavoastră web. Se pot găsi mai multe detalii despre robots.txt din orice subiect avansat, cum ar fi Cum să creezi un robot de motor de căutare?

Cum se utilizează Robots txt pentru SEO?

Pentru o mai bună poziționare în clasamentul motoarelor de căutare, este o bună practică SEO să permiteți crawlerelor să ajungă și să vă acceseze site-ul cu ușurință. Site-ul nostru web constă, în general, dintr-o mulțime de pagini nedorite față de așteptările noastre, iar atunci când roboții motoarelor de căutare parcurg fiecare pagină a site-ului dumneavoastră, atunci cu siguranță va consuma mai mult timp, iar acest lucru va afecta în mod negativ clasament.

Google utilizează bugetul de acces (împărțit în două părți, limita ratei de acces și cererea de acces) pentru fiecare site web pentru a decide numărul de URL-uri pe care dorește sau poate să le analizeze. Așadar, dacă ajutați astfel de roboți sau agenți de utilizator să acceseze și să indexeze doar conținutul cel mai valoros al site-ului dvs. web, robots.txt este o necesitate!

Un SEO nu dorește niciodată să blocheze secțiuni sau conținuturi ale unui site web care trebuie să fie accesate de crawlere.

- Un motor de căutare precum Google poate avea mai mulți agenți-utilizatori precum Googlebot-Image (pentru a căuta imagini) și Googlebot (pentru căutarea organică). Mai multe agenții de utilizator care aparțin aceluiași motor de căutare pot urma aceleași reguli, astfel încât mulți administratori de site-uri trec peste specificarea directivelor pentru fiecare dintre aceste crawlere. Un SEO poate profita de acest lucru, menționând instrucțiuni diferite pentru fiecare dintre agenții de căutare, chiar dacă aceștia aparțin unui singur motor de căutare, pentru a controla mai bine comportamentul lor de căutare.

- Pentru un SEO mai bun, este necesar ca legăturile sau paginile nepermise să nu includă alte legături care trebuie urmate. Astfel, pagina blocată nu trebuie să treacă link equity către destinația linkului sau este mai bine să se folosească orice alt mecanism de blocare. De asemenea, acestea nu trebuie să fie legate cu alte pagini accesibile de motoarele de căutare, adică pagini web care nu sunt dezaprobate de meta roboți, robots.txt sau altele. În caz contrar, resursele importante legate nu vor fi accesate și indexate de motoarele de căutare.

- Cel mai bine este să trimiteți URL-ul robots.url direct pe Google după orice actualizare a fișierului pentru a asigura accesul rapid al agentului utilizator vizat. În general, un motor de căutare actualizează conținutul robots.txt din memoria cache cel puțin o dată pe zi.

Cum să faci Robot txt eficient pentru SEO?

Este bine să se menționeze locația tuturor sau a oricăror Sitemaps pe baza domeniului site-ului web în partea de jos a fișierului robots.txt. Apropo, sitemaps sunt fișiere XML care conțin informații detaliate despre paginile unui site web, cum ar fi URL-ul acestora și metadatele aferente, cum ar fi importanța, intervalul de actualizare și ultima actualizare.

Toate aceste informații pot fi folosite de roboții motoarelor de căutare pentru a parcurge în mod inteligent un site web. Așadar, în acest fel, webmasterii pot ajuta agenții de utilizator care acceptă Sitemaps să cunoască și să acceseze toate URL-urile din sitemap și să afle mai multe despre acestea în procesul de descoperire a paginilor de la un link la altul în cadrul unui site sau de la un alt site.

De exemplu;

Adresa browserului: https://www.demo.com/robots.txt

Ieșire:

Agent utilizator: *

Nu permite: *.dl.html

Permiteți: /*.html$

Hartă sait: https://www.demo.com/en-au/sitemap.xml

Hartă sait: https://www.demo.com/en-se/sitemap.xml

Hartă sait: https://www.demo.com/en-us/sitemap.xml

(Directivele de mai sus sunt pentru a apela mai multe sitemaps prin intermediul fișierului robots.txt.)

Cum să evitați Robots txt?

Există riscuri de securitate asociate cu robots.txt, deoarece mulți roboți rău intenționați nu îl pot urmări, precum și pentru a cunoaște toate link-urile interzise și a le accesa direct. Așadar, ca soluție, puteți proteja prin parolă zona din site-ul dvs. care conține conținut privat, astfel încât un intrus să nu o poată accesa chiar și după ce îi cunoaște locația.

Pentru a prezenta date sensibile de la indexare sau pentru a apărea în SERPs (fie direct, fie indirect, adică prin intermediul paginilor apreciate), este mai bine să folosiți orice altă metodă decât să blocați pagina în robots.txt pentru a nu permite acest lucru. Poate fi fie o meta directivă no index meta, fie metode de protecție cu parolă.

Cum să eliminați fișierul Robots txt de pe site?

WordPress în general, creează un fișier robots.txt virtual implicit direct în rădăcină pentru site-urile sale web care nu pot fi văzute în director. Așadar, este întotdeauna cel mai bine să creați un nou fișier care se suprapune cu orice setări implicite, în special pentru a refuza pagina de autentificare sau de înregistrare care nu contează pentru un motor de căutare!

Mulți oameni sunt, de obicei, confuzi cu privire la Cum se elimină Robots txt în WordPress sau alte platforme. Cu toate acestea, procesul este același pentru toate! Fișierul robots.txt trebuie să fie salvat în directorul de nivel superior al site-ului web, adică în domeniul rădăcină sau în directorul principal, astfel încât să ajute roboții să îl găsească cu ușurință. Așadar, tot ce trebuie să faceți este să ștergeți fișierul direct din acel anumit dosar sau locație.

Gânduri finale

Încercați să nu includeți instrucțiunile de ascundere a informațiilor confidențiale ale utilizatorilor în fișierul robots.txt. Acest lucru se datorează faptului că fișierul este un fișier accesibil public, se pot vedea directivele sale adăugând /robots.txt la sfârșitul domeniului rădăcină.

În acest fel, oricine poate afla ce pagini sunt permise de către webmasterul site-ului pentru a fi parcurse sau nu de către toți sau anumiți roboți web. Fișierul trebuie salvat doar cu numele "robots.txt", deoarece este sensibil la majuscule și minuscule, astfel încât nicio altă combinație nu va fi acceptată de niciun agent utilizator!

În cele din urmă, s-ar putea să fiți confuz între x-robots, meta robots și robots.txt, care sună ca termeni similari. Dintre acestea, x-robots și meta sunt directive meta, dar robots.txt este un fișier text și sunt folosite pentru a aplica funcții diferite.

Mai exact, x-robots și meta dictează comportamentul de indexare la nivel de element de pagină (sau pagină individuală), în timp ce robots.txt furnizează informații despre comportamentul de căutare al directorului sau al site-ului.

Există șanse mai mari ca roboții motoarelor de căutare să poată indexa și afișa conținutul site-ului dvs. în SERP-uri într-un mod mai bun și să îl facă mai vizibil prin cheltuirea bugetului de căutare în timp ce scanează același site. Prin utilizarea robots.txt se poate bloca, de asemenea, crawling-ul paginilor cu tag-uri WordPress generate automat și se poate preveni orice conținut duplicat.

În general, trebuie să aveți mare grijă când vă ocupați de ceea ce trebuie să includeți în fișierul robots.txt. La urma urmei, o mică greșeală în fișierul robots.txt ar putea face ca întregul dvs. site să fie dezindexat.

Publicat în: ianuarie 2021

Ultima actualizare în 2023-02-04T21:08:56+00:00 de către Lukasz Zelezny

Scris de:

Lukasz Zelezny

Împărtășiți acest articol:

Înapoi la Blog

Accesați Exemplu de analiză SEO GAP

SEO.London a verificat 35 de site-uri web și peste 150.000 de cuvinte cheie. Rezultatul a peste 5 milioane de puncte de date este prezentat mai jos.

Open Data Studio

În acest blogpost SEO

Care este importanța fișierului Robots TXT pentru site-ul dvs. în 2021?