Asjatundmatu vaatleja jaoks võib teie veebisaidil ringi liikuv robot tunduda nagu midagi ulmefilmist. Uskuge või mitte, aga see on kaugel fiktsioonist ja reaalsusele lähemal, kui te arvata oskate! Igaühe jaoks, kes navigeerib veebisaitide omamise ja hooldamise maastikul, on oluline mõista, kuidas robotid meie veebiruumidega suhtlevad. Sama oluline on suutlikkus seda suhtlust reguleerida. See vajadus tutvustab meile ühe käepärase tööriista: robotid.txt. Selles põhjalikus juhend, me dekodeerime mida "kuidas blokeerida robotite robotid txt" tähendab ja miks see on tänasel digiajastul oluline.

Mis on Robots.txt fail?

Robots.txt fail on sisuliselt teie veebisaidi väravavaht. See võimaldab teil kontrollida mis teie saidi osad on saadaval botite uurimiseks - nagu Google'i otsing mootori ämblikud - ja mis peaks olema keelatud. See töötab osana robotite välistamise standardist (mitteametlik standard, mida kasutavad veebisaidid) ja annab veebirobotitele juhiseid nende lubatud tegevuste kohta, kui nad külastavad teie veebisaiti.

Suurendage oma veebipositsiooni koos Lukasz Zeleznyga, SEO-konsultandiga, kellel on üle 20 aasta kogemust - leppige kokku kohtumine kohe.

broneeri seo kõne täna

See tagasihoidlik tekstifail räägib palju teie lehekülje ligipääsetavuse eelistuste kohta. Kas teil on konkreetseid katalooge või lehekülgi, mida soovite hoida uudishimulike robotite silmade eest eemal? Robots.txt-faili abil on teil võimalik seda teha! Selle sisu sätestab otsesõnu direktiivid - konkreetsed juhised, mis antakse veebikülastajatele -, mis aitavad saiti tõhusamalt hallata. See leidlikkus muudab nõuetekohase esitamise tagamise sisu otsingutel lihtsamalt, kaitstes samas tundlikke piirkondi juhusliku kokkupuute eest.

Lõppkokkuvõttes, õppides, kuidas eraldada osa meie küberruumi domeenid võimaldab meil veebimeistritena paremini navigeerida botide kohalolekut ja mõju meie platvormide väärtuslikes valdkondades - seepärast keskendume täna sellele.

Tehniline Robots.txt süntaks

Robots.txt faili süntaks on sisuliselt keel ja grammatiline struktuur, mida kasutatakse selle direktiivide loomiseks. Oluline on mõista, kuidas selle süntaksi õige kasutamine aitab õppida, kuidas robotite txt abil robotid blokeerida.

  1. Kasutaja-agent: User-agent-direktiiv tähistab seda, millist tüüpi robotiga soovite suhelda, näiteks Googlebot Google'i jaoks või BingBot Google'i jaoks. Bing. Alustades oma direktiivikomplekti sõnaga "User-agent: *" tähendab, et kõik veebilehitsejad peaksid neid juhiseid järgima.
  2. Keelata: See direktiiv saadab otsese sõnumi - väldi kohe pärast seda kirjeldatud teed. Ütleme, et kui te kirjutate: "Disallow: /images/", siis annate igale robotile, kes seda loeb, korralduse mitte roomata teie veebilehe pildid kataloogi.
  3. Lubage: Vastupidiselt disallow'ile annab allow avaldusega keelatud kataloogides teatud alamkataloogide või failide juurdepääsuõigused tagasi.

Mustrite sobitamine

Robots.txt-faili süntaksi üks keerukas, kuid tõhus element on mustrite sobitamine. Lisaks teekondade otsesele määratlemisele võimaldab mustrite sobitamine lihtsate sümbolite abil sõnastada robots txt-failis keerulisi juhiseid robotite blokeerimiseks.

  1. Keskenduge mustrite sobitamise õppimisel peamiselt kahele olulisele tähemärgile - "*" (tärn) ja "$" (dollarimärk). Tärn tegutseb jokkerina, samas kui dollarimärk sümboliseerib URL-i lõppu.
  2. Tähe kasutamine keelava avalduse sees tähistab mis tahes seal esinevat stringijada. Näiteks 'Disallow: /example' keelab veebikülastajatel juurdepääsu kõikidele teie veebisaidi lehekülgedele, mille URL-ile on lisatud 'example'.
  3. Seevastu, kui teie erinevate terminite lõppu lisatakse "$", siis täpsustatakse, et ainult URLid lõpetades nagu nii on keelatud roomav robotite poolt. Teade, mis ütleb "Disallow: /*example$' piirab juurdepääsu ainult nendele lehekülgedele, mille URL lõpeb täpselt sõnaga 'example'.

Pidage meeles, et kõik ämblikud ei mõista või ei järgi neid mustreid - eelkõige paljud rämpsposti suunitlusega ämblikud -, seega arvestage seda direktiivide koostamisel ja tõhusate viiside leidmisel, kuidas robotite txt-failide abil robotid tõhusalt blokeerida.""""

Palgata SEO konsultant

Robots.txt-faili paigutamisel võib tunduda hirmutav, kuid võite olla kindel, et see on suhteliselt lihtne protsess. See väike, kuid oluline dokument kuulub ühte kindlasse kohta - teie veebisaidi juurkataloogi.

Oluline on meeles pidada, et see lihtne tekstifail peab olema roomikutele kergesti leitav. "Juurkataloog" või kõige ülemine kataloog on tavaliselt see, kuhu otsingumootorite robotid lähevad esimesena, kui maandumine teie domeen. Seega annab robots.txt faili paigutamine siia koheseid ja selgeid juhiseid selle kohta, millised teie saidi osad peaksid olema kättesaadavad.

Hankige rohkem kliente internetis koos Lukasz Zeleznyga, kes on üle 20-aastase kogemusega SEO-konsultant - leppige kokku kohtumine kohe.

broneeri seo kõne täna

Need, kes on veebikeelega vähem kursis, võivad nüüd küsida, mida me täpselt mõtleme, kui räägime "juurkataloogist". Sisuliselt on teie veebisaidi juurkataloog sarnane puu tüvele, millest lähtuvad kõik teised kataloogid - see moodustab teie veebi selgroo. Näiteks kui teie veebisaidi URL on www.example.com, siis on juurkataloog / (kaldkriips pärast .com). Seega tähistab www.example.com/robots.txt ideaalselt oma kohta teie juurkataloogis.

Seevastu selle paigutamine teise alamkataloog nagu /blog/robots.txt ei avalda soovitud mõju, sest robotid ei vaevu enne juhiste saamist nii kaugele teie saidile otsima.

Oluline on, et vale positsioneerimine võib põhjustada ebaefektiivset roomamist ja indekseerimist - kaks põhitegurit, mis on olulised SEO edu - sest otsingumootorid ei tea, kus neil on lubatud või keelatud uurida kohe, kui nad jõuavad "teie ukse taha".

Seega veenduge, et teil on paigutus paigas, kui vaatate, kuidas robotite txt-failide abil robotid tõhusalt blokeerida. Paigutus mängib tõesti olulist rolli selles tehnilise SEO nurgakivi seadistuses.

Robots.txt-failide olulisuse ja toimimise mõistmisel jääb üks asjakohane küsimus: milleks on vaja robots.txt-faili?

Esiteks, robots.txt faili olemasolu annab veebikülastajatele juhiseid selle kohta, kuidas nad peaksid teie veebisaidiga suhtlema. Kui otsingumootorid lähenevad teie veebisaidile, et seda indekseerida, tulevad need robots.txt-s sisalduvad juhised mängu. Need juhivad otsingurobotid, nagu Google'i Googlebot või Bing'i Bingbot, nende navigeerimisteel läbi teie domeeni.

Teiseks on robots.txt-fail oluline, et hallata juurdepääsu teie saidi tundlikele või arendamisel olevatele privaatsetele osadele. Saate spetsiaalselt juhendada robotite indekseerimine selline sisu. See tagab, et soovimatud alad jäävad indekseerimata ja jäävad avalikkuse vaatevälja otsingumootori tulemuste lehekülgede (SERP) kaudu.

Lisaks sellele on veebis lugematu hulk roomavaid robotid, nii häid kui ka pahatahtlikke. Määrates robots.txt-faili konkreetsete "User-agent"-käskude abil, kes saavad teie saidil mida krabida, hoiate kaitsestandardid kõrgel võimalike ohtude eest, mis külastavad saidi süütu krabimistegevuse varjus.

Lõpuks, ilma Robots txt-faili piiranguteta võivad mõned robotid serverid üle koormata, koormates neid päringutega, mis viib kasutaja aeglustumiseni. kogemus või DDoS (Distributed Denial of Service) rünnakud. Seega on see oluline vahend optimaalse optimaalse server tulemuslikkus.

Kui hakkate hiljem selles artiklis oma Robots txt-faili struktureerimisega tutvuma, pidage meeles seda võtmekontseptsiooni: Näitlik kontroll roomikute suhtluse üle teie veebisaidiga määratleb, miks konkreetselt koostatud Robots txt-faili omamine on oluline iga domeeni veebipositsiooni kaitsmiseks ja optimeerimiseks.

Robots.txt faili olemasolu kontrollimine

Jätkame nüüd sellega, kuidas saate kindlaks teha, kas teie veebisaidil on juba olemas robots.txt fail. Üldiselt asub see teie saidi juurkataloogis.

Selle olemasolu kontrollimiseks soovitan teha järgmised lihtsad sammud:

  1. Avage oma lemmik veebilehitseja.
  2. In the aadress baari juures top, sisestage yoursitename.com/robots.txt; asendage "yoursitename.com" oma tegeliku domeeninimega.

Teie ekraanil peaks olema näha selle tagasihoidliku, kuid mõjuka robots.txt faili sisu, kui see on teie saidil olemas. Seevastu veateade, mis sarnaneb "404 lehte ei leitud" või "faili ei leitud", tähendaks, et robots.txt-faili ei ole praegu olemas.

Pidage meeles, et õigesti rakendades "kuidas blokeerida robotite robotid txt strateegia mõjutab oluliselt otsingumootori optimeerimist (SEO). Seega on väga oluline jääda kursis, kas teil on või ei ole.

Kokkuvõttes (kuigi see ei ole kohustuslik), on robots.txt faili mõistmine ja nõuetekohane kasutamine tänapäeval edukate veebisaitide haldamise lahutamatu osa. Kui olete pärast nende sammude sooritamist selle olemasolu kontrollimiseks ikka veel ebakindel, kaaluge ekspertide nõuannet, kuna see võib hõlmata edasijõudnute IT-tööriistade kasutamist. teadmised kui oodatud.

Pidage meeles, et robots.txt faili puudumine ei ole tingimata kahjulik - see tähendab lihtsalt, et otsingumootorite robotid pääsevad piiranguteta ligi kõigile teie saidi valdkondadele. Mõistlik kontroll sellise juurdepääsu üle muutub suurepäraselt võimalikuks, kui me mõistame, kuidas blokeerida bots robots txt'd tõhusalt meie saitidel!

Kuidas luua Robots.txt faili

Robots.txt-faili loomine on oluline samm otsingumootorite robotite suhtlemise haldamisel teie veebisaidiga. Sukeldume selle loomise protsessi.

Robots.txt komponentide mõistmine

Tüüpiline robots.txt fail sisaldab kahte põhikomponenti, sealhulgas User-agent ja Disallow direktiive. User-agent viitab konkreetsele veebimadrule, näiteks Googlebotile või Bingbotile, millele soovite oma juhiseid suunata. Teisest küljest on direktiiv Disallow, kus loetletakse leheküljed või kataloogid, mida te ei soovi, et teatud robotid krabaksid. Näiteks:

Kasutaja-agent: * Disallow: /private/

Sellisel juhul blokeeritakse kõikidel botidel ('*' tähistab kõiki) juurdepääs kõigele, mis asub kataloogis 'private'.

Värske faili genereerimine

Nüüd selle nutika koodi genereerimise juurde. Teil on vaja tavalist tekstiredaktorit - Notepad sobib suurepäraselt. Tekstiredaktorid, nagu Microsoft Word, ei sobi selle ülesande täitmiseks, kuna neil on kalduvus sisestada täiendavaid vormindusmärkide.

Alustamiseks looge uus dokument ja salvestage see nimega "robots.txt". Pidage meeles, et suurtähtedega kirjutamine on siinkohal oluline - veenduge, et kõik on väikeseid tähti. Järgmisena tuleb koostada süntaks vastavalt sellele, milliseid sektsioone soovite blokeerida. Pidage meeles, et iga reegel peaks olema oma real:

Kasutaja-agent: * Disallow: /

See reegel keelab kõikidel botidel ligipääsu su saidi mis tahes osale (tähistatud '/'). Kasutage seda ettevaatlikult!

The märksõna siin on spetsiifilisus; robotite blokeerimise õppimisel on robotite txt-moodulid mitmekülgsed vahendid, mis võimaldavad täpset kontrolli robotite tegevuse üle.

Faili üleslaadimine

Pärast loomist laadige oma robots.txt fail FTP (File Transfer Protocol) abil oma saidi juurkausta. Tavaliselt asub see samas kohas nagu teie wp-admin, wp-content ja wp-includes kaust.

Pärast nende sammude edukat läbimist saavad kasutajad leida teie Robots.txt faili, lisades "/robots.txt" pärast teie esmast domeeni - nt www.example.com/robots.txt. Nüüd olete robots.txt-faili loomisega hakkama saanud!

Pidage meeles, et kuigi ausate roomikute suunamisel on tõhusad viisakusnõuete järgimine; kavalamad hävitavad robotid võivad neid otsekui ignoreerida.

Kui need teadmised on nüüd kindlalt teie vöö alla pandud, pidage meeles, et hooldus on vajalik - perioodiline järelevalve tagab jätkuva tõhususe, seega võtke aega regulaarsete kontrollide tegemiseks. Head kodeerimist!

Konkreetsete robotite ja failide/kaustade blokeerimine

Süvenedes teemasse - kuidas blokeerida robotite robotid txt, on oluline mõista, et see ülesanne ei tähenda alati kõigi roomikute piiramist. Tihtipeale võite soovida määrata ainult teatud soovimatuid robotid või piirata juurdepääsu ainult teatud failidele ja kataloogidele. Selliste nüansirikaste stsenaariumide puhul võib robots.txt-faili käsitsemise oskuse suurendamine olla väga oluline.

Ühtsus mitmekesisuses on laialt levinud taktika, mida kasutavad erinevad veebiteenused. Erinevat tüüpi veebikülastajad hõljuvad ümberringi internet erineva käitumise ja võimekusega. Kui mõned ämblikud on sisu indekseerimiseks hädavajalikud, nagu Googlebot, siis teised, näiteks rämpsposti robotid, võivad kahjustada teie saidi jõudlust.

Neid vähem konstruktiivseid bote saab blokeerida kahel viisil: kitsalt või laialt. Kitsas lähenemisviis tähendab konkreetse bot'i blokeerimist kogu veebisaidilt, samas kui laiem lähenemisviis hõlmab iga bot'i blokeerimist konkreetsest kaustast või failist.

Enne jätkamist mõistame, kuidas saate oma robots.txt failis määrata kasutaja-agenti (st bot). Iga reegel selles dokumendis peab algama 'User-agent' määramisega, millele järgneb koolon(:) ja seejärel agentide nime piiritlemine. Selle jätmine tärniks (*) tähendab, et iga bott külastab lehte. Selle asemel võib valida, kas teatud botide jaoks sisestada konkreetsed nimed.

Järgmisena tulevad direktiivid "Keelata" või "Lubada", mis annavad juhiseid tuvastatud kasutaja-agentide jaoks lubatud tegevuste kohta teie veebisaidi konkreetsetes valdkondades.

Pidage meeles, et oluline ei ole mitte ainult teada, kuidas blokeerida robotite robotid txt, vaid ka miks - keskendudes nii ressursside raiskamise vältimisele kui ka kaitsmisele kompromiteeritud agentide pahatahtliku tegevuse eest.

Täiendades meie diskursust blokeerimise spetsiifika kohta, pidage meeles, et usaldusväärsus mängib olulist rolli, kui usaldate nende reeglite järgimist - peamised otsingumootorid järgivad neid reegleid üldiselt rangelt; kahjuks järgivad vähemtuntud scraper-botid neid harva korralikult. Ärge toetuge ainult robots.txt-le, kui püüate kaitsta tundlikke andmeid!

Robots.txt vs Meta Robots vs X-Robots

Teadmine, kuidas robotite blokeerida robotite txt abil, on väga oluline, kuid see ei ole ainus meetod botide käitumise kontrollimiseks teie veebisaidil. Samuti on olemas meta robots ja x-robots sildid, mis on kaks muud tõhusat vahendit, millega anda veebibootidele juhiseid teie saidi kohta. Kui te ei tea, millist neist kasutada või mis eristab neid teistest, siis lubage mul selgitada.

Robots.txt fail

Nagu me juba arutasime, on robots.txt fail veebimeistri peamine juhend otsingumootorite suunamisel veebisaidi konkreetsete osade suunas või neist eemale. See väike tekstifail asub juurkataloogi tasandil ja annab tavaliselt üldised juhised kõigile kasutajaagentide robotitele, kui ei ole välja toodud konkreetseid juhiseid.

Põhimõtteliselt ütleb robots.txt fail robotitele: "Need alad on keelatud." Kuid pidage meeles, et kõik ämblikud ei pea neist reeglitest kinni.

Mis on Meta Robots Tags?

Meta Robots Tags pakuvad granulaarsemat kontrolli võrreldes lai robots.txt-failis esitatud suunised. Need HTML-atribuudid juhivad otsingumootorite robotid indekseerima pigem üksikuid lehekülgi kui terveid katalooge või saite. Nad ütlevad otsingumootoritele, kas indekseerida lehekülge ("noindex"), jälgida selle linke ("nofollow"), "none" (mis tähendab noindex ja nofollow) muude käskude hulgas. Meta-roboti sildid suhtlevad otsingumootori roomikutega otse lehekülgede kaupa, pakkudes tõelist mitmekülgsust roomikute käitumise haldamisel.

Kuidas X-robotite märgised töötavad?

X-robotite sildid on mõnevõrra sarnased metarobotite siltidega, sest ka need annavad üksikasjalikke juhiseid lehekülje tasandil. Kuid erinevalt oma vastetest, mis ilmuvad HTML-dokumentides, istuvad x-robotite sildid siiski HTTP pealkirjad. Eelkõige võimaldab see paigutus töötada ka muude kui HTML-failide, näiteks PDF-failide või piltide puhul. Sarnaselt metaroboti siltidele on ka x-roboti sildi toimingud muu hulgas "noindex", "nofollow" või isegi "nosnippet".

Seega, kuigi robotite blokeerimise õppimine robots txt abil on tõepoolest väärtuslikud teadmised iga veebimeistri jaoks, annab metarobotite ja x-robotite tugevuste ja rakenduste mõistmine veelgi laiema tööriistakomplekti, kui kureerite oma saidi suhteid veebi roomikutega.

Kuidas blokeerida robotid Robots.txt abil

Viimati uuendatud 2023-06-29T16:47:23+00:00 by Lukasz Zelezny

Indeks