Kaip blokuoti robotus naudojant Robots.txt?

Neinformuotam stebėtojui robotas, vaikštinėjantis po jūsų svetainę, gali atrodyti kaip iš fantastinio filmo. Norite tikėkite, norite ne, bet tai toli gražu ne fantastika ir yra arčiau realybės, nei galite pagalvoti! Kiekvienam, kuris keliauja po interneto svetainių valdymo ir priežiūros teritoriją, labai svarbu suprasti, kaip robotai sąveikauja su mūsų interneto erdvėmis. Ne mažiau svarbu turėti galimybę reguliuoti šią sąveiką. Dėl šio poreikio susipažįstame su patogia priemone: robotai.txt. Šiame išsamiame vadovas, iššifruosime ką "kaip užblokuoti robotus robotus txt" reiškia ir kodėl tai svarbu šiandieninėje skaitmeninėje eroje.

Kas yra Robots.txt failas?

Turinys

Robots.txt failas iš esmės yra jūsų svetainės sargas. Jis leidžia jums kontroliuoti kuris jūsų svetainės dalys yra prieinamos botams tyrinėti, pvz., "Google paieška variklių vorai, ir kurios turėtų būti draudžiamos. Jis veikia kaip robotų pašalinimo standarto (neoficialaus svetainių naudojamo standarto) dalis ir nurodo žiniatinklio robotams, kokius veiksmus jiems leidžiama atlikti apsilankius jūsų svetainėje.

Šis kuklus teksto failas daug ką pasako apie jūsų puslapio prieinamumo nuostatas. Ar turite tam tikrų katalogų ar puslapių, kuriuos norite apsaugoti nuo smalsių robotų akių? Robots.txt faile rasite viską, kas jums reikalinga! Jo turinyje paprastai nurodomos direktyvos - konkretūs nurodymai, duodami žiniatinklio naršyklėms - padedantys veiksmingiau valdyti svetainės prieigą. Šis išradingumas leidžia užtikrinti tinkamą informacijos pateikimą turinys lengviau atlikti paiešką ir kartu apsaugoti jautrias vietas nuo atsitiktinio poveikio.

Galiausiai išmokti aptverti mūsų kibernetinės erdvės dalis domenai tiksliai suteikia mums, kaip žiniatinklio valdytojams, galimybę geriau valdyti botų buvimą ir įtaką brangiose mūsų platformų srityse - todėl šiandien ir sutelkiame dėmesį.

Techninė Robots.txt sintaksė

Robots.txt failo sintaksė - tai iš esmės kalba ir gramatinė struktūra, naudojama direktyvoms kurti. Labai svarbu suprasti, kaip tinkamai panaudoti šią sintaksę, kad būtų lengviau išmokti blokuoti robotus naudojant robots txt.

Vartotojo agentas: Vartotojo agento direktyva nurodo boto, su kuriuo norite bendrauti, tipą, pvz., "Googlebot" - "Google", "BingBot" - "BingBot". Bing. Direktyvų rinkinį pradėkite nuo "User-agent: *" reiškia, kad visi žiniatinklio naršyklės turėtų atsižvelgti į šiuos nurodymus.
Neleisti: Šia direktyva siunčiamas aiškus pranešimas - venkite iškart po jos aprašyto kelio. Tarkime, jei parašysite: "Disallow: /images/", nurodote bet kuriam jį skaitančiam robotui šliaužti jūsų svetainės vaizdai katalogas.
Leisti: Atvirkščiai nei draudimas, "uždraustų" katalogų viduje, teiginys allow suteikia prieigos leidimą tam tikriems pakatalogiams ar failams.

Pavyzdžių parinkimas

Vienas iš sudėtingų, tačiau labai svarbių robots.txt failo sintaksės elementų yra šablonų atitikimas. Be tiesioginio kelių nurodymo, šablonų atitikimas leidžia paprastais simboliais suformuluoti sudėtingus nurodymus, kaip blokuoti robotus robotų txt faile.

Mokydamiesi apie šablonų atitikimą daugiausia dėmesio skirkite dviem pagrindiniams simboliams - "*" (žvaigždutė) ir "$" (dolerio ženklas). Žvaigždutė veikia kaip pakaitinis simbolis, o dolerio ženklas simbolizuoja URL adreso pabaigą.
Naudojant žvaigždutę draudžiamoje frazėje, žymima bet kokia ten esanti eilučių seka. Pavyzdžiui, "Disallow: /example" uždraus žiniatinklio naršyklėms pasiekti bet kurį jūsų svetainės puslapį, kurio URL yra "example".
Priešingai, skirtingų terminų pabaigoje pridėjus "$" nurodoma, kad tik URL adresai baigiasi taip, kad draudžiama šliaužiojimas robotai. Pranešimas "Neleisti: /*example$" apriboja prieigą tik prie puslapių, kurių URL baigiasi būtent "example".

Atminkite, kad ne visi vorai supranta šiuos modelius arba jų laikosi, ypač daugelis į šlamštą orientuotų vorų, todėl į tai atsižvelkite kurdami direktyvas ir ieškodami veiksmingų būdų, kaip efektyviai blokuoti robotus naudojant robots txt failus.""""

Robots.txt failo išdėstymas gali pasirodyti bauginantis, tačiau galite būti tikri, kad tai gana paprastas procesas. Šis nedidelis, tačiau labai svarbus dokumentas turi būti vienoje tikslioje vietoje - jūsų svetainės šakniniame kataloge.

Svarbiausia nepamiršti, kad šį paprastą teksto failą turi lengvai rasti naršyklės. Į "šakninį" arba viršutinį katalogą paprastai pirmiausia patenka paieškos sistemų robotai nusileidimas ant jūsų domenas. Taigi, čia patalpinus robots.txt failą iš karto ir aiškiai nurodoma, kurios jūsų svetainės dalys turėtų būti prieinamos.

Tiems, kurie mažiau susipažinę su žiniatinklio kalba, gali kilti klausimas, ką tiksliai turime omenyje kalbėdami apie "šakninį" katalogą. Iš esmės jūsų svetainės šakninis katalogas yra tarsi medžio kamienas, iš kurio išauga visi kiti katalogai - jis sudaro jūsų internetinės svetainės pagrindą. Pavyzdžiui, jei jūsų svetainės URL yra www.example.com, šakninis katalogas būtų / (pasvirasis brūkšnys po .com). Taigi, www.example.com/robots.txt puikiai nurodo savo vietą jūsų šakniniame kataloge.

Priešingai, jei jis būtų padėtas po kitu pakatalogis pvz., /blog/robots.txt, neturės pageidaujamo poveikio, nes robotai nesivargins ieškoti taip toli jūsų svetainėje prieš gaudami nurodymus.

Labai svarbu, kad neteisingas padėties nustatymas gali lemti neveiksmingą naršymą ir indeksavimą - du esminiai veiksniai, lemiantys SEO sėkmę, nes paieškos sistemos nežinos, kur jiems leidžiama ar draudžiama tyrinėti, kai jie pasieks "jūsų slenkstį".

Taigi įsitikinkite, kad turite vietą prikaltas žemyn, kai žiūri, kaip blokuoti botus naudojant robots txt failus efektyviai. Vieta iš tiesų atlieka neatsiejamą vaidmenį šiame techniniame SEO kertiniame nustatyme.

Suprantant robots.txt failų svarbą ir veikimą, lieka vienas aktualus klausimas: kam reikalingas robots.txt failas?

Pirma, robots.txt faile pateikiamos nuorodos žiniatinklio naršyklėms, kaip jos turėtų sąveikauti su jūsų svetaine. Kai paieškos sistemos kreipiasi į jūsų svetainę, norėdamos ją indeksuoti, šie robots.txt faile pateikti nurodymai tampa svarbūs. Jie padeda paieškos robotams, tokiems kaip "Google" "Googlebot" ar "Bing" "Bingbot", naršyti jūsų domene.

Antra, robots.txt failas yra labai svarbus valdant prieigą prie privačių svetainės skyrių, kurie yra jautrūs arba kuriami. Galite specialiai nurodyti robotams iš indeksavimas tokį turinį. Taip užtikrinama, kad nepageidaujamos sritys liktų neindeksuojamos ir viešai nematomos paieškos rezultatų puslapiuose (SERP).

Be to, žiniatinklyje yra daugybė naršymo robotų, tiek gerų, tiek piktybinių. Nustatydami, kas ir ką gali naršyti jūsų svetainėje, naudodami konkrečias "User-agent" komandas robots.txt faile, išlaikysite aukštus apsaugos standartus nuo potencialių grėsmių, kurios lankosi prisidengdamos nekaltu naršymu.

Galiausiai, be "Robots txt" faile nustatytų apribojimų kai kurie robotai gali perkrauti serverius, apkraudami juos užklausomis, todėl naudotojas gali sulėtėti. patirtis arba DDoS (angl. Distributed Denial of Service) atakos. Todėl jis yra svarbi priemonė, užtikrinanti optimalų serveris našumas.

Kai toliau šiame straipsnyje pradėsite susipažinti su savo "Robots txt" failo struktūra, prisiminkite šią pagrindinę sąvoką: Robots txt failas yra labai svarbus siekiant apsaugoti ir optimizuoti bet kurio domeno buvimą internete.

Patikrinimas, ar turite robots.txt failą

Pereikime prie to, kaip galite nustatyti, ar jūsų svetainėje jau yra "robots.txt" failas. Paprastai jis yra jūsų svetainės šakniniame kataloge.

Norint patikrinti, ar jis yra, rekomenduočiau atlikti šiuos paprastus veiksmus:

Atidarykite mėgstamą interneto naršyklę.
Į adresas baras prie viršuje, įveskite yoursitename.com/robots.txt; vietoj "yoursitename.com" įrašykite savo tikrąjį domeno pavadinimą.

Jei jūsų svetainėje yra robots.txt failas, jūsų ekrane turėtų būti rodomas šio neįspūdingo, bet įtakingo failo turinys. Priešingai, klaidos pranešimas, panašus į "404 puslapis nerastas" arba "failas nerastas", reikštų, kad robots.txt failo šiuo metu nėra.

Atminkite, kad teisingai įgyvendinti "kaip blokuoti botų robotai txt strategija daro didelę įtaką optimizavimui paieškos sistemoms (SEO). Todėl labai svarbu žinoti, ar jį turite, ar ne.

Apibendrinant (nors tai nėra privaloma), robots.txt failo supratimas ir tinkamas naudojimas šiandien yra neatsiejama sėkmingo svetainių valdymo dalis. Jei atlikę šiuos veiksmus ir patikrinę, ar failas egzistuoja, vis dar nesate tikri, kreipkitės į specialistus, nes tai gali būti susiję su sudėtingesnėmis IT priemonėmis. žinios nei tikėtasi.

Taip pat nepamirškite, kad robots.txt nebuvimas nebūtinai yra žalingas - tai tik reiškia, kad paieškos sistemų robotai turi neribotą prieigą prie visų jūsų svetainės sričių. Reikšminga tokios prieigos kontrolė taps visiškai įmanoma, kai suprasime, kaip efektyviai blokuoti "robots robots txt" savo svetainėse!

Kaip sukurti Robots.txt failą

Robots.txt failo sukūrimas yra esminis žingsnis valdant paieškos sistemų robotų sąveiką su jūsų svetaine. Pasinerkime į jo kūrimo procesą.

Robots.txt sudedamųjų dalių supratimas

Tipinį robots.txt failą sudaro du pagrindiniai komponentai, įskaitant User-agent ir Disallow direktyvas. Vartotojo agentas nurodo konkretų žiniatinklio naršyklę, pavyzdžiui, "Googlebot" arba "Bingbot", kuriai norite, kad būtų skirti jūsų nurodymai. Kita vertus, direktyvoje Disallow išvardijami puslapiai arba katalogai, kurių nenorite, kad tam tikri robotai naršytų. Pavyzdžiui:

Vartotojo agentas: Uždrausti: * Uždrausti: /private/

Šiuo atveju visiems botams ("*" reiškia visus) užblokuojama prieiga prie bet ko, esančio "private" kataloge.

Šviežių failų generavimas

Dabar pereikite prie šio įmantraus kodo generavimo. Jums reikės paprasto teksto redaktoriaus - puikiai tiks "Notepad". Tekstų redaktoriai, tokie kaip "Microsoft Word", netinka šiai užduočiai atlikti, nes jie linkę įterpti papildomų formatavimo ženklų.

Pirmiausia sukurkite naują dokumentą ir išsaugokite jį kaip "robots.txt". Nepamirškite, kad čia svarbios didžiosios raidės - įsitikinkite, kad viskas rašoma mažosiomis raidėmis. Tada sukurkite sintaksę pagal tai, kokias skiltis norite blokuoti. Atminkite, kad kiekviena taisyklė turi būti atskiroje eilutėje:

Vartotojo agentas: Uždrausti: * Uždrausti: /

Ši taisyklė draudžia visiems robotams pasiekti bet kurią jūsų svetainės dalį (žymimą "/"). Naudokite ją atsargiai!

Svetainė raktažodis čia yra konkretumas; mokantis blokuoti botus robotai txt moduliai yra universalūs įrankiai, leidžiantys tiksliai kontroliuoti botų veiksmus.

Failo įkėlimas

Sukūrę robots.txt failą įkelkite jį į svetainės šakninį aplanką naudodami FTP (failų perdavimo protokolą). Paprastai jis būna toje pačioje vietoje, kaip ir aplankas wp-admin, wp-content ir wp-includes.

Sėkmingai atlikę šiuos veiksmus, naudotojai gali rasti jūsų Robots.txt failą, po pagrindinio domeno - pvz., www.example.com/robots.txt - pridėję "/robots.txt". Dabar jau įvaldėte, kaip sukurti robots.txt failą!

Atminkite, kad nors ir veiksminga nukreipti sąžiningus ropojančius robotus, mandagumas diktuoja tik atitiktį; gudresni destruktyvūs robotai gali nuspręsti juos ignoruoti.

Turėdami šias žinias, nepamirškite, kad būtina techninė priežiūra - periodinė priežiūra užtikrina nuolatinį efektyvumą, todėl skirkite laiko reguliariems patikrinimams. Sėkmingo kodavimo!

Konkrečių botų ir failų / aplankų blokavimas

Gilinantis į temą - kaip užblokuoti robotus robotus txt, svarbu suprasti, kad ši užduotis ne visada susijusi su visų roverių apribojimu. Dažnai galite norėti nurodyti tik tam tikrus nepageidaujamus robotus arba apriboti prieigą tik prie nurodytų failų ir katalogų. Tokiais niuansų scenarijais robots.txt failo tvarkymas gali būti labai svarbus.

Įvairovės vienybė - plačiai paplitusi taktika, kurią naudoja įvairios interneto paslaugos. Įvairių tipų žiniatinklio naršyklės plūduriuoja internetas su skirtingu elgesiu ir galimybėmis. Kai kurie vorai yra labai svarbūs indeksuojant turinį, pavyzdžiui, "Googlebot", o kiti, pavyzdžiui, šlamšto robotai, gali pakenkti jūsų svetainės veikimui.

Šiuos mažiau konstruktyvius robotus galima blokuoti dviem būdais: siaurai arba plačiai. Siaurasis būdas reiškia, kad konkrečiam botui užblokuojama visa svetainė, o platesnis - kad kiekvienam botui užkertamas kelias į tam tikrą aplanką ar failą.

Prieš tęsdami supraskime, kaip robots.txt faile galite nurodyti vartotojo agentą (t. y. botą). Kiekviena šio dokumento taisyklė turi prasidėti nurodant "User-agent" (vartotojo agentą), po kurio rašomas dvitaškis (:), o tada nurodomas agento pavadinimas. Palikus jį kaip žvaigždutę (*), tai reiškia, kad bet kuris puslapyje apsilankęs robotas. Vietoj to galima pasirinkti įvesti konkrečius tam tikrų botų pavadinimus.

Toliau pateikiamos direktyvos "Drausti" arba "Leisti", kuriomis nurodomi leistini veiksmai, kuriuos identifikuoti naudotojų agentai gali atlikti konkrečiose jūsų svetainės srityse.

Atminkite, kad svarbu ne tik žinoti, kaip blokuoti robotus robotus txt, bet ir kodėl - daugiausia dėmesio skiriama išteklių švaistymo prevencijai ir apsaugai nuo kenkėjiškos pažeistų agentų veiklos.

Baigdami kalbėti apie blokavimo ypatumus, nepamirškite, kad patikimumas vaidina svarbų vaidmenį pasitikint šių taisyklių laikymusi - pagrindinės paieškos sistemos paprastai jų griežtai laikosi; deja, mažiau žinomi grandymo robotai retai tinkamai jų laikosi. Nepasikliaukite vien robots.txt, jei bandote apsaugoti slaptus duomenis!

Robots.txt vs Meta Robots vs X-Robots

Labai svarbu žinoti, kaip blokuoti botus naudojant robots txt, tačiau tai nėra vienintelis būdas kontroliuoti botų elgesį jūsų svetainėje. Taip pat yra meta robotai ir x-robots žymos - dvi kitos veiksmingos priemonės, kuriomis interneto robotams pateikiamos instrukcijos apie jūsų svetainę. Jei svarstote, kurią iš jų naudoti arba kuo jos skiriasi nuo kitų, paaiškinsiu.

Robots.txt failas

Kaip jau aptarėme, robots.txt failas yra pagrindinis žiniatinklio valdytojo vadovas, nukreipiantis paieškos sistemas į tam tikras svetainės dalis arba nuo jų. Šiame nedideliame tekstiniame faile, esančiame šakninio katalogo lygyje, paprastai pateikiamos bendros direktyvos visiems naudotojo agentų robotams, nebent nurodomi konkretūs.

Iš esmės robots.txt faile robotams sakoma: "Šios sritys yra uždraustos." Tačiau žinokite, kad ne visi vorai laikosi šių taisyklių.

Kas yra Meta robotų žymos?

Meta robotų žymos suteikia daugiau galimybių valdyti, palyginti su platus robots.txt faile pateiktos gairės. Šie HTML atributai nurodo paieškos sistemų robotams indeksuoti atskirus puslapius, o ne ištisus katalogus ar svetaines. Jie nurodo paieškos sistemoms, ar puslapį indeksuoti ("noindex"), sekti jo nuorodas ("nofollow"), "none" (kas reiškia, kad puslapis neindeksuojamas ir nofollow), be kitų komandų. Metarobotų žymos tiesiogiai bendrauja su paieškos sistemų naršyklėmis puslapis po puslapio ir suteikia tikrą universalumą valdant naršyklių elgesį.

Kaip veikia "X-Robots" žymos?

X-Robots žymos turi panašumų su meta robots žymomis, nes jose taip pat pateikiamos išsamios instrukcijos puslapio lygmeniu. Tačiau, skirtingai nuo jų analogų, kurie rodomi HTML dokumentuose, x-robots žymos yra HTTP antraštės. Pažymėtina, kad dėl tokio išdėstymo jos gali veikti net ir ne HTML failams, pavyzdžiui, PDF ar paveikslėliams. Tačiau, kaip ir metarobotų žymų atveju, x-robotų žymų veiksmai gali būti įvairūs: "noindex", "nofollow" ir net "nosnippet".

Taigi, nors mokėjimas blokuoti robotus naudojant robots txt iš tiesų yra vertingos žinios bet kuriam žiniatinklio valdytojui, metarobotų ir x-robotų stipriųjų pusių supratimas ir pritaikymas suteikia dar platesnį įrankių rinkinį, kai kuruojate savo svetainės santykius su žiniatinklio naršyklėmis.