Как да използваме Robots txt за SEO

Винаги, когато отиваме да изследваме ново място, се нуждаем от насоки за удобство и спестяване на време! По същия начин уеб роботи като този на Всяка търсачка използва файла Robots.txt, за да разбере как да обхожда страниците на даден уебсайт.

Между другото, поведението на такива пълзящи машини да се движат навсякъде интернет, достъп, индексиране и предоставяне на съдържанието на целевите потребители. са на базата на група уеб стандарти, известни като REP или протокол за изключване на роботи, който включва и robots.txt.

Какво е Robots txt?

В по прост начин можем да разберем и запомним robots.txt като комбинация от два термина Robot и Txt. И така, това е txt или текстов файл, който е предназначен да се използва от уеб роботите, които е възможно да се използват от търсачките.

Тя може да помогне на уебмастърите, ако уебсайтът контролира поведението на потребителския агент при обхождане, но това трябва да се прави внимателно, тъй като забраната на важни или всички страници на вашия сайт от търсачка като Google може да бъде много опасно.

Уебмастърите на даден уебсайт могат да използват robots.txt, за да инструктират софтуера за обхождане на мрежата или потребителските агенти да какво всички части за обхождане и какво ли още не на сайта. Това може да стане чрез използване на инструкции "allow" или "disallow" във файла robots.txt за някои или всички потребителски агенти на обхождащите машини

Какво е файл Robots txt?

Търсачката е отговорна основно за две основни задачи, за да може да свърши своята работа. Първата е да открива съдържанието в мрежата, като го претърсва навсякъде и индексира актуализациите. Следващата задача е да търси свързана информация в своята индексиран директория, за да се предостави правилното съдържание според заявката за търсене.

И така, какво е Robots txt?

Търсачките следват връзки и преминаване от един уебсайт в другПроцесът се нарича още "паяжинообразуване". Всеки път, когато ботът или уеб кроулърът достигне до нов уебсайт, преди да започне да го паякосва, той първо търси файла robots.txt. Ако получи такъв, той ще го прочете, за да получи информация за това как да обхожда уебсайта, особено какво да достъпва и какво не! В случай че няма файл robots.txt, потребителският агент може да започне да обхожда другата информация, налична в уебсайта.

Какво трябва да има във файла Robots txt?

Файлът трябва да се състои най-малко от следните два елемента;

User-agent: (Име на потребителския агент)

Забрана: (Редица URL адреси, които не трябва да бъдат обхождани)

Горните два реда заедно могат да се разглеждат като отделен набор от директиви за потребителския агент и се отделят от други набори с помощта на прекъсване на реда (/).

Ако във файла е зададено едно правило за повече от един потребител-агент, тогава обхождащата програма първо ще прочете и ще следва директивите, които са споменати в отделна група инструкции.

Как да получите достъп до Robots txt?

Всеки може да прегледа съдържанието на robots.txt в даден уебсайт, като просто използва метода на браузъра.

Как да получа Robots txt?

Трябва да добавите robots.txt след главния URL като https://demo.com/robots.txt или негов поддомейн като https://shop.demo.com/robots.txt.

Как да намерим Robots txt на даден уебсайт?

Задължително е файлът robots.txt да бъде достъпен след основния домейн. Така че можете да посочите същото в браузъра.

Как да проверите Robot txt за уебсайт?

Ако на изхода няма да намерите никаква .txt страница, това означава, че в момента на уебсайта няма (жива) страница robots.txt.

Как да намерите файла Robots txt?

Трябва да има отделни файлове robots.txt за основния домейн (demo.com/robots.txt) и за всеки негов поддомейн(блог.demo.com/robots.txt).

Как да прочетете Robots txt?

Всички инструкции, съдържащи се във файла, трябва да бъдат прочетени отгоре надолу от човек или от софтуерен бот! Възможно е робот или потребителски агент да не прочете файла robots.txt на даден уебсайт. Обикновено това е възможно при скрепери на имейл адреси или злонамерени роботи от типа на злонамерени обхождащи програми.

Каква е употребата на Robots txt?

Използването на robots.txt в даден уебсайт има много предимства. Такива са;

- Да попитате търсачките да направете да не индексира определени файлове, като PDF файлове, изображения и др., на вашия уебсайт. Метадирективите могат да се използват и като алтернатива на robots.txt, за да се избегне индексирането на страниците, но не работят за ресурсни файлове.

- Уебмастърът може да осигури ефективно обхождане на даден уебсайт, като предостави полезни съвети на своите ботове.

- За да избегнете показването от търсачките на вътрешно търсене страница с резултати в публичния SERP.

- Чрез блокиране на определени маловажни или ненужни страници на уебсайта можете да увеличите бюджета си за обхождане на необходимите страници.

- Да се използват като метароботи, за да се избегне показването на дублирано съдържание в SERP.

- Можете да се възползвате от помощта му, за да не индексирате вътрешните резултати от търсенето или счупените уеб страници на вашия уебсайт.

- За да се предотврати претоварването на уеб сървърите, което е възможно, когато обхождащите натоварване множество съдържания едновременно, като добавите известно забавяне на обхождането.

- Ако не искате хората да попадат на страница, която е в начална версия, това може да повлияе на впечатлението, особено на посетителите, които посещават даден уебсайт за първи път.

- За да се улесни достъпът на потребителските агенти до местоположението на Карта на сайта(s).

Уебмастърът може да запази определен раздел от уебсайта (особено в процес на изграждане или незавършен) напълно скрит за обхождащите го ботове.

Необходимо е да създадете файла robots.txt, ако броят на индексираните URL адреси надхвърли очакванията.

Как да приложим Robots txt?

Той е най-добър да използвате редактор на текст като Notepad или Wordpad, за да създадете прост текстов файл, съвместим с правилата за създаване на robots.txt.

Как да направя Robots txt?

Просто включете основните директиви като "User agent:" и "Disallow: /", за да създадете основен файл за уебсайта.

Как да създам файл Robots txt?

Всеки може да включи правилата, като следва съвместимия синтаксис във файла robots.txt.

Как да направя файл Robots txt за моя сайт?

Най-добрият начин е първо да генерирате картите на сайта си и да включите URL адресите му в долната част, за да го направите по-ефективен.

Как да създам файл Robots txt?

Най-често срещаните термини, които се използват във файла robots.txt, са:

- Забавяне при пълзене - Той показва колко време трябва да изчака определен обхождащ компютър, преди да получи достъп до съдържанието на дадена страница. Командата няма да работи за Googlebot, но обхождането ставка може да се зададе от конзолата за търсене на Google, за да се изпълни същата задача.

- User-agent - Посочва конкретен уеб обхождащ орган или потребителски агент (обикновено търсачка), на който уеб администраторът иска да даде инструкции за обхождане. Съществуват технически имена за търсачките като Googlebot за Google и т.н.

- Разрешаване (използва се от Google) - Това е полезен синтаксис, с който инструктирате Googlebot да обхожда подпапка или страница, която се намира в родителска подпапка или страница, която може да бъде забранена.

- Disallow (забрана) - с тази функция се указва на уеб бота да няма достъп до определен URL адрес. Командата не трябва да се разрешава два пъти за даден URL адрес.

-Sitemap - Всеки съвместим потребителски агент като Yahoo, Ask, Bing или Google може да получи достъп до тази команда, за да намери местоположението на споменатите XML карти на сайта въз основа на URL адрес.

Забележка: Регулярните изрази като знак за долар ($) и звездичка (*) могат да се използват от SEO за да помогне на потребителските агенти на Bing и Google да идентифицират подпапки или страници. Тук * е синтаксисът за съвпадение на шаблони, за да се обхванат всички възможни варианти за завършване на URL, а * е за представяне на различна последователност от символи, работеща като обикновен заместител.

Как да предотвратите обхождането на вашия сайт от ботове?

Това може да стане чрез блокиране или забрана на уеб ботовете чрез задаване на директиви за всеки от тях или за всички, за да нямат достъп до дадена страница или подпапка на уебсайт.

Как да спрем ботовете да обхождат сайта ми?

Ето някои директиви, които обикновено се използват във файла robots.txt, за да инструктират своите потребителски агенти или уеб обхождащи машини;

Как да разрешите Robots txt?

1) Позволява на всеки уеб обхождащ компютър да намери цялото съдържание

Синтаксис: Потребителски агент: * Забранено:

Как да предотвратим уеб обхождането?

2) Забрана за достъп до дадена папка на определен уеб браузър

Синтаксис: Потребителски агент: Googlebot Disallow: /extra-subfolder/

(Горната инструкция изисква от обхождащия модул на Google да не осъществява достъп до страници от местоположението www.site-name.com/extra-subfolder/)

Как да забраня всичко в Robots txt?

3) Забрана за достъп до съдържание на всички уеб обхождащи програми

Синтаксис: Потребителски агент: * Забранено: /

(Можете да използвате простата инструкция като решение за Как да блокирате ботове Robots txt?)

Как да блокирате пълзящите машини?

4) Забрана за достъп до определена уеб страница на определен уеб браузър

Синтаксис: Потребителски агент: Googlebot Disallow: /extra-subfolder/useless-page.html

Какво представляват роботите на Google?

Популярната търсачка използва много паяк софтуер, който се върти из цялата мрежа и сканира уебсайтовете. Изтъкнатите от тях са Googlebot, Googlebot-images (използван за изображения) и Googlebot-news (за индексиране и предоставяне на информация за новини на потребителите).

Как да създам Robots txt за моя уебсайт?

Използвайте текстов редактор, който може да създава стандартен UTF-8 текстов файл. Създаването на файла с помощта на текстообработваща програма може да добави някой неочакван символ, като например къдрави кавички, и да го запише в патентован формат, което може да създаде проблеми на обхождащите машини да разберат инструкциите. Коментари могат да се добавят след посочване на # символ или знак.

Наемане на SEO консултант

Наемете #1 SEO консултант, живеещ в Лондон, който е работил с компании като Zoopla, uSwitch, Mashable, Thomson Reuters и много други. Наемете Лукаш Железни (MCIM, F IDM).

Как да създам файл Robots txt за Google?

Ето някои предложения за създаване на файла, специално за потребителските агенти на Google;

1) Файлът трябва да отговаря на стандарта за изключване на роботи.

2) Тя може да включва едно или повече правила за разрешаване или блокиране на достъпа на определен ползувател до определен път на сайта.

3) Уебмастърът трябва да е запознат с почти всички синтаксиси на файла robots.txt, за да разбере финото поведение на всеки синтаксис.

4) Сайтът не може да има повече от един файл robots.txt.

5) Файлът поддържа както поддомейни (като http://website.demo.com/robots.txt, така и нестандартен порт като (http://demo:8181/robots.txt).

6) Ако не знаете или нямате достъп до главната папка на уебсайта си, най-добре е да се обърнете към доставчика на хостинг услуги, за да запази файла robots.txt в нея. В случай че нямате достъп до главната папка на уебсайта, тогава използвайте мета тагове като алтернативен метод за блокиране.

7) Във файла robots.txt могат да бъдат включени повече от една групови директиви или правила (споменати по едно на ред).

8) Той поддържа само ASCII символи.

9) Групата предоставя информация за това за кого се прилага (потребителски агент) и кои са всички файлове или директории, до които агентът няма/може да има достъп. Директивите се обработват отгоре надолу. Уеб ботът се асоциира само с един набор от правила, който може да бъде посочен отделно или да е на първо място.

10) Според предположението по подразбиране ботът може да обхожда всяка директория или страница чрез синтаксиса "Disallow:".

11) Директивите, използвани във файла, се различават по големина на буквите, като например Disallow: /one.xml не се прилага за ONE.xml.

12) Прилага се за целия домейн на уебсайт, състоящ се от https или http протокол.

Обикновено потребителските агенти на Bing и Google работят с определена група директиви, но по подразбиране се предпочитат първо правилата за съвпадение, тъй като различните уеб ботове на търсачките тълкуват директивите по различен начин.

Също така се препоръчва на уебмастърите да избягват използването на синтаксиса crawl-delay в своя файл robots.txt, за да намалят общото време за обхождане на ботовете на търсачките.

Как да проверите вашия Robots txt?

Можете да се възползвате от помощта на инструмента robots.txt Tester, наличен на Конзола за уебмастъри на Google за да проверите дали ботовете на Google са в състояние да обхождат URL адреса, който вече сте блокирали в търсачката си. Той може също така да покаже логическите грешки и предупрежденията за синтаксис, ако има такива във вашия robots.txt. Можете да го редактирате и да го тествате отново.

След като всичко е наред, можете да се справите с промените и да актуализирате основния си файл, разположен на сървъра на уебсайта ви. По същия начин можете да използвате различни инструменти, за да проверите предварително поведението на търсачката при обхождане, след като прочетете robots.txt на вашия уебсайт.

Как да проверите дали Robots txt работи или не?

Можете също така да проверите как роботизираният файл robots.txt във вашия уебсайт функционира, като използвате функцията "Блокирани URL адреси" в раздела "Претърсване", предоставен в лявата част на Инструменти за уебмастъри на Google. Тя обаче може да не показва актуалната или актуализирана версия на robots.txt, но може да се използва за тестване.

Как да проверите файла Robot txt в уебсайт?

Опитайте се редовно да проверявате файла robots.txt с помощта на какъвто и да е инструмент за това дали всичко в него е валидно и дали файлът работи по правилния начин, както се очаква! Между другото, може да отнеме много дни или дори няколко седмици на търсачката да идентифицира забранения URL адрес, като прочете за него от файла robots.txt, и да премахне индексирането му.

Как да добавя Robots txt в HTML?

След като включите всички набори от правила във файла и го именувате с robots.txt, той трябва да бъде записан в главната или коренната папка на уебсайта в сървъра. Папката на коренно ниво може да бъде "www" или "htdocs", което помага на robots.txt да се появи до името на вашия домейн.

Как да създам файл Robots txt?

Винаги се препоръчва да се поддържа разумен размер на robots.txt, като се избягва споменаването на нежелани директиви във файла. Това е така, защото още преди години Джон Мюлер от Google е изяснил факта, че Googlebot ще има достъп само до първите 500 kB от файла robot.txt. Гигантският файл може да бъде съкратен по нежелан начин, за да се образува ред, който може да се тълкува като непълно правило.

За какво се използва файлът Robots txt?

Известен е също като протокол за изключване на роботи или стандарт за изключване на роботи, който се използва от уебсайтовете за комуникация с уеб роботи или обхождащи програми. Търсачките използват своите роботи, за да категоризират уебсайтовете.

Уебмастърите използват файлове robots.txt, за да инструктират или насочват тези роботи за по-добро индексиране на техните уебсайтове. Не се нуждаете от файл robots.txt, ако не искате да контролирате достъпа на потребителски агенти до която и да е област на уебсайта си. Повече подробности за robots.txt можете да намерите в някоя от темите за напреднали, като например Как да създадем бот за търсачки?

Как да използваме Robots txt за SEO?

За по-добро класиране в търсачките най-добрата SEO практика е да позволите на техните обхождащи устройства да достигнат и да получат достъп до вашия сайт с лекота. Уебсайтът ни обикновено се състои от много нежелани страници, отколкото сме очаквали, и когато ботовете на търсачките обхождат всяка страница на сайта ви, това със сигурност ще отнеме повече време, а това със сигурност ще се отрази негативно на неговата класиране.

Google използва бюджета за обхождане (разделен на две части - ограничение на скоростта на обхождане и търсене на обхождане) за всеки уебсайт, за да определи броя на URL адресите, които иска или може да сканира. Така че, ако помагате на такива ботове или потребителски агенти да имат достъп и да индексират само най-ценното съдържание на вашия уебсайт, robots.txt е задължителен!

SEO оптимизаторът никога не иска да блокира раздели или съдържание на уебсайта, които е необходимо да бъдат обходени.

- Една търсачка като Google може да има множество потребителски агенти като Googlebot-Image (за търсене на изображения) и Googlebot (за органично търсене). Много потребителски агенти, които принадлежат на една и съща търсачка, могат да следват едни и същи правила, така че много уебмастъри пропускат да задават директиви за всеки от тези търсачки. Един SEO оптимизатор може да се възползва от това, като спомене различни инструкции за всеки от обхождащите агенти, дори ако те дължат на една търсачка, за да контролира по-добре поведението им при обхождане.

- За по-добра SEO оптимизация е необходимо забранените връзки или страници да не включват други връзки, които трябва да бъдат следвани. Така че блокираната страница не трябва да предава капитал на връзката към дестинацията на връзката или е по-добре да се използва друг механизъм за блокиране. Те също така не трябва да бъдат свързвани с други страници, достъпни за търсачките, т.е. уебстраници, които не са забранени от метароботи, robots.txt или друго. В противен случай важните свързани ресурси няма да бъдат достъпни и индексирани от търсачките.

- Най-добре е да изпратите robots.url URL адреса директно в Google след всички актуализации на файла, за да осигурите бърз достъп до него от целевия потребителски агент. Обикновено търсачката актуализира кешираното съдържание на robots.txt поне веднъж на ден.

Как да направим Robot txt ефективен за SEO?

Добре е да се посочи местоположението на всички или на карти на сайта на базата на домейна на уебсайта в долната част на файла robots.txt. Между другото, картите на сайта са XML файлове, които съдържат подробна информация за страниците на даден уебсайт, като например техните URL адреси със свързаните с тях метаданни, като важност, интервал на актуализация и последна актуализация.

Цялата тази информация може да се използва от ботовете на търсачките за интелигентно обхождане на уебсайта. Така че по този начин уебмастърите могат да помогнат на потребителските агенти, които поддържат карти на сайта, да знаят и да имат достъп до всички URL адреси от картата на сайта и да знаят повече за тях в процеса на откриване на страници от една връзка към друга в рамките на един или от друг сайт.

Например;

Адрес на браузъра: https://www.demo.com/robots.txt

Изход:

Агент на потребителя: *

Да не се допуска: *.dl.html

Позволете: /*.html$

Карта на сайта: https://www.demo.com/en-au/sitemap.xml

Карта на сайта: https://www.demo.com/en-se/sitemap.xml

Карта на сайта: https://www.demo.com/en-us/sitemap.xml

(Горните директиви са за извикване на повече от една карта на сайта чрез файла robots.txt.)

Как да избегнем Robots txt?

Robots.txt крие рискове за сигурността, тъй като много злонамерени ботове не могат да го следват, както и да го използват, за да знаят всички забранени връзки и да имат директен достъп до тях. Затова като решение можете да защитите с парола областта на уебсайта си, която съдържа частно съдържание, така че нарушителят да не може да получи достъп до нея, дори и след като знае местоположението ѝ.

За да представите чувствителни данни от индексиране или да се появите в SERP (директно или индиректно, т.е. чрез харесвани страници), най-добре е да използвате друг метод, а не да забраните същото в robots.txt, за да блокирате страницата. Това може да бъде или директива за забрана на индексирането, или методи за защита с парола.

Как да премахнете файла Robots txt от уебсайта?

WordPress обикновено прави виртуален файл robots.txt по подразбиране в главния адрес директно за своите уебсайтове, който не може да бъде видян в директорията. Така че винаги е най-добре да създадете нов файл, който се припокрива с всички настройки по подразбиране, особено за да забраните страницата за вход или регистрация, която няма значение за търсачката!

Много хора обикновено са объркани как да премахнат Robots txt в WordPress или други платформи. Процесът обаче е един и същ за всички! Файлът robots.txt трябва да бъде записан в директорията от най-високо ниво на уебсайта, т.е. в главния домейн или в главната директория, за да може ботовете да го намират лесно. Така че всичко, което трябва да направите, е да изтриете файла директно от тази конкретна папка или място.

Заключителни мисли

Опитайте се да не включвате инструкциите за скриване на поверителна потребителска информация във файла robots.txt. Това е така, защото файлът е публично достъпен и може да се видят указанията му, като се добави /robots.txt в края на главния домейн.

По този начин всеки може да узнае кои страници са разрешени от уебмастъра на сайта да бъдат обхождани или не от всички или определени уеб ботове. Файлът трябва да бъде запазен само с името "robots.txt", тъй като то е чувствително към малки и големи букви, така че никоя друга комбинация няма да бъде приета от нито един потребителски агент!

И накрая, може да сте объркани между x-robots, meta robots и robots.txt, които звучат като подобни термини. Сред тях x-robots и meta са метадирективи, но robots.txt е текстов файл и се използват за прилагане на различни функции.

По-конкретно, x-robots и meta определят поведението на индексиране на ниво елемент на страницата (или отделна страница), докато robots.txt предоставя информация за поведението на директорите или на обхождането на сайта.

Съществуват по-големи шансове ботовете на търсачките да индексират и покажат съдържанието на вашия уебсайт в SERP по по-добър начин и да го направят по-видим, като изразходват добре бюджета си за обхождане, докато сканират същия сайт. С помощта на robots.txt може също така да блокирате обхождането на автоматично генерирани страници с тагове на WordPress и да предотвратите дублиращо се съдържание.

Като цяло трябва да внимавате много, когато решавате какво да включите във файла robots.txt. В края на краищата една малка грешка във файла robots.txt може да доведе до деиндексиране на целия ви уебсайт.

Публикувано в: януари 2021

Последно актуализирано през 2023-02-04T21:08:56+00:00 от Лукаш Железен

Написано от:

Лукаш Железен

Споделете тази статия:

Обратно към блога

Достъп до примерен SEO GAP анализ

SEO.London провери 35 уебсайта и над 150 000 ключови думи. Резултатът от над 5 милиона точки данни е представен по-долу.

Студио за отворени данни

В този блогпост за SEO

Какво е значението на файла TXT за вашия уебсайт през 2021 г.?

Какво е Robots txt?

Какво е файл Robots txt?

Какво трябва да има във файла Robots txt?

Как да получите достъп до Robots txt?

Как да получа Robots txt?

Как да намерим Robots txt на даден уебсайт?

Как да проверите Robot txt за уебсайт?

Как да намерите файла Robots txt?

Как да прочетете Robots txt?

Каква е употребата на Robots txt?

Как да приложим Robots txt?

Как да направя Robots txt?

Как да създам файл Robots txt?

Как да направя файл Robots txt за моя сайт?

Как да създам файл Robots txt?

Как да предотвратите обхождането на вашия сайт от ботове?

Как да спрем ботовете да обхождат сайта ми?

Как да разрешите Robots txt?

Как да предотвратим уеб обхождането?

Как да забраня всичко в Robots txt?

Как да блокирате пълзящите машини?

Какво представляват роботите на Google?

Как да създам Robots txt за моя уебсайт?

Как да създам файл Robots txt за Google?

Как да проверите вашия Robots txt?

Как да проверите дали Robots txt работи или не?

Как да проверите файла Robot txt в уебсайт?

Как да добавя Robots txt в HTML?

Как да създам файл Robots txt?

За какво се използва файлът Robots txt?

Как да използваме Robots txt за SEO?

Как да направим Robot txt ефективен за SEO?

Как да избегнем Robots txt?

Как да премахнете файла Robots txt от уебсайта?

Заключителни мисли

Блог

Свързани публикации

Достъп до примерен SEO GAP анализ