Πώς να χρησιμοποιήσετε το Robots txt για SEO

Κάθε φορά που πηγαίνουμε να εξερευνήσουμε ένα νέο μέρος, τότε χρειαζόμαστε καθοδήγηση για ευκολία και εξοικονόμηση χρόνου! Με τον ίδιο τρόπο το ρομπότ ιστού όπως αυτό του κάθε μηχανή αναζήτησης χρησιμοποιεί το αρχείο Robots.txt για να πάρει μια ιδέα σχετικά με τον τρόπο ανίχνευσης των σελίδων ενός συγκεκριμένου ιστότοπου.

Παρεμπιπτόντως, η συμπεριφορά αυτών των ερπυστριοφόρων να κινούνται σε όλο το διαδίκτυο, πρόσβαση, ευρετηρίαση και παροχή του περιεχομένου στους στοχευμένους χρήστες είναι με βάση μια ομάδα προτύπων ιστού γνωστή ως REP ή πρωτόκολλο αποκλεισμού ρομπότ που περιλαμβάνει και το robots.txt.

Τι είναι το Robots txt;

Στο με έναν απλό τρόπο, μπορούμε να κατανοήσουμε και να θυμόμαστε το robots.txt ως μείγμα των δύο όρων Robot και Txt. Έτσι, πρόκειται για ένα αρχείο txt ή κείμενο που προορίζεται να χρησιμοποιηθεί από τα ρομπότ του διαδικτύου που είναι δυνατόν να είναι εκείνα των μηχανών αναζήτησης.

Μπορεί επίσης να βοηθήσει τους διαχειριστές ιστοσελίδων, εάν ο ιστότοπος να ελέγξει τη συμπεριφορά ανίχνευσης ενός πράκτορα χρήστη, αλλά πρέπει να γίνει προσεκτικά, καθώς η απαγόρευση της σημαντικής ή όλων των σελίδες του ιστότοπού σας από μια μηχανή αναζήτησης όπως η Google μπορεί να είναι εξαιρετικά επικίνδυνη.

Οι διαχειριστές ενός δικτυακού τόπου μπορούν να χρησιμοποιήσουν το robots.txt για να καθοδηγήσουν το λογισμικό ανίχνευσης ιστού ή τους πράκτορες χρήστη να τι όλα τα μέρη για να ανιχνεύσει και τι όχι του δικτυακού τόπου. Αυτό μπορεί να γίνει με τη χρήση των οδηγιών "allow" ή "disallow" μέσα στο αρχείο robots.txt για ορισμένους ή όλους τους πράκτορες χρήστη των ανιχνευτών.

Τι είναι το αρχείο Robots txt;

Μια μηχανή αναζήτησης είναι κυρίως υπεύθυνη για δύο κύριες εργασίες για να κάνει τη δουλειά της. Η πρώτη είναι η ανακάλυψη του περιεχομένου από τον ιστό με την ανίχνευση παντού και την ευρετηρίαση των ενημερώσεων. Η επόμενη εργασία είναι να αναζητήσει τις σχετικές πληροφορίες στο indexed κατάλογο για την παροχή του σωστού περιεχομένου σύμφωνα με ένα ερώτημα αναζήτησης.

Λοιπόν, τι είναι το Robots txt;

Οι μηχανές αναζήτησης ακολουθούν το συνδέσμους και να μεταβείτε από τον ένα δικτυακό τόπο στον άλλο, η διαδικασία ονομάζεται επίσης "spidering". Κάθε φορά που το bot ή το web crawler φτάνει σε έναν νέο ιστότοπο, τότε πριν ξεκινήσει την αραχνοσκόπηση του ίδιου, αναζητά πρώτα το αρχείο robots.txt. Εάν βρει ένα τέτοιο αρχείο, τότε θα το διαβάσει για να αποκτήσει πληροφορίες σχετικά με τον τρόπο σάρωσης του ιστότοπου, ειδικά τι να προσπελάσει και τι όχι! Σε περίπτωση απουσίας του αρχείου robots.txt, οι πράκτορες-χρήστες μπορούν να αρχίσουν να ανιχνεύουν τις άλλες πληροφορίες που είναι διαθέσιμες στον ιστότοπο.

Τι πρέπει να περιέχει ένα αρχείο Robots txt;

Το αρχείο πρέπει να αποτελείται τουλάχιστον από τα ακόλουθα δύο στοιχεία,

Πράκτορας χρήστη: (Όνομα του πράκτορα χρήστη)

Απαγόρευση: (Συμβολοσειρά URL που δεν πρέπει να ανιχνευθεί)

Μαζί οι δύο παραπάνω γραμμές μπορούν να θεωρηθούν ως ένα διακριτό σύνολο οδηγιών user-agent και διαχωρίζονται από άλλα σύνολα με τη χρήση μιας αλλαγής γραμμής (/).

Εάν ένας μόνο κανόνας καθορίζεται στο αρχείο για περισσότερους από έναν πράκτορες-χρήστες, τότε το πρόγραμμα ανίχνευσης θα διαβάσει και θα ακολουθήσει πρώτα τις οδηγίες που αναφέρονται σε ξεχωριστή ομάδα οδηγιών.

Πώς να αποκτήσετε πρόσβαση στο Robots txt;

Οποιοσδήποτε μπορεί να δει το περιεχόμενο του αρχείου robots.txt που υπάρχει σε έναν ιστότοπο χρησιμοποιώντας απλώς τη μέθοδο του προγράμματος περιήγησης.

Πώς να λάβετε το Robots txt;

Πρέπει να προσθέσετε το robots.txt μετά το κύριο URL όπως https://demo.com/robots.txt ή το υποτομέα του όπως https://shop.demo.com/robots.txt.

Πώς να βρείτε το Robots txt ενός ιστότοπου;

Είναι υποχρεωτικό το αρχείο robots.txt να είναι διαθέσιμο μετά τον ριζικό τομέα. Έτσι, μπορείτε να αναφέρετε το ίδιο στο πρόγραμμα περιήγησης.

Πώς να ελέγξετε το Robot txt για τον ιστότοπο;

Εάν δεν βρείτε καμία σελίδα .txt στην έξοδο, τότε αυτό σημαίνει ότι δεν υπάρχει (ζωντανή) σελίδα robots.txt στον ιστότοπο.

Πώς να βρείτε το αρχείο Robots txt;

Θα πρέπει να υπάρχουν ξεχωριστά αρχεία robots.txt για τον ριζικό τομέα (demo.com/robots.txt) και για κάθε υποτομέα του(blog.demo.com/robots.txt).

Πώς να διαβάσετε το Robots txt;

Όλες οι οδηγίες που περιέχονται στο αρχείο πρέπει να διαβαστούν από την αρχή έως το τέλος είτε από έναν άνθρωπο είτε από οποιοδήποτε ρομπότ λογισμικού! Είναι πιθανό ένα ρομπότ ή ένας πράκτορας χρήστη να μην διαβάσει το αρχείο robots.txt ενός ιστότοπου. Συνήθως αυτό είναι δυνατό με τα scrapers διευθύνσεων ηλεκτρονικού ταχυδρομείου ή τα ρομπότ κακόβουλου λογισμικού τύπου κακόβουλων ανιχνευτών.

Ποια είναι η χρήση του Robots txt;

Υπάρχουν πολλά πλεονεκτήματα από τη χρήση του robots.txt σε έναν ιστότοπο. Τέτοια είναι,

- Για να ρωτήσετε μηχανές αναζήτησης για να do να μην ευρετηριάζει ορισμένα αρχεία όπως PDF, εικόνες κ.λπ. στον ιστότοπό σας. Οι οδηγίες Meta μπορούν επίσης να χρησιμοποιηθούν ως εναλλακτική λύση στο robots.txt για να αποφευχθεί η ευρετηρίαση των σελίδων, αλλά δεν λειτουργούν για αρχεία πόρων.

- Ένας διαχειριστής ιστοσελίδων μπορεί να διασφαλίσει την αποτελεσματική ανίχνευση ενός ιστότοπου παρέχοντας χρήσιμες συμβουλές στα bots της.

- Για να αποφύγετε τις μηχανές αναζήτησης να εμφανίζουν οποιαδήποτε εσωτερική αναζήτηση σελίδα αποτελεσμάτων στο δημόσιο SERP.

- Με το μπλοκάρισμα ορισμένων μη σημαντικών ή περιττών σελίδων του ιστότοπου μπορείτε να μεγιστοποιήσετε τον προϋπολογισμό σας για την ανίχνευση στις απαιτούμενες σελίδες.

- Να χρησιμοποιούνται όπως τα meta-robots για να αποφεύγεται η εμφάνιση διπλού περιεχομένου στις SERPs.

- Μπορείτε να χρησιμοποιήσετε τη βοήθειά του για να μην ευρετηριάζονται τα εσωτερικά αποτελέσματα αναζήτησης ή οι σπασμένες ιστοσελίδες του ιστότοπού σας.

- Για να αποφευχθεί η υπερφόρτωση των διακομιστών ιστού που είναι δυνατή όταν οι ανιχνευτές φορτίο πολλαπλά περιεχόμενα ταυτόχρονα, προσθέτοντας κάποια καθυστέρηση ερπυσμού.

- Αν δεν θέλετε να προσγειωθούν οι χρήστες σε οποιαδήποτε σελίδα που βρίσκεται στην έκδοση σταδίου, αυτό μπορεί να επηρεάσει την εντύπωση, ειδικά ενός επισκέπτη που επισκέπτεται έναν ιστότοπο για πρώτη φορά.

- Για να βοηθήσετε τους πράκτορες χρήστη να έχουν εύκολη πρόσβαση στη θέση του sitemap(s).

Ένας διαχειριστής ιστοσελίδων μπορεί να κρατήσει ένα συγκεκριμένο τμήμα μιας ιστοσελίδας (ειδικά τις υπό κατασκευή ή ημιτελείς ιστοσελίδες) εντελώς ιδιωτικό από τα bots που ανιχνεύουν.

Είναι απαραίτητο να δημιουργήσετε το αρχείο robots.txt εάν ο αριθμός των ευρετηριασμένων διευθύνσεων URL υπερβαίνει τις προσδοκίες.

Πώς να εφαρμόσετε το Robots txt;

Είναι καλύτερο να χρησιμοποιήσετε οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου όπως το notepad ή το wordpad για να δημιουργήσετε ένα απλό αρχείο κειμένου συμβατό με τους κανόνες για να φτιάξετε ένα robots.txt.

Πώς να κάνετε Robots txt;

Απλά συμπεριλάβετε τις βασικές οδηγίες όπως "User agent:" και "Disallow: /" για να δημιουργήσετε ένα βασικό αρχείο για τον ιστότοπο.

Πώς μπορώ να δημιουργήσω ένα αρχείο Robots txt;

Οποιοσδήποτε μπορεί να συμπεριλάβει τους κανόνες ακολουθώντας τη συμβατή σύνταξη μέσα στο αρχείο robots.txt.

Πώς να φτιάξω ένα αρχείο Robots txt για τον ιστότοπό μου;

Ο καλύτερος τρόπος είναι να δημιουργήσετε πρώτα τα sitemaps της ιστοσελίδας σας και να συμπεριλάβετε τις διευθύνσεις URL στο κάτω μέρος για να το κάνετε πιο αποτελεσματικό.

Πώς να δημιουργήσετε το αρχείο Robots txt;

Οι συνήθεις όροι που χρησιμοποιούνται μέσα σε ένα αρχείο robots.txt είναι:

- Καθυστέρηση ερπυσμού - Δείχνει πόσο χρόνο πρέπει να περιμένει ένα συγκεκριμένο πρόγραμμα ανίχνευσης πριν αποκτήσει πρόσβαση στο περιεχόμενο μιας σελίδας. Η εντολή δεν θα λειτουργήσει για το Googlebot, ωστόσο το crawl ποσοστό μπορεί να ρυθμιστεί από την Κονσόλα αναζήτησης Google για να γίνει η ίδια εργασία.

- User-agent - Αναφέρει ένα συγκεκριμένο πρόγραμμα περιήγησης στο διαδίκτυο ή τον πράκτορα χρήστη (γενικά μια μηχανή αναζήτησης) στον οποίο ο διαχειριστής του ιστοχώρου θέλει να δώσει οδηγίες περιήγησης. Υπάρχουν τεχνικό ονόματα για τις μηχανές αναζήτησης, όπως Googlebot για την Google κ.ο.κ.

- Allow (χρησιμοποιείται από την Google) - Είναι μια χρήσιμη σύνταξη για να δώσετε εντολή στο Googlebot να ανιχνεύσει έναν υποφάκελο ή μια σελίδα που υπάρχει μέσα σε οποιονδήποτε γονικό υποφάκελο ή μια σελίδα που μπορεί να μην επιτρέπεται.

- Disallow - Είναι για να καθοδηγήσετε ένα ρομπότ ιστού να μην έχει πρόσβαση σε κάποια συγκεκριμένη διεύθυνση URL. Η εντολή δεν πρέπει να επιτρέπεται δύο φορές για οποιαδήποτε διεύθυνση URL.

-Sitemap - Οποιοσδήποτε συμβατός πράκτορας χρήστη, όπως το Yahoo, Ask, Bing ή Google, μπορεί να έχει πρόσβαση σε αυτή την εντολή για να βρει τη θέση των αναφερόμενων XML sitemaps με βάση μια διεύθυνση URL.

Σημείωση: Οι κανονικές εκφράσεις όπως το σύμβολο του δολαρίου ($) και ο αστερίσκος (*) μπορούν να χρησιμοποιηθούν από SEO για να βοηθήσει τους πράκτορες χρηστών της Bing και της Google να αναγνωρίσουν τους υποφακέλους ή τις σελίδες. Εδώ το * είναι η σύνταξη αντιστοίχισης προτύπων για την κάλυψη όλων των πιθανών επιλογών κατάληξης URL και το * αντιπροσωπεύει μια διαφορετική ακολουθία χαρακτήρων, λειτουργώντας ως απλός μπαλαντέρ.

Πώς να αποτρέψετε τα Bots από την ανίχνευση του ιστότοπού σας;

Αυτό μπορεί να γίνει με τον αποκλεισμό ή την απαγόρευση των web bots, καθορίζοντας τις οδηγίες για το καθένα ή για όλα να μην έχουν πρόσβαση σε μια σελίδα ή έναν υποφάκελο ενός ιστότοπου.

Πώς να σταματήσω τα Bots από το crawling της ιστοσελίδας μου;

Ακολουθούν ορισμένες οδηγίες που χρησιμοποιούνται συνήθως στο αρχείο robots.txt για να καθοδηγήσουν τους πράκτορες-χρήστες ή τους ανιχνευτές ιστού,

Πώς να επιτρέψετε το Robots txt;

1) Επιτρέποντας σε κάθε web crawler να βρει όλο το περιεχόμενο

Σύνταξη: User-agent: * Disallow:

Πώς να αποτρέψετε τους Web Crawlers;

2) Απαγόρευση πρόσβασης ενός συγκεκριμένου web crawler σε έναν φάκελο

Σύνταξη: User-agent: Googlebot Disallow: /extra-subfolder/

(Η παραπάνω εντολή ζητά από το πρόγραμμα ανίχνευσης της Google να μην έχει πρόσβαση σε καμία σελίδα της τοποθεσίας www.site-name.com/extra-subfolder/)

Πώς να αποκλείσετε όλα στο Robots txt;

3) Απαγόρευση πρόσβασης όλων των web crawlers σε οποιοδήποτε περιεχόμενο

Σύνταξη: User-agent: * Disallow: /

(Μπορείτε να χρησιμοποιήσετε την απλή οδηγία ως λύση στο Πώς να μπλοκάρετε τα bots Robots txt?)

Πώς να μπλοκάρετε τους Crawlers;

4) Απαγόρευση πρόσβασης ενός συγκεκριμένου web crawler σε μια συγκεκριμένη ιστοσελίδα

Σύνταξη: User-agent: Googlebot Disallow: /extra-subfolder/useless-page.html

Τι είναι τα ρομπότ της Google;

Η δημοφιλής μηχανή αναζήτησης χρησιμοποιεί πολλές αράχνη λογισμικό που περιστρέφεται σε όλο τον ιστό και σαρώνει τους ιστότοπους. Τα κυριότερα από αυτά είναι το Googlebot, το Googlebot-images (χρησιμοποιείται για εικόνες) και το Googlebot-news (για την ευρετηρίαση και την παροχή πληροφοριών σχετικά με τις ειδήσεις στους χρήστες).

Πώς να δημιουργήσω το Robots txt για την ιστοσελίδα μου;

Χρησιμοποιήστε έναν επεξεργαστή κειμένου που μπορεί να δημιουργήσει ένα τυπικό αρχείο κειμένου UTF-8. Η δημιουργία του αρχείου με τη χρήση ενός επεξεργαστή κειμένου μπορεί να προσθέσει οποιονδήποτε απροσδόκητο χαρακτήρα, όπως τα σγουρά εισαγωγικά, και μπορεί να το αποθηκεύσει σε οποιαδήποτε ιδιόκτητη μορφή που μπορεί να δημιουργήσει προβλήματα στην κατανόηση των οδηγιών από τους ανιχνευτές. Τα σχόλια μπορούν να προστεθούν μετά τον προσδιορισμό του χαρακτήρα ή του σήματος #.

Προσλάβετε έναν σύμβουλο SEO

Προσλάβετε έναν #1 Σύμβουλο SEO που ζει στο Λονδίνο, ο οποίος εργαζόταν με εταιρείες όπως η Zoopla, η uSwitch, η Mashable, η Thomson Reuters και πολλές άλλες. Προσλάβετε τον Lukasz Zelezny (MCIM, F IDM).

Πώς να δημιουργήσετε ένα αρχείο Robots txt για την Google;

Ακολουθούν ορισμένες προτάσεις για τη δημιουργία του αρχείου ειδικά για τους πράκτορες χρήστη της Google,

1) Το αρχείο θα πρέπει να ακολουθεί το Πρότυπο Αποκλεισμού Ρομπότ.

2) Μπορεί να περιλαμβάνει έναν ή περισσότερους κανόνες για την έγκριση ή τον αποκλεισμό της πρόσβασης του συγκεκριμένου προγράμματος ανίχνευσης σε μια συγκεκριμένη διαδρομή ενός ιστότοπου.

3) Ένας διαχειριστής ιστοσελίδων θα πρέπει να είναι εξοικειωμένος με σχεδόν όλη τη σύνταξη του αρχείου robots.txt για να κατανοήσει τη λεπτή συμπεριφορά κάθε σύνταξης.

4) Ο ιστότοπος δεν μπορεί να έχει περισσότερα από ένα αρχεία robots.txt.

5) Το αρχείο υποστηρίζει και τα δύο subdomains (όπως http://website.demo.com/robots.txt ή οποιαδήποτε μη τυποποιημένη θύρα όπως (http://demo:8181/robots.txt).

6) Εάν δεν γνωρίζετε ή δεν έχετε πρόσβαση στον ριζικό φάκελο του ιστότοπού σας, τότε είναι καλύτερο να απευθυνθείτε στον πάροχο υπηρεσιών φιλοξενίας ιστοσελίδων για να διατηρήσετε το αρχείο robots.txt μέσα στον ίδιο. Σε περίπτωση που δεν μπορείτε να έχετε πρόσβαση στη ρίζα του ιστότοπου, τότε χρησιμοποιήστε meta tags ως εναλλακτική μέθοδο αποκλεισμού.

7) Στο αρχείο robots.txt μπορούν να συμπεριληφθούν περισσότερες από μία ομαδικές οδηγίες ή κανόνες (αναφέρεται μία ανά γραμμή).

8) Υποστηρίζει μόνο χαρακτήρες ASCII.

9) Μια ομάδα παρέχει πληροφορίες σχετικά με το σε ποιον εφαρμόζεται (πράκτορας χρήστη) και ποια είναι όλα τα αρχεία ή οι κατάλογοι στα οποία δεν μπορεί/μπορεί να έχει πρόσβαση ένας πράκτορας. Η επεξεργασία των οδηγιών γίνεται από πάνω προς τα κάτω. Ένα web bot συσχετίζεται με ένα μόνο σύνολο κανόνων το οποίο μπορεί να καθοριστεί ξεχωριστά ή έρχεται πρώτο.

10) Σύμφωνα με την προεπιλεγμένη υπόθεση, ένα bot μπορεί να ανιχνεύσει οποιονδήποτε κατάλογο ή σελίδα με τη σύνταξη "Disallow:".

11) Οι οδηγίες που χρησιμοποιούνται στο αρχείο είναι ευαίσθητες στην πεζότητα, όπως το Disallow: /xml δεν ισχύει για το αρχείο ONE.xml.

12) Ισχύει για την πλήρη τομέα ενός δικτυακού τόπου που αποτελείται είτε από πρωτόκολλο https ή http.

Συνήθως, οι πράκτορες χρήστη της Bing και της Google χρησιμοποιούν μια συγκεκριμένη ομάδα οδηγιών, αλλά από προεπιλογή, προτιμώνται οι πρώτοι, ταιριαστοί κανόνες, δεδομένου ότι τα διάφορα web bots των μηχανών αναζήτησης ερμηνεύουν τις οδηγίες με διαφορετικό τρόπο.

Προτείνεται επίσης στους διαχειριστές ιστοσελίδων να αποφεύγουν όσο το δυνατόν περισσότερο τη χρήση της σύνταξης crawl-delay στο αρχείο robots.txt, ώστε να μειώσουν το συνολικό χρόνο ανίχνευσης από τα bots των μηχανών αναζήτησης.

Πώς να ελέγξετε το Robots txt σας;

Μπορείτε να χρησιμοποιήσετε το εργαλείο robots.txt Tester που είναι διαθέσιμο στο Η κονσόλα webmaster της Google για να ελέγξετε αν τα bot της Google είναι σε θέση να ανιχνεύσουν τη διεύθυνση URL που είχατε ήδη αποκλείσει από την Αναζήτηση της. Μπορεί επίσης να εμφανίσει τα λογικά σφάλματα και τις προειδοποιήσεις σύνταξης, εάν υπάρχουν στο robots.txt. Μπορείτε να το επεξεργαστείτε εκεί και να το επανελέγξετε.

Μόλις όλα είναι εντάξει, μπορείτε να αντιμετωπίσετε τις αλλαγές και να ενημερώσετε το κύριο αρχείο σας που βρίσκεται στον διακομιστή του ιστοτόπου σας. Ομοίως, μπορείτε να χρησιμοποιήσετε διάφορα εργαλεία για να ελέγξετε εκ των προτέρων τη συμπεριφορά της μηχανής αναζήτησης μετά την ανάγνωση του robots.txt του ιστότοπού σας.

Πώς να ελέγξετε αν το Robots txt λειτουργεί ή όχι;

Μπορείτε επίσης να ελέγξετε πώς λειτουργεί το robots.txt στον ιστότοπό σας χρησιμοποιώντας τη λειτουργία "Αποκλεισμένες διευθύνσεις URL;" μέσα στην ενότητα "Αναζήτηση" που παρέχεται στο αριστερό τμήμα της σελίδας Εργαλεία διαχειριστή ιστοσελίδων Google. Ωστόσο, μπορεί να μην εμφανίζει την τρέχουσα ή ενημερωμένη έκδοση του robots.txt, αλλά μπορεί να χρησιμοποιηθεί για σκοπούς δοκιμής.

Πώς να ελέγξετε το αρχείο Robot txt σε έναν ιστότοπο;

Προσπαθήστε να ελέγχετε τακτικά το αρχείο robots.txt χρησιμοποιώντας οποιοδήποτε εργαλείο για το αν όλα είναι έγκυρα σε αυτό και αν το αρχείο λειτουργεί με τον σωστό τρόπο όπως αναμένεται! Παρεμπιπτόντως, μπορεί να χρειαστούν πολλές ημέρες ή ακόμη και μερικές εβδομάδες για μια μηχανή αναζήτησης για να εντοπίσει μια μη επιτρεπόμενη διεύθυνση URL διαβάζοντας για την ίδια από το robots.txt και να αφαιρέσει την ευρετηρίασή της.

Πώς να προσθέσετε το Robots txt στην HTML;

Αφού συμπεριλάβετε όλα τα σύνολα κανόνων στο αρχείο και το ονομάσετε με robots.txt, πρέπει να αποθηκευτεί στον κύριο ή ριζικό φάκελο του ιστότοπου στον διακομιστή. Ένας φάκελος ριζικού επιπέδου μπορεί να είναι ένας φάκελος "www" ή "htdocs" που βοηθά το robots.txt να εμφανίζεται δίπλα στο όνομα του τομέα σας.

Πώς να δημιουργήσετε ένα αρχείο Robots txt;

Προτείνεται πάντα να διατηρείτε ένα λογικό μέγεθος του αρχείου robots.txt αποφεύγοντας την αναφορά ανεπιθύμητων οδηγιών στο αρχείο. Αυτό συμβαίνει επειδή χρόνια πριν ο John Mueller της Google έχει ήδη διευκρινίσει το γεγονός ότι το Googlebot θα έχει πρόσβαση μόνο στα πρώτα 500kB ενός αρχείου robot.txt. Ένα γιγαντιαίο αρχείο μπορεί να περικοπεί με ανεπιθύμητο τρόπο ώστε να σχηματιστεί μια γραμμή που μπορεί να ερμηνευτεί ως ελλιπής κανόνας.

Για τι χρησιμοποιείται το αρχείο Robots txt;

Είναι επίσης γνωστό ως πρωτόκολλο αποκλεισμού ρομπότ ή πρότυπο αποκλεισμού ρομπότ που χρησιμοποιείται από τους ιστότοπους για την επικοινωνία με τα ρομπότ ιστού ή τους ανιχνευτές. Οι μηχανές αναζήτησης χρησιμοποιούν τα ρομπότ τους για την κατηγοριοποίηση των ιστότοπων.

Οι διαχειριστές ιστοτόπων χρησιμοποιούν αρχεία robots.txt για να καθοδηγήσουν ή να καθοδηγήσουν αυτά τα ρομπότ ώστε να επιτύχουν καλύτερη ευρετηρίαση των ιστοτόπων τους. Δεν χρειάζεστε ένα αρχείο robots.txt αν δεν θέλετε να ελέγξετε την πρόσβαση των χρηστών σε οποιαδήποτε περιοχή του ιστότοπού σας. Περισσότερες λεπτομέρειες σχετικά με το αρχείο robots.txt μπορεί κανείς να βρει σε οποιοδήποτε θέμα για προχωρημένους, όπως το Πώς να δημιουργήσετε ένα ρομπότ μηχανής αναζήτησης;

Πώς να χρησιμοποιήσετε το Robots txt για το SEO;

Για καλύτερη κατάταξη στις μηχανές αναζήτησης, αποτελεί βέλτιστη πρακτική SEO να επιτρέπετε στους ανιχνευτές της να προσεγγίζουν και να έχουν πρόσβαση στον ιστότοπό σας με ευκολία. Ο ιστότοπός μας αποτελείται γενικά από πολλές ανεπιθύμητες σελίδες από τις προσδοκίες μας και όταν τα bots της μηχανής αναζήτησης ανιχνεύουν κάθε σελίδα του ιστότοπού σας τότε σίγουρα θα καταναλώνουν περισσότερο χρόνο και αυτό σίγουρα θα πρόκειται να επηρεάσει αρνητικά την κατάταξη.

Η Google χρησιμοποιεί τον προϋπολογισμό ανίχνευσης (που χωρίζεται σε δύο μέρη, το όριο ρυθμού ανίχνευσης και τη ζήτηση ανίχνευσης) για κάθε ιστότοπο για να αποφασίσει τον αριθμό των διευθύνσεων URL που θέλει ή μπορεί να ανιχνεύσει. Έτσι, εάν βοηθάτε αυτά τα bots ή τους πράκτορες χρήστη να έχουν πρόσβαση και να ευρετηριάζουν μόνο το πιο πολύτιμο περιεχόμενο του ιστότοπού σας, το robots.txt είναι απαραίτητο!

Ένα SEO δεν θέλει ποτέ να μπλοκάρει τμήματα ή περιεχόμενο ενός ιστότοπου που είναι απαραίτητο να ανιχνευθεί.

- Μια μηχανή αναζήτησης όπως η Google μπορεί να έχει πολλαπλούς πράκτορες-χρήστες όπως το Googlebot-Image (για την αναζήτηση εικόνων) και το Googlebot (για οργανική αναζήτηση). Πολλοί πράκτορες χρήστη που ανήκουν στην ίδια μηχανή αναζήτησης μπορούν να ακολουθήσουν τους ίδιους κανόνες, οπότε πολλοί διαχειριστές ιστοσελίδων παραλείπουν να καθορίζουν οδηγίες για κάθε έναν από αυτούς τους ανιχνευτές. Ένας SEO μπορεί να επωφεληθεί από αυτό, αναφέροντας διαφορετικές οδηγίες σε κάθε έναν από τους crawlers, ακόμη και αν αυτοί ανήκουν σε μία μηχανή αναζήτησης για να ελέγχει καλύτερα τη συμπεριφορά τους κατά την ανίχνευση.

- Για καλύτερο SEO είναι απαραίτητο οι σύνδεσμοι ή οι σελίδες που δεν επιτρέπονται να περιλαμβάνουν περαιτέρω συνδέσμους που πρέπει να ακολουθηθούν. Έτσι, η αποκλεισμένη σελίδα δεν θα πρέπει να περνάει link equity στον προορισμό του συνδέσμου ή είναι προτιμότερο να χρησιμοποιηθεί οποιοσδήποτε άλλος μηχανισμός αποκλεισμού. Επίσης, δεν πρέπει να συνδέονται με άλλες σελίδες προσβάσιμες από τις μηχανές αναζήτησης, δηλαδή με ιστοσελίδες που δεν έχουν απαγορευτεί από τα meta robots, το robots.txt ή αλλιώς. Διαφορετικά, οι σημαντικοί συνδεδεμένοι πόροι δεν θα είναι προσβάσιμοι και δεν θα ευρετηριάζονται από τις μηχανές αναζήτησης.

- Είναι καλύτερο να υποβάλλετε τη διεύθυνση URL του robots.url απευθείας στη Google μετά από κάθε ενημέρωση που γίνεται στο αρχείο για να εξασφαλίσετε τη γρήγορη πρόσβαση από τον στοχευμένο πράκτορα χρήστη. Γενικά, μια μηχανή αναζήτησης ενημερώνει τα αποθηκευμένα περιεχόμενα του robots.txt τουλάχιστον μία φορά την ημέρα.

Πώς να κάνετε το Robot txt αποτελεσματικό για το SEO;

Είναι καλό να αναφέρετε τη θέση όλων ή οποιωνδήποτε sitemaps με βάση το domain του ιστότοπου στο κάτω μέρος του αρχείου robots.txt. Παρεμπιπτόντως, τα sitemaps είναι αρχεία XML που περιέχουν λεπτομερείς πληροφορίες σχετικά με τις σελίδες ενός ιστότοπου, όπως η διεύθυνση URL τους με τα σχετικά μεταδεδομένα, όπως η σημασία τους, το διάστημα ενημέρωσης και η τελευταία ενημέρωση.

Όλες αυτές οι πληροφορίες μπορούν να χρησιμοποιηθούν από τα bots των μηχανών αναζήτησης για να ανιχνεύσουν έξυπνα έναν ιστότοπο. Έτσι, με αυτόν τον τρόπο οι διαχειριστές ιστοσελίδων μπορούν να βοηθήσουν τους πράκτορες χρήστη που υποστηρίζουν Sitemaps να γνωρίζουν και να έχουν πρόσβαση σε όλες τις διευθύνσεις URL από το sitemap και να γνωρίζουν περισσότερα για αυτές κατά τη διαδικασία ανακάλυψης σελίδων από έναν σύνδεσμο σε έναν άλλο εντός ενός ή από έναν άλλο ιστότοπο.

Για παράδειγμα,

Διεύθυνση προγράμματος περιήγησης: https://www.demo.com/robots.txt

Έξοδος:

Πράκτορας χρήστη: *

Απαγόρευση: *.dl.html

Επιτρέψτε: /*.html$

Sitemap: https://www.demo.com/en-au/sitemap.xml

Sitemap: https://www.demo.com/en-se/sitemap.xml

Sitemap: https://www.demo.com/en-us/sitemap.xml

(Οι παραπάνω οδηγίες αφορούν την κλήση περισσότερων του ενός sitemaps μέσω του αρχείου robots.txt.)

Πώς να αποφύγετε το Robots txt;

Υπάρχουν κίνδυνοι ασφαλείας που σχετίζονται με το robots.txt, καθώς πολλά κακόβουλα bots δεν μπορούν να το ακολουθήσουν, καθώς και κάποιος μπορεί να το χρησιμοποιήσει για να γνωρίζει όλους τους απαγορευμένους συνδέσμους και να έχει άμεση πρόσβαση σε αυτούς. Έτσι, ως λύση, μπορείτε να προστατεύσετε με κωδικό πρόσβασης την περιοχή του ιστότοπού σας που περιέχει ιδιωτικό περιεχόμενο, έτσι ώστε ένας εισβολέας να μην μπορεί να έχει πρόσβαση σε αυτήν ακόμη και αφού γνωρίζει τη θέση της.

Για να παρουσιάσετε ευαίσθητα δεδομένα από την ευρετηρίαση ή να εμφανιστείτε στα SERPs (είτε άμεσα είτε έμμεσα, δηλαδή μέσω σελίδων που σας άρεσαν), είναι καλύτερο να χρησιμοποιήσετε οποιαδήποτε άλλη μέθοδο από το να απαγορεύσετε το ίδιο από το robots.txt για να μπλοκάρετε τη σελίδα. Μπορεί να είναι είτε η οδηγία no index meta είτε οι μέθοδοι προστασίας με κωδικό πρόσβασης.

Πώς να αφαιρέσετε το αρχείο Robots txt από τον ιστότοπο;

WordPress γενικά δημιουργεί ένα εικονικό προεπιλεγμένο αρχείο robots.txt στη ρίζα απευθείας για τις ιστοσελίδες του, το οποίο δεν είναι ορατό στον κατάλογο. Έτσι, είναι πάντα καλύτερο να δημιουργείτε ένα νέο αρχείο που επικαλύπτει τυχόν προεπιλεγμένες ρυθμίσεις ειδικά για να απαγορεύσετε τη σελίδα σύνδεσης ή εγγραφής που δεν έχει σημασία για μια μηχανή αναζήτησης!

Πολλοί άνθρωποι συνήθως μπερδεύονται σχετικά με το Πώς να αφαιρέσετε το Robots txt στο WordPress ή σε άλλες πλατφόρμες. Ωστόσο, η διαδικασία είναι η ίδια για όλους! Το αρχείο robots.txt πρέπει να αποθηκευτεί στον κατάλογο κορυφαίου επιπέδου του ιστότοπου, δηλαδή στο ριζικό τομέα ή στον κύριο κατάλογο, ώστε να βοηθηθούν τα bots να το βρουν με ευκολία. Έτσι, το μόνο που χρειάζεται είναι να διαγράψετε το αρχείο απευθείας από τον συγκεκριμένο φάκελο ή θέση.

Τελικές σκέψεις

Προσπαθήστε να μην συμπεριλάβετε τις οδηγίες για την απόκρυψη εμπιστευτικών πληροφοριών χρήστη μέσα στο αρχείο robots.txt. Αυτό συμβαίνει επειδή το αρχείο είναι ένα δημόσια προσβάσιμο αρχείο, μπορεί κανείς να δει τις οδηγίες του προσθέτοντας το /robots.txt στο τέλος του ριζικού τομέα.

Με αυτόν τον τρόπο, ο καθένας μπορεί να μάθει ποιες όλες οι σελίδες επιτρέπεται από τον διαχειριστή του ιστότοπου να ανιχνευθούν ή όχι από όλα ή συγκεκριμένα web bots. Το αρχείο πρέπει να αποθηκευτεί μόνο με το όνομα "robots.txt", καθώς είναι ευαίσθητο στην πεζότητα, οπότε κανένας άλλος συνδυασμός δεν θα γίνει αποδεκτός από οποιονδήποτε πράκτορα χρήστη!

Τέλος, μπορεί να έχετε μπερδευτεί μεταξύ των x-robots, meta robots και robots.txt που ακούγονται παρόμοιοι όροι. Μεταξύ αυτών, τα x-robots και τα meta είναι οδηγίες meta, αλλά το robots.txt είναι ένα αρχείο κειμένου και χρησιμοποιούνται για την εφαρμογή διαφορετικών λειτουργιών.

Για να γίνω πιο συγκεκριμένος, τα x-robots και τα meta υπαγορεύουν τη συμπεριφορά ευρετηρίασης σε επίπεδο στοιχείου σελίδας (ή μεμονωμένης σελίδας), ενώ το robots.txt αποδεικνύει πληροφορίες σχετικά με τη συμπεριφορά του διευθυντή ή του site-side crawl.

Υπάρχουν μεγαλύτερες πιθανότητες τα bots των μηχανών αναζήτησης να μπορούν να ευρετηριάσουν και να εμφανίσουν το περιεχόμενο της ιστοσελίδας σας στις SERPs με τον καλύτερο τρόπο και να το κάνουν πιο ορατό ξοδεύοντας καλά τον προϋπολογισμό τους για την ανίχνευση του ίδιου ιστότοπου. Με τη χρήση του robots.txt μπορεί επίσης να μπλοκαριστεί η ανίχνευση των σελίδων ετικέτας WordPress που δημιουργούνται αυτόματα και να αποτραπεί οποιοδήποτε άλλο διπλότυπο περιεχόμενο.

Συνολικά, θα πρέπει να προσέχετε πολύ όταν ασχολείστε με το τι πρέπει να συμπεριλάβετε στο αρχείο robots.txt. Εξάλλου, ένα μικρό λάθος μέσα στο αρχείο robots.txt μπορεί να κάνει ολόκληρο τον ιστότοπό σας να αποπροσδιοριστεί.

Πώς να χρησιμοποιήσετε το Robots txt για SEO

Δημοσιεύθηκε στο: Ιανουάριος 2021

Τελευταία ενημέρωση σε 2023-02-04T21:08:56+00:00 από Lukasz Zelezny

Συντάχθηκε από:

Lukasz Zelezny

Μοιραστείτε αυτό το άρθρο:

Επιστροφή στο Blog

Πρόσβαση Παράδειγμα ανάλυσης GAP SEO

Το SEO.London έλεγξε 35 ιστότοπους και πάνω από 150.000 λέξεις-κλειδιά. Το αποτέλεσμα από πάνω από 5 εκατομμύρια σημεία δεδομένων παρουσιάζεται παρακάτω.

Open Data Studio

Σε αυτό το blogpost SEO

Ποια είναι η σημασία του αρχείου Robots TXT για τον ιστότοπό σας το 2021;