Come utilizzare il Robots txt per la SEO

Ogni volta che andiamo ad esplorare un posto nuovo, abbiamo bisogno di una guida per comodità e per risparmiare tempo! Allo stesso modo il robot web come quello di Ogni motore di ricerca prende l'aiuto del file Robots.txt per avere un'idea su come scansionare le pagine di un particolare sito web.

A proposito, il comportamento di tali crawler per muoversi su tutto il internetaccedere, indicizzare e servire il contenuto agli utenti mirati sono basato su un gruppo di standard web noto come REP o protocollo di esclusione dei robot che include anche robots.txt.

Cos'è il Robots txt?

In in modo semplice, possiamo capire e ricordare robots.txt come un mix di due termini Robot e Txt. Quindi, si tratta di un txt o file di testo che è destinato ad essere utilizzato dai robot del web possibile che dei motori di ricerca.

Può anche aiutare i webmaster se il sito web per controllare il comportamento di crawling di un agente utente, ma deve essere fatto con attenzione, dal momento che non permettere l'importante o tutti pagine del vostro sito da un motore di ricerca come Google può essere molto pericoloso.

I webmaster di un sito web possono usare robots.txt per istruire il software di web-crawling o gli interpreti per cosa tutte le parti da scansionare e cosa no del sito. Può essere fatto utilizzando le istruzioni "allow" o "disallow" all'interno del file robots.txt per alcuni o tutti gli user agent dei crawler

Cos'è un file Robots txt?

Un motore di ricerca è principalmente responsabile di due compiti principali per svolgere il suo lavoro. Il primo è quello di scoprire il contenuto del web strisciando ovunque e indicizzando gli aggiornamenti. Il lavoro successivo è quello di cercare le informazioni correlate nel suo indicizzato per servire il contenuto giusto secondo una query di ricerca.

Allora, Robots txt cos'è?

I motori di ricerca seguono il link e andare da un sito web all'altroIl processo è anche chiamato "spidering". Ogni volta che il bot o web crawler raggiunge un nuovo sito web, prima di iniziare lo spidering dello stesso cerca il file robots.txt. Se ne ottiene uno, allora lo leggerà per ottenere informazioni su come scansionare il sito web, in particolare a cosa accedere e cosa no! In caso di assenza del file robots.txt, gli utenti-agenti possono iniziare a scansionare le altre informazioni disponibili sul sito web.

Cosa dovrebbe esserci in un file Robots txt?

Il file dovrebbe consistere di almeno i seguenti due elementi;

User-agent: (nome dell'user-agent)

Disallow: (stringa di URL che non deve essere scansionata)

Insieme le due linee precedenti possono essere considerate come un insieme discreto di direttive user-agent e sono separate da altri insiemi usando un'interruzione di linea (/).

Se una singola regola è specificata nel file per più di un utente-agente, il crawler leggerà e seguirà prima le direttive che sono menzionate in un gruppo separato di istruzioni.

Come accedere al Robots txt?

Chiunque può guardare il contenuto del robots.txt presente su un sito web semplicemente usando il metodo del browser.

Come ottenere Robots txt?

È necessario aggiungere robots.txt dopo il file principale URL come https://demo.com/robots.txt o il suo sottodominio come https://shop.demo.com/robots.txt.

Come trovare il Robots txt di un sito web?

È obbligatorio che il file robots.txt sia disponibile dopo il dominio principale. Quindi, è possibile menzionare lo stesso sul browser.

Come controllare il Robot txt per un sito web?

Se non troverete nessuna pagina .txt nell'output, allora significa che non c'è nessuna pagina robots.txt (live) attualmente presente sul sito web.

Come trovare il tuo file Robots txt?

Ci dovrebbero essere file robots.txt separati per il dominio principale (demo.com/robots.txt) e per ogni suo sottodominio (blog.demo.com/robots.txt).

Come leggere il Robots txt?

Tutte le istruzioni presenti nel file devono essere lette dall'alto verso il basso sia da un umano che da qualsiasi software bot! Può essere possibile che un robot o un agente utente non legga il file robots.txt di un sito web. Di solito è possibile con i raschiatori di indirizzi e-mail o i robot malware tipo di crawler nefasti.

A cosa serve il Robots txt?

Ci sono molti vantaggi nell'usare robots.txt in un sito web. Come ad esempio;

- Per chiedere motori di ricerca per do non indicizzare certi file come PDF, immagini, ecc. sul tuo sito web. Le direttive Meta possono anche essere utilizzate come alternativa al robots.txt per evitare l'indicizzazione delle pagine ma non funzionano per i file di risorse.

- Un webmaster può assicurare un crawling efficiente di un sito web fornendo utili consigli ai suoi bot.

- Per evitare che i motori di ricerca mostrino qualsiasi ricerca interna pagina dei risultati sulla SERP pubblica.

- Bloccando alcune pagine non importanti o non necessarie del sito web è possibile massimizzare il budget di crawl sulle pagine necessarie.

- Da utilizzare come meta-robot per evitare che contenuti duplicati vengano visualizzati nelle SERP.

- Potete prendere il suo aiuto per non indicizzare i risultati di ricerca interni o le pagine web interrotte del vostro sito.

- Per evitare il sovraccarico dei server web che è possibile quando i crawler caricare più contenuti alla volta aggiungendo un po' di ritardo di strisciamento.

- Se non volete che la gente atterri su una pagina che è nella sua versione di staging, ciò può avere un impatto sull'impressione soprattutto di chi visita un sito per la prima volta.

- Per aiutare gli interpreti ad accedere facilmente alla posizione dell'elemento mappa del sito(s).

Un webmaster può mantenere una particolare sezione di un sito web (specialmente quelli in costruzione o incompleti) completamente privata dai bot che scavano.

È necessario creare il file robots.txt se il numero di URL indicizzati supera le aspettative.

Come implementare Robots txt?

È migliore utilizzare qualsiasi editor di parole come notepad o wordpad per creare un semplice file di testo compatibile con le regole per fare un robots.txt.

Come fare il Robots txt?

Basta includere le direttive di base come "User agent:" e "Disallow: /" per creare un file di base per il sito web.

Come faccio a creare un file Robots txt?

Chiunque può includere le regole seguendo la sintassi compatibile all'interno del file robots.txt.

Come fare un file Robots txt per il mio sito?

Il modo migliore è quello di generare prima le sitemaps del tuo sito web e includere i suoi URL in fondo per renderlo più efficace.

Come creare il file Robots txt?

I termini comuni che si usano in un file robots.txt sono:

- Crawl-delay - Indica per quanto tempo un determinato crawler deve aspettare prima di accedere al contenuto di una pagina. Il comando non funziona per il Googlebot, tuttavia il crawl tasso può essere impostato dalla Google Search Console per ottenere lo stesso risultato.

- User-agent - Menziona uno specifico web crawler o l'agente utente (generalmente un motore di ricerca) a cui un webmaster vuole dare istruzioni di crawl. Ci sono tecnico nomi per i motori di ricerca come Googlebot per Google e così via.

- Allow (usato da Google) - È una sintassi utile per istruire il Googlebot a scansionare una sottocartella o una pagina che è presente all'interno di qualsiasi sottocartella madre o una pagina che potrebbe essere disconosciuta.

- Disallow - È per istruire un web bot a non accedere a qualsiasi URL specifico. Il comando non dovrebbe essere permesso due volte per qualsiasi URL.

-Sitemap - Qualsiasi user-agent compatibile come Yahoo, Ask, Bing o Google può accedere a questo comando per trovare la posizione delle sitemap XML menzionate sulla base di un URL.

Nota: le espressioni regolari come il segno del dollaro ($) e l'asterisco (*) possono essere usate da SEO per aiutare gli interpreti di Bing e Google a identificare le sottocartelle o le pagine. Qui * è la sintassi di pattern-matching per coprire tutti i tipi di opzioni di terminazione di URL possibili e * è per rappresentare una diversa sequenza di caratteri, funzionando come un semplice carattere jolly.

Come impedire ai bot di strisciare il tuo sito?

Può essere fatto bloccando o impedendo ai web bot specificando le direttive per ciascuno o per tutti di non accedere a una pagina o sottocartella di un sito web.

Come impedire ai bot di scansionare il mio sito?

Ecco alcune direttive comunemente usate nel file robots.txt per istruire i loro utenti-agenti o web crawler;

Come permettere il Robots txt?

1) Permettere ad ogni web crawler di trovare tutto il contenuto

Sintassi: User-agent: * Disallow:

Come prevenire i web crawler?

2) Disabilitare l'accesso a una cartella a un particolare web crawler

Sintassi: User-agent: Googlebot Non consentire: /extra-subfolder/

(L'istruzione di cui sopra chiede al crawler di Google di non accedere a nessuna pagina della località www.site-name.com/extra-subfolder/)

Come disconoscere tutto in Robots txt?

3) Disabilitare tutti i web crawler per accedere a qualsiasi contenuto

Sintassi: User-agent: * Disallow: /

(Puoi usare la semplice istruzione come soluzione a Come bloccare i bot Robots txt?)

Come bloccare i crawler?

4) Disabilitare un particolare web crawler per accedere a una specifica pagina web

Sintassi: User-agent: Googlebot Disallow: /extra-subfolder/useless-page.html

Cosa sono i robot di Google?

Il popolare motore di ricerca usa molti ragno software che gira per tutto il web e scansiona i siti web. Quelli evidenziati sono Googlebot, Googlebot-images (usato per le immagini), e Googlebot-news (per indicizzare e servire le informazioni sulle notizie agli utenti).

Come creare Robots txt per il mio sito web?

Usate un editor di testo che possa creare un file di testo UTF-8 standard. Creare il file usando un elaboratore di testi potrebbe aggiungere qualsiasi carattere inaspettato come le virgolette e può salvarlo in qualsiasi formato proprietario che potrebbe creare problemi ai crawler per capire le istruzioni. I commenti possono essere aggiunti dopo aver specificato il carattere # o il marchio.

Assumere un consulente SEO

Assumi un consulente SEO #1 che vive a Londra e che ha lavorato con aziende come Zoopla, uSwitch, Mashable, Thomson Reuters e molte altre. Assumi Lukasz Zelezny (MCIM, F IDM).

Come creare un file Robots txt per Google?

Ecco alcuni suggerimenti su come creare il file specialmente per gli interpreti di Google;

1) Il file deve seguire lo standard di esclusione dei robot.

2) Può includere una o più regole per permettere o bloccare l'accesso del crawler specificato a un percorso particolare di un sito.

3) Un webmaster dovrebbe avere familiarità con quasi tutte le sintassi del file robots.txt per capire il comportamento sottile di ogni sintassi.

4) Il sito non può avere più di un file robots.txt.

5) Il file supporta entrambi i sottodomini (come http://website.demo.com/robots.txt o qualsiasi porta non standard come (http://demo:8181/robots.txt).

6) Se non sai o non hai accesso alla cartella principale del tuo sito web, allora è meglio raggiungere il fornitore di servizi di web hosting per mantenere il file robots.txt all'interno dello stesso. Nel caso in cui non si può accedere alla radice del sito web, allora utilizzare i meta tag come metodo di blocco alternativo.

7) Più direttive o regole di gruppo (menzionate una per linea) possono essere incluse nel file robots.txt.

8) Supporta solo caratteri ASCII.

9) Un gruppo fornisce informazioni su chi è applicato (agente utente) e su tutti i file o le directory a cui un agente non può/possa accedere. Le direttive sono elaborate dall'alto verso il basso. Un web bot si associa a un solo gruppo di regole che può essere specificato separatamente o viene prima.

10) Secondo l'ipotesi predefinita, un bot può scansionare qualsiasi directory o pagina con una sintassi "Disallow:".

11) Le direttive usate nel file sono case-sensitive, come Disallow: /one.xml non si applica a ONE.xml.

12) Si applica all'intero dominio di un sito web composto da protocollo https o http.

Di solito, gli user agent di Bing e Google vanno con un gruppo specifico di direttive, ma per default, prima, sono preferibili le regole di corrispondenza poiché i diversi web bot dei motori di ricerca interpretano le direttive in modo diverso.

Si suggerisce anche ai webmaster di evitare di usare la sintassi crawl-delay il più possibile nel loro file robots.txt in modo da ridurre il tempo totale di crawl dei bot dei motori di ricerca.

Come controllare il tuo Robots txt?

Puoi prendere l'aiuto di robots.txt Tester tool disponibile sul sito La console per i webmaster di Google per controllare se il bot di Google è in grado di scansionare l'URL che avete già bloccato dalla sua ricerca. Può anche mostrare gli errori di logica e di sintassi se ce ne sono nel vostro robots.txt. È possibile modificare lì e ricontrollare.

Una volta che tutto è a posto, puoi far fronte ai cambiamenti e aggiornare il tuo file principale situato sul server del tuo sito web. Allo stesso modo, è possibile utilizzare diversi strumenti per controllare in anticipo il comportamento di crawling del motore di ricerca dopo aver letto il robots.txt del tuo sito web.

Come controllare che il Robots txt funzioni o no?

Puoi anche controllare come il robots.txt nel tuo sito web si sta comportando utilizzando la funzione "URL bloccati" all'interno della sezione "Crawl" fornita nella sezione sinistra del Strumenti per i webmaster di Google. Tuttavia, potrebbe non mostrare la versione attuale o aggiornata di robots.txt, ma può essere utilizzato per scopi di test.

Come controllare il file Robot txt in un sito web?

Provate a controllare regolarmente il vostro file robots.txt usando qualsiasi strumento per sapere se tutto è valido in esso e il file sta funzionando nel modo giusto come previsto! A proposito, potrebbero volerci molti giorni o anche alcune settimane perché un motore di ricerca identifichi un URL non consentito leggendo lo stesso dal robots.txt e rimuova la sua indicizzazione.

Come aggiungere Robots txt in HTML?

Dopo aver incluso tutti i set di regole nel file e averlo nominato con robots.txt deve essere salvato nella cartella principale o root del sito web nel server. Una cartella di livello root può essere un "www" o "htdocs" che aiuta robots.txt ad apparire accanto al nome del tuo dominio.

Come impostare un file Robots txt?

Si consiglia sempre di mantenere una dimensione ragionevole del robots.txt evitando di menzionare direttive indesiderate nel file. È perché anni prima John Mueller di Google ha già chiarito il fatto che Googlebot accederà solo ai primi 500kB di un file robot.txt. Un file gigantesco può essere troncato in modo indesiderato per formare una riga che potrebbe essere interpretata come una regola incompleta.

A cosa serve un file Robots txt?

È anche conosciuto come protocollo di esclusione dei robot o standard di esclusione dei robot che è usato dai siti web per comunicare con i robot web o i crawler. I motori di ricerca usano i loro robot per classificare i siti web.

I webmaster usano i file robots.txt per istruire o guidare tali robot per ottenere una migliore indicizzazione dei loro siti web. Non hai bisogno di un file robots.txt se non vuoi controllare l'accesso degli user-agent a qualsiasi area del tuo sito web. Si possono trovare maggiori dettagli su robots.txt da qualsiasi argomento avanzato come Come creare un bot per i motori di ricerca?

Come usare Robots txt per il SEO?

Per un migliore posizionamento nei motori di ricerca, è una buona pratica SEO permettere ai suoi crawler di raggiungere e accedere al vostro sito con facilità. Il nostro sito web consiste generalmente di un sacco di pagine indesiderate rispetto alle nostre aspettative, e quando i bot dei motori di ricerca scansionano ogni pagina del tuo sito, allora sicuramente consumerà più tempo e questo sicuramente influenzerà negativamente la sua classifica.

Google utilizza il crawl budget (diviso in due parti, crawl rate limit e crawl demand) per ogni sito web per decidere il numero di URL che vuole o può scansionare. Quindi, se aiutate tali bot o user agent ad accedere e indicizzare solo il contenuto più prezioso del vostro sito web robots.txt è un must!

Un SEO non vuole mai che nessuna sezione o contenuto sia bloccato di un sito web che è necessario per essere scansionato.

- Un motore di ricerca come Google può avere più utenti-agenti come Googlebot-Image (per cercare le immagini) e Googlebot (per la ricerca organica). Molti user agent che appartengono allo stesso motore di ricerca possono seguire le stesse regole quindi molti webmaster saltano di specificare le direttive per ognuno di questi crawler. Un SEO può approfittare di questo menzionando istruzioni diverse per ciascuno dei crawler anche se appartengono a un solo motore di ricerca per controllare meglio il loro comportamento di crawling.

- Per una migliore SEO è necessario che i link o le pagine non consentite non includano ulteriori link che devono essere seguiti. Quindi, la pagina bloccata non deve passant link equity alla destinazione del link o è meglio usare qualsiasi altro meccanismo di blocco. Non devono inoltre essere collegati con altre pagine accessibili dai motori di ricerca, cioè pagine web che non sono disconosciute da meta robots, robots.txt, o altro. Altrimenti, le risorse importanti collegate non saranno accessibili e indicizzate dai motori di ricerca.

- È meglio inviare l'URL robots.url direttamente su Google dopo qualsiasi aggiornamento fatto sul file per garantire il suo rapido accesso da parte dell'agente utente mirato. Generalmente, un motore di ricerca aggiorna il contenuto del robots.txt nella cache almeno una volta al giorno.

Come rendere il Robot txt efficace per il SEO?

È bene menzionare la posizione di tutti o di qualsiasi sitemaps in base al dominio del sito web nella parte inferiore del suo file robots.txt. A proposito, le sitemaps sono file XML che contengono informazioni dettagliate sulle pagine di un sito web come il loro URL con i relativi metadati come la sua importanza, il suo intervallo di aggiornamento e l'ultimo aggiornamento.

Tutte queste informazioni possono essere utilizzate dai bot dei motori di ricerca per scansionare in modo intelligente un sito web. Quindi, in questo modo i webmaster possono aiutare gli user agent che supportano le Sitemaps a conoscere e accedere a tutti gli URL della sitemap e saperne di più nel loro processo di scoperta delle pagine da un link all'altro all'interno di un sito o da un altro.

Per esempio;

Indirizzo del browser: https://www.demo.com/robots.txt

Uscita:

User-agent: *

Non permettere: *.dl.html

Permettere: /*.html$

Mappa del sito: https://www.demo.com/en-au/sitemap.xml

Mappa del sito: https://www.demo.com/en-se/sitemap.xml

Mappa del sito: https://www.demo.com/en-us/sitemap.xml

(Le direttive di cui sopra sono per chiamare più di una sitemaps tramite il file robots.txt).

Come evitare il Robots txt?

Ci sono dei rischi per la sicurezza associati al robots.txt poiché molti bot maligni non possono seguirlo così come uno può usarlo per conoscere tutti i link non consentiti e accedervi direttamente. Quindi, come soluzione, è possibile proteggere con password l'area del tuo sito web che contiene contenuti privati in modo che un intruso non possa accedervi anche dopo averne conosciuto la posizione.

Per presentare i dati sensibili dall'indicizzazione o apparire nelle SERP (direttamente o indirettamente cioè attraverso le pagine gradite) è meglio usare qualsiasi altro metodo che non sia quello di disconoscere lo stesso dal robots.txt per bloccare la pagina. Può essere una direttiva no index meta o metodi di protezione con password.

Come rimuovere il file Robots txt dal sito web?

WordPress generalmente fa un file robots.txt virtuale di default nella root direttamente per i suoi siti web che non possono essere visti sulla directory. Quindi, è sempre meglio creare un nuovo file che si sovrapponga a qualsiasi impostazione di default soprattutto per non permettere la pagina di login o di iscrizione che non ha importanza per un motore di ricerca!

Molte persone sono solitamente confuse su come rimuovere Robots txt in WordPress o altre piattaforme. Tuttavia, il processo è lo stesso per tutti! Il file robots.txt deve essere salvato nella directory di primo livello del sito web cioè il dominio principale o la directory principale in modo da aiutare i bot a trovarlo con facilità. Quindi, tutto ciò che serve è eliminare il file direttamente da quella particolare cartella o posizione.

Pensieri finali

Cercate di non includere le istruzioni per nascondere le informazioni riservate degli utenti all'interno del file robots.txt. È perché il file è un file accessibile pubblicamente, si possono vedere le sue direttive aggiungendo /robots.txt alla fine del dominio principale.

In questo modo, chiunque può venire a sapere quali pagine sono permesse dal webmaster del sito per essere scansionate o meno da tutti o da specifici web bot. Il file deve essere salvato solo con il nome "robots.txt" poiché è sensibile alle maiuscole e alle minuscole, quindi nessun'altra combinazione sarà accettata da qualsiasi agente utente!

Infine, potreste essere confusi tra x-robots, meta robots, e robots.txt che sembrano termini simili. Tra questi, x-robots e meta sono direttive meta ma robots.txt è un file di testo e sono utilizzati per applicare funzioni diverse.

Per essere specifici, x-robots e meta sono per dettare il comportamento di indicizzazione a livello di elemento della pagina (o di singola pagina), mentre robots.txt è per provare informazioni sul direttore o sul comportamento di crawl lato sito.

Ci sono maggiori possibilità che i bot dei motori di ricerca possano indicizzare e visualizzare il contenuto del vostro sito web sulle SERP in modo migliore e renderlo più visibile spendendo bene il suo budget di crawl durante la scansione dello stesso sito. Utilizzando il robots.txt può anche bloccare il crawling delle pagine di tag WordPress generate automaticamente e prevenire qualsiasi contenuto duplicato.

Nel complesso, è necessario prestare molta attenzione quando si tratta di cosa includere nel file robots.txt. Dopo tutto, un piccolo errore all'interno del file robots.txt potrebbe far sì che il vostro intero sito web venga deindicizzato.

Pubblicato in: Gennaio 2021

Ultimo aggiornamento in 2023-02-04T21:08:56+00:00 da Lukasz Zelezny

Scritto da:

Lukasz Zelezny

Condividi questo articolo:

Torna al blog

Accedi a un esempio di analisi SEO GAP

SEO.London ha controllato 35 siti web e oltre 150.000 parole chiave. Il risultato di oltre 5 milioni di punti dati è presentato di seguito.

Studio dati aperto

In questo blogpost sulla SEO

Qual è l'importanza del file Robots TXT per il tuo sito web nel 2021?