SEO

Come usare Robots txt per il SEO

Cos'è il Robots.txt? I motori di ricerca seguono i link e passano da un sito web all'altro, il processo è chiamato anche "spidering".

Qual è l'importanza del file Robots TXT per il tuo sito web nel 2021?

Ogni volta che andiamo ad esplorare un posto nuovo, abbiamo bisogno di una guida per comodità e per risparmiare tempo! Allo stesso modo il robot web come quello di Ogni motore di ricerca prende l'aiuto del file Robots.txt per avere un'idea su come scansionare le pagine di un particolare sito web.

A proposito, il comportamento di tali crawler per muoversi su tutto il internetaccedere, indicizzare e servire il contenuto agli utenti mirati sono basato su un gruppo di standard web noto come REP o protocollo di esclusione dei robot che include anche robots.txt.

Cercate aiuto per la vostra SEO?

Mi chiamo Łukasz Żelezny, sono il fondatore di SEO.London. Lavoro nel settore da 20 anni.
Come consulente SEO, ho aiutato decine di aziende.
Volete migliorare i vostri risultati SEO?
Discutiamo la questione in videochiamata.

Iniziare

Cos'è il Robots txt?

In in modo semplice, possiamo capire e ricordare robots.txt come un mix di due termini Robot e Txt. Quindi, si tratta di un txt o file di testo che è destinato ad essere utilizzato dai robot del web possibile che dei motori di ricerca.

Può anche aiutare i webmaster se il sito web per controllare il comportamento di crawling di un agente utente, ma deve essere fatto con attenzione, dal momento che non permettere l'importante o tutti pagine del vostro sito da un motore di ricerca come Google può essere molto pericoloso.

I webmaster di un sito web possono usare robots.txt per istruire il software di web-crawling o gli interpreti per cosa tutte le parti del sito da sottoporre a crawling e non. È possibile farlo utilizzando le istruzioni "allow" o "disallow" all'interno del file robots.txt per alcuni o tutti gli user agent dei crawler.

Cos'è un file Robots txt?

Un motore di ricerca è principalmente responsabile di due compiti principali per svolgere il suo lavoro. Il primo è quello di scoprire il contenuto del web strisciando ovunque e indicizzando gli aggiornamenti. Il lavoro successivo è quello di cercare le informazioni correlate nel suo indicizzato per servire il contenuto giusto secondo una query di ricerca.

Allora, Robots txt cos'è?

I motori di ricerca seguono il link e andare da un sito web all'altroQuesto processo è chiamato anche "spidering". Ogni volta che il bot o il web crawler raggiunge un nuovo sito web, prima di iniziare lo spidering cerca il file robots.txt. Se ne trova uno, lo legge per ottenere informazioni su come effettuare il crawling del sito web, in particolare su cosa accedere e cosa no! In caso di assenza del file robots.txt, l'utente-agente può iniziare a strisciare le altre informazioni disponibili sul sito web.

Cosa dovrebbe esserci in un file Robots txt?

Il file dovrebbe consistere di almeno i seguenti due elementi;

User-agent: (nome dell'user-agent)

Disallow: (stringa di URL che non deve essere scansionata)

Insieme le due linee precedenti possono essere considerate come un insieme discreto di direttive user-agent e sono separate da altri insiemi usando un'interruzione di linea (/).

Se una singola regola è specificata nel file per più di un utente-agente, il crawler leggerà e seguirà prima le direttive che sono menzionate in un gruppo separato di istruzioni.

Come accedere al Robots txt?

Chiunque può guardare il contenuto del robots.txt presente su un sito web semplicemente usando il metodo del browser.

Come ottenere Robots txt?

È necessario aggiungere robots.txt dopo il file principale URL come https://demo.com/robots.txt o il suo sottodominio come https://shop.demo.com/robots.txt.

Come trovare il Robots txt di un sito web?

È obbligatorio che il file robots.txt sia disponibile dopo il dominio principale. Quindi, è possibile menzionare lo stesso sul browser.

Come controllare il Robot txt per un sito web?

Se non troverete nessuna pagina .txt nell'output, allora significa che non c'è nessuna pagina robots.txt (live) attualmente presente sul sito web.

Come trovare il tuo file Robots txt?

Ci dovrebbero essere file robots.txt separati per il dominio principale (demo.com/robots.txt) e per ogni suo sottodominio (blog.demo.com/robots.txt).

Come leggere il Robots txt?

Tutte le istruzioni presenti nel file devono essere lette dall'alto verso il basso sia da un umano che da qualsiasi software bot! Può essere possibile che un robot o un agente utente non legga il file robots.txt di un sito web. Di solito è possibile con i raschiatori di indirizzi e-mail o i robot malware tipo di crawler nefasti.

A cosa serve il Robots txt?

Ci sono molti vantaggi nell'usare robots.txt in un sito web. Come ad esempio;

- Per chiedere motori di ricerca per do non indicizzare certi file come PDF, immagini, ecc. sul tuo sito web. Le direttive Meta possono anche essere utilizzate come alternativa al robots.txt per evitare l'indicizzazione delle pagine ma non funzionano per i file di risorse.

- Un webmaster può garantire un crawling efficiente di un sito web, fornendo utili consigli ai suoi bot.

- Per evitare che i motori di ricerca mostrino qualsiasi ricerca interna pagina dei risultati sulla SERP pubblica.

- Bloccando alcune pagine non importanti o non necessarie del sito web, è possibile massimizzare il budget per il crawling sulle pagine necessarie.

- Da utilizzare come meta-robot per evitare che i contenuti duplicati vengano visualizzati nelle SERP.

- È possibile utilizzare il suo aiuto per non indicizzare i risultati di ricerca interni o le pagine web non funzionanti del vostro sito.

- Per evitare il sovraccarico dei server web che può verificarsi quando i crawler caricare più contenuti alla volta aggiungendo un po' di ritardo di strisciamento.

- Se non volete che le persone atterrino su una pagina che si trova nella sua versione di allestimento, ciò può avere un impatto sull'impressione, soprattutto di chi visita un sito web per la prima volta.

- Per aiutare gli interpreti ad accedere facilmente alla posizione del file mappa del sito(s).

Un webmaster può mantenere una particolare sezione di un sito web (specialmente quelli in costruzione o incompleti) completamente privata dai bot che scavano.

È necessario creare il file robots.txt se il numero di URL indicizzati supera le aspettative.

Come implementare Robots txt?

È migliore utilizzare qualsiasi editor di parole come notepad o wordpad per creare un semplice file di testo compatibile con le regole per fare un robots.txt.

Come fare il Robots txt?

Basta includere le direttive di base come "User agent:" e "Disallow: /" per creare un file di base per il sito web.

Come faccio a creare un file Robots txt?

Chiunque può includere le regole seguendo la sintassi compatibile all'interno del file robots.txt.

Come fare un file Robots txt per il mio sito?

Il modo migliore è quello di generare prima le sitemaps del tuo sito web e includere i suoi URL in fondo per renderlo più efficace.

Come creare il file Robots txt?

I termini comuni che si usano in un file robots.txt sono:

- Crawl-delay - Indica per quanto tempo un crawler specificato deve aspettare prima di accedere al contenuto di una pagina. Il comando non funzionerà per Googlebot, ma per il crawl tasso può essere impostato dalla Google Search Console per ottenere lo stesso risultato.

- User-agent - Indica uno specifico web crawler o l'user agent (generalmente un motore di ricerca) a cui un webmaster vuole dare istruzioni di crawling. Esistono tecnico nomi per i motori di ricerca come Googlebot per Google e così via.

- Consenti (usato da Google) - È una sintassi utile per indicare a Googlebot di effettuare il crawling di una sottocartella o di una pagina presente all'interno di una sottocartella o di una pagina genitore che potrebbe essere non consentita.

- Disallow - Serve a indicare a un bot web di non accedere a un URL specifico. Il comando non deve essere consentito due volte per nessun URL.

-Sitemap - Qualsiasi user-agent compatibile come Yahoo, Ask, Bing o Google può accedere a questo comando per trovare la posizione delle sitemap XML menzionate in base a un URL.

Nota: le espressioni regolari come il segno del dollaro ($) e l'asterisco (*) possono essere usate da SEO per aiutare gli interpreti di Bing e Google a identificare le sottocartelle o le pagine. Qui * è la sintassi di pattern-matching per coprire tutti i tipi di opzioni di terminazione di URL possibili e * è per rappresentare una diversa sequenza di caratteri, funzionando come un semplice carattere jolly.

Come impedire ai bot di strisciare il tuo sito?

Può essere fatto bloccando o impedendo ai web bot specificando le direttive per ciascuno o per tutti di non accedere a una pagina o sottocartella di un sito web.

Come impedire ai bot di scansionare il mio sito?

Ecco alcune direttive comunemente usate nel file robots.txt per istruire i loro utenti-agenti o web crawler;

Come permettere il Robots txt?

1) Permettere ad ogni web crawler di trovare tutto il contenuto

Sintassi: User-agent: * Disallow:

Come prevenire i web crawler?

2) Disabilitare l'accesso a una cartella a un particolare web crawler

Sintassi: User-agent: Googlebot Non consentire: /extra-subfolder/

(L'istruzione precedente chiede al crawler di Google di non accedere a nessuna pagina della località www.site-name.com/extra-subfolder/).

Come disconoscere tutto in Robots txt?

3) Disabilitare tutti i web crawler per accedere a qualsiasi contenuto

Sintassi: User-agent: * Disallow: /

(Puoi usare la semplice istruzione come soluzione a Come bloccare i bot Robots txt?)

Come bloccare i crawler?

4) Disabilitare un particolare web crawler per accedere a una specifica pagina web

Sintassi: User-agent: Googlebot Disallow: /extra-subfolder/useless-page.html

Cosa sono i robot di Google?

Il popolare motore di ricerca usa molti ragno software che gira per tutto il web e scansiona i siti web. Quelli evidenziati sono Googlebot, Googlebot-images (usato per le immagini), e Googlebot-news (per indicizzare e servire le informazioni sulle notizie agli utenti).

Cercate aiuto per la vostra SEO?

Iniziare

Come creare Robots txt per il mio sito web?

Usate un editor di testo che possa creare un file di testo UTF-8 standard. Creare il file usando un elaboratore di testi potrebbe aggiungere qualsiasi carattere inaspettato come le virgolette e può salvarlo in qualsiasi formato proprietario che potrebbe creare problemi ai crawler per capire le istruzioni. I commenti possono essere aggiunti dopo aver specificato il carattere # o il marchio.

Come creare un file Robots txt per Google?

Ecco alcuni suggerimenti su come creare il file specialmente per gli interpreti di Google;

1) Il file deve seguire lo standard di esclusione dei robot.

2) Può includere una o più regole per permettere o bloccare l'accesso del crawler specificato a un percorso particolare di un sito.

3) Un webmaster dovrebbe avere familiarità con quasi tutte le sintassi del file robots.txt per capire il comportamento sottile di ogni sintassi.

4) Il sito non può avere più di un file robots.txt.

5) Il file supporta entrambi i sottodomini (come http://website.demo.com/robots.txt o qualsiasi porta non standard come (http://demo:8181/robots.txt).

6) Se non si conosce o non si ha accesso alla cartella principale del sito web, è meglio contattare il fornitore di servizi di web hosting per mantenere il file robots.txt all'interno della stessa. Nel caso in cui non possiate accedere alla root del sito web, utilizzate i meta tag come metodo di blocco alternativo.

7) Più direttive o regole di gruppo (menzionate una per linea) possono essere incluse nel file robots.txt.

8) Supporta solo caratteri ASCII.

9) Un gruppo fornisce informazioni su chi è applicato (agente utente) e su tutti i file o le directory a cui un agente non può/possa accedere. Le direttive sono elaborate dall'alto verso il basso. Un web bot si associa a un solo gruppo di regole che può essere specificato separatamente o viene prima.

10) Secondo l'ipotesi predefinita, un bot può effettuare il crawling di qualsiasi directory o pagina mediante la sintassi "Disallow:".

11) Le direttive utilizzate nel file sono sensibili alle maiuscole e alle minuscole, come ad esempio Disallow: /one.xml non si applica a ONE.xml.

12) Si applica all'intero dominio di un sito web composto da protocollo https o http.

Di solito, gli user agent di Bing e Google vanno con un gruppo specifico di direttive, ma per default, prima, sono preferibili le regole di corrispondenza poiché i diversi web bot dei motori di ricerca interpretano le direttive in modo diverso.

Si suggerisce anche ai webmaster di evitare di usare la sintassi crawl-delay il più possibile nel loro file robots.txt in modo da ridurre il tempo totale di crawl dei bot dei motori di ricerca.

Come controllare il tuo Robots txt?

Puoi prendere l'aiuto di robots.txt Tester tool disponibile sul sito Console per webmaster di Google per verificare se il bot di Google è in grado di scansionare l'URL che avete già bloccato dalla sua ricerca. Può anche mostrare gli errori logici e gli avvisi di sintassi se ce ne sono nel vostro robots.txt. È possibile modificarlo e ripetere il test.

Una volta che tutto è a posto, puoi far fronte ai cambiamenti e aggiornare il tuo file principale situato sul server del tuo sito web. Allo stesso modo, è possibile utilizzare diversi strumenti per controllare in anticipo il comportamento di crawling del motore di ricerca dopo aver letto il robots.txt del tuo sito web.

Come controllare che il Robots txt funzioni o no?

È inoltre possibile verificare il funzionamento del robots.txt del proprio sito web utilizzando la funzione "URL bloccati" all'interno della sezione "Crawl" nella parte sinistra del sito. Strumenti per i webmaster di Google. Tuttavia, potrebbe non mostrare la versione attuale o aggiornata di robots.txt, ma può essere utilizzato per scopi di test.

Come controllare il file Robot txt in un sito web?

Provate a controllare regolarmente il vostro file robots.txt usando qualsiasi strumento per sapere se tutto è valido in esso e il file sta funzionando nel modo giusto come previsto! A proposito, potrebbero volerci molti giorni o anche alcune settimane perché un motore di ricerca identifichi un URL non consentito leggendo lo stesso dal robots.txt e rimuova la sua indicizzazione.

Come aggiungere Robots txt in HTML?

Dopo aver incluso tutti i set di regole nel file e avergli dato il nome di robots.txt, è necessario salvarlo nella cartella principale o radice del sito web nel server. Una cartella di livello root può essere "www" o "htdocs" che aiuta robots.txt a comparire accanto al nome del dominio.

Come impostare un file Robots txt?

Si consiglia sempre di mantenere una dimensione ragionevole del robots.txt evitando di menzionare direttive indesiderate nel file. È perché anni prima John Mueller di Google ha già chiarito il fatto che Googlebot accederà solo ai primi 500kB di un file robot.txt. Un file gigantesco può essere troncato in modo indesiderato per formare una riga che potrebbe essere interpretata come una regola incompleta.

A cosa serve un file Robots txt?

È anche conosciuto come protocollo di esclusione dei robot o standard di esclusione dei robot che è usato dai siti web per comunicare con i robot web o i crawler. I motori di ricerca usano i loro robot per classificare i siti web.

I webmaster usano i file robots.txt per istruire o guidare tali robot per ottenere una migliore indicizzazione dei loro siti web. Non hai bisogno di un file robots.txt se non vuoi controllare l'accesso degli user-agent a qualsiasi area del tuo sito web. Si possono trovare maggiori dettagli su robots.txt da qualsiasi argomento avanzato come Come creare un bot per i motori di ricerca?

Come usare Robots txt per il SEO?

Per un migliore posizionamento nei motori di ricerca, è una buona pratica SEO permettere ai suoi crawler di raggiungere e accedere al vostro sito con facilità. Il nostro sito web consiste generalmente di un sacco di pagine indesiderate rispetto alle nostre aspettative, e quando i bot dei motori di ricerca scansionano ogni pagina del tuo sito, allora sicuramente consumerà più tempo e questo sicuramente influenzerà negativamente la sua classifica.

Google utilizza il crawl budget (diviso in due parti, crawl rate limit e crawl demand) per ogni sito web per decidere il numero di URL che vuole o può scansionare. Quindi, se aiutate tali bot o user agent ad accedere e indicizzare solo il contenuto più prezioso del vostro sito web robots.txt è un must!

Un SEO non vuole mai che nessuna sezione o contenuto sia bloccato di un sito web che è necessario per essere scansionato.

- Un motore di ricerca come Google può avere più user-agent come Googlebot-Image (per cercare le immagini) e Googlebot (per la ricerca organica). Molti user agent che appartengono allo stesso motore di ricerca possono seguire le stesse regole quindi molti webmaster saltano di specificare le direttive per ognuno di questi crawler. Un SEO può approfittare di questo menzionando istruzioni diverse per ciascuno dei crawler anche se appartengono a un solo motore di ricerca per controllare meglio il loro comportamento di crawling.

- Per una migliore SEO è necessario che i link o le pagine non consentite non includano altri link da seguire. Quindi, la pagina bloccata non deve trasmettere link equity alla destinazione del link o è meglio utilizzare qualsiasi altro meccanismo di blocco. Inoltre, non devono essere collegati ad altre pagine accessibili dai motori di ricerca, ossia a pagine web che non siano state disabilitate da meta robots, robots.txt o altro. In caso contrario, le risorse importanti collegate non saranno accessibili e indicizzate dai motori di ricerca.

- È meglio inviare l'URL robots.url direttamente a Google dopo qualsiasi aggiornamento del file, per garantire un accesso rapido da parte dell'agente utente interessato. In genere, un motore di ricerca aggiorna i contenuti del robots.txt nella cache almeno una volta al giorno.

Come rendere il Robot txt efficace per il SEO?

È bene menzionare la posizione di tutti o di qualsiasi sitemaps in base al dominio del sito web nella parte inferiore del file robots.txt. A proposito, le sitemap sono file XML che contengono informazioni dettagliate sulle pagine di un sito web, come il loro URL e i relativi metadati, come l'importanza, l'intervallo di aggiornamento e l'ultimo aggiornamento.

Tutte queste informazioni possono essere utilizzate dai bot dei motori di ricerca per scansionare in modo intelligente un sito web. Quindi, in questo modo i webmaster possono aiutare gli user agent che supportano le Sitemaps a conoscere e accedere a tutti gli URL della sitemap e saperne di più nel loro processo di scoperta delle pagine da un link all'altro all'interno di un sito o da un altro.

Per esempio;

Indirizzo del browser: https://www.demo.com/robots.txt

Uscita:

User-agent: *

Non permettere: *.dl.html

Permettere: /*.html$

Mappa del sito: https://www.demo.com/en-au/sitemap.xml

Mappa del sito: https://www.demo.com/en-se/sitemap.xml

Mappa del sito: https://www.demo.com/en-us/sitemap.xml

(Le direttive di cui sopra sono per chiamare più di una sitemaps tramite il file robots.txt).

Come evitare il Robots txt?

Esistono rischi per la sicurezza associati al robots.txt, poiché molti bot maligni non possono seguirlo, mentre uno può usarlo per conoscere tutti i link non consentiti e accedervi direttamente. Come soluzione, potete proteggere con una password l'area del vostro sito web che contiene contenuti privati, in modo che un intruso non possa accedervi anche dopo averne conosciuto la posizione.

Per presentare i dati sensibili dall'indicizzazione o apparire nelle SERP (direttamente o indirettamente cioè attraverso le pagine gradite) è meglio usare qualsiasi altro metodo che non sia quello di disconoscere lo stesso dal robots.txt per bloccare la pagina. Può essere una direttiva no index meta o metodi di protezione con password.

Come rimuovere il file Robots txt dal sito web?

WordPress generalmente crea un file robots.txt virtuale di default nella root direttamente per i suoi siti web che non possono essere visti nella directory. Quindi, è sempre meglio creare un nuovo file che si sovrapponga a tutte le impostazioni predefinite, soprattutto per disabilitare la pagina di login o di iscrizione, che non è importante per un motore di ricerca!

Molte persone sono solitamente confuse su come rimuovere Robots txt in WordPress o altre piattaforme. Tuttavia, il processo è lo stesso per tutti! Il file robots.txt deve essere salvato nella directory di primo livello del sito web cioè il dominio principale o la directory principale in modo da aiutare i bot a trovarlo con facilità. Quindi, tutto ciò che serve è eliminare il file direttamente da quella particolare cartella o posizione.

Pensieri finali

Cercate di non includere le istruzioni per nascondere le informazioni riservate degli utenti all'interno del file robots.txt. È perché il file è un file accessibile pubblicamente, si possono vedere le sue direttive aggiungendo /robots.txt alla fine del dominio principale.

In questo modo, chiunque può sapere quali pagine sono state autorizzate dal webmaster del sito per essere carrellate o meno da tutti o da specifici web bot. Il file deve essere salvato solo con il nome "robots.txt", poiché è sensibile alle maiuscole e alle minuscole, quindi nessun'altra combinazione sarà accettata da nessun interprete!

Infine, potreste essere confusi tra x-robots, meta robots, e robots.txt che sembrano termini simili. Tra questi, x-robots e meta sono direttive meta ma robots.txt è un file di testo e sono utilizzati per applicare funzioni diverse.

Per essere specifici, x-robots e meta sono per dettare il comportamento di indicizzazione a livello di elemento della pagina (o di singola pagina), mentre robots.txt è per provare informazioni sul direttore o sul comportamento di crawl lato sito.

Ci sono maggiori possibilità che i bot dei motori di ricerca possano indicizzare e visualizzare il contenuto del vostro sito web sulle SERP in modo migliore e renderlo più visibile spendendo bene il suo budget di crawl durante la scansione dello stesso sito. Utilizzando il robots.txt può anche bloccare il crawling delle pagine di tag WordPress generate automaticamente e prevenire qualsiasi contenuto duplicato.

Nel complesso, è necessario prestare molta attenzione quando si tratta di cosa includere nel file robots.txt. Dopo tutto, un piccolo errore all'interno del file robots.txt potrebbe far sì che il vostro intero sito web venga deindicizzato.

Cercate aiuto per la vostra SEO?

Iniziare

Questo post è stato modificato l'ultima volta il 4 febbraio 2023

Lukasz Zelezny

#1 Consulente SEO che vive a Londra e che ha lavorato con aziende come Zoopla, uSwitch, Mashable, Thomson Reuters e molte altre. Assumere Lukasz Zelezny (MCIM, F IDM)

Prossimo Fattori di ranking di Google Maps "

Precedente " Servizio SEO a Londra

Pubblicato da

Lukasz Zelezny

1 anno fa

Ottimizzazione dell'utente finale
Iniziamo con una domanda. Vi è mai capitato di visitare un'applicazione o un sito web e di sentirvi... Per saperne di più

Come usare Robots txt per il SEO

Qual è l'importanza del file Robots TXT per il tuo sito web nel 2021?

Cos'è il Robots txt?

Cos'è un file Robots txt?

Cosa dovrebbe esserci in un file Robots txt?

Come accedere al Robots txt?

Come ottenere Robots txt?

Come trovare il Robots txt di un sito web?

Come controllare il Robot txt per un sito web?

Come trovare il tuo file Robots txt?

Come leggere il Robots txt?

A cosa serve il Robots txt?

Come implementare Robots txt?

Come fare il Robots txt?

Come faccio a creare un file Robots txt?

Come fare un file Robots txt per il mio sito?

Come creare il file Robots txt?

Come impedire ai bot di strisciare il tuo sito?

Come impedire ai bot di scansionare il mio sito?

Come permettere il Robots txt?

Come prevenire i web crawler?

Come disconoscere tutto in Robots txt?

Come bloccare i crawler?

Cosa sono i robot di Google?

Come creare Robots txt per il mio sito web?

Come creare un file Robots txt per Google?

Come controllare il tuo Robots txt?

Come controllare che il Robots txt funzioni o no?

Come controllare il file Robot txt in un sito web?

Come aggiungere Robots txt in HTML?

Come impostare un file Robots txt?

A cosa serve un file Robots txt?

Come usare Robots txt per il SEO?

Come rendere il Robot txt efficace per il SEO?

Come evitare il Robots txt?

Come rimuovere il file Robots txt dal sito web?

Pensieri finali

Messaggio correlato

Messaggi recenti

SEO Irlanda

SEO per la riabilitazione dalla droga

SEO Essex

Percorso di carriera SEO

SEO per dettaglianti

SEO per le organizzazioni non profit