En este blogpost de SEO

Ocultar esta sección

¿Cuál es la importancia del archivo TXT de los robots para su sitio web en 2021?

Cada vez que vamos a explorar un nuevo lugar, necesitamos una guía para que nos resulte cómodo y para ahorrar tiempo. De la misma manera que el robots de la web así de cualquier motor de búsqueda toma la ayuda del archivo Robots.txt para tener una idea de cómo rastrear las páginas de un sitio web en particular.

Por cierto, el comportamiento de estas orugas para moverse por todo el internetAcceder, indexar y servir el contenido a los usuarios objetivo son basado en un grupo de normas web conocidas como REP o protocolo de exclusión de robots que incluye también robots.txt.

¿Qué es Robots txt?

En una manera sencilla, podemos entender y recordar robots.txt como una mezcla de dos términos Robot y Txt. Así, es un archivo txt o de texto que está destinado a ser utilizado por los Robots de la web posible que de los motores de búsqueda.

También puede ayudar a los webmasters si el sitio web para controlar el comportamiento de rastreo de un agente de usuario, pero tiene que ser hecho con cuidado, ya que la desautorización de la importante o todos páginas de su sitio desde un motor de búsqueda como Google puede ser muy peligroso.

Los webmasters de un sitio web pueden utilizar robots.txt para indicar al software de rastreo web o a los agentes de usuario que qué todas las partes a rastrear y lo que no del sitio. Se puede hacer mediante el uso de instrucciones "allow" o "disallow" dentro del archivo robots.txt para algunos o todos los agentes de usuario de rastreo

¿Qué es un archivo Robots txt?

Un motor de búsqueda se encarga principalmente de dos tareas principales para realizar su trabajo. El primero es descubrir el contenido de la web rastreando por todas partes e indexando las actualizaciones. El siguiente trabajo es buscar la información relacionada en su indexado para servir el contenido correcto según una consulta de búsqueda.

Entonces, Robots txt ¿qué es?

Los motores de búsqueda siguen el enlaces y pasar de un sitio web a otroEl proceso también se denomina "spidering". Cada vez que el bot o rastreador web llega a un nuevo sitio web, antes de empezar a rastrearlo, busca el archivo robots.txt. Si consigue uno, lo leerá para obtener información sobre cómo rastrear el sitio web, especialmente a qué acceder y a qué no. En el caso de que no exista el archivo robots.txt, los usuarios-agentes pueden empezar a rastrear el resto de la información disponible en el sitio web.

¿Qué debe contener un archivo Robots txt?

El archivo debe constar de al menos los dos elementos siguientes;

Agente de usuario: (Nombre del agente de usuario)

Disallow: (Cadena de URL que no debe ser rastreada)

Las dos líneas anteriores pueden considerarse como un conjunto discreto de directivas de agente de usuario y se separan de otros conjuntos mediante un salto de línea (/).

Si se especifica una única regla en el archivo para más de un usuario-agente, el rastreador leerá y seguirá primero las directivas que se mencionan en un grupo separado de instrucciones.

¿Cómo acceder a Robots txt?

Cualquiera puede mirar el contenido del robots.txt presente en un sitio web simplemente utilizando el método del navegador.

¿Cómo obtener el Robots txt?

Debe añadir el archivo robots.txt después del archivo principal URL como https://demo.com/robots.txt o su subdominio como https://shop.demo.com/robots.txt.

¿Cómo encontrar el Robots txt de un sitio web?

Es obligatorio que el archivo robots.txt esté disponible después del dominio raíz. Por lo tanto, puede mencionar el mismo en el navegador.

¿Cómo comprobar el Robot txt para el sitio web?

Si no encuentra ninguna página .txt en la salida, significa que no hay ninguna página robots.txt (viva) presente en el sitio web.

¿Cómo encontrar su archivo Robots txt?

Debe haber archivos robots.txt separados para el dominio raíz (demo.com/robots.txt) y para cada uno de los subdominios (blog.demo.com/robots.txt).

¿Cómo leer el Robots txt?

Todas las instrucciones presentes en el archivo deben ser leídas de arriba a abajo tanto por un humano como por cualquier robot de software. Puede ser posible que un robot o un agente de usuario no lea el archivo robots.txt de un sitio web. Suele ser posible con los scrapers de direcciones de correo electrónico o con los robots de malware del tipo de rastreadores nefastos.

¿Para qué sirve el Robots txt?

Hay muchas ventajas de usar robots.txt en un sitio web. Tales como;

- Para preguntar motores de búsqueda para hacer no indexar ciertos archivos como PDFs, imágenes, etc. en su sitio web. Las meta directivas también se pueden utilizar como alternativa a robots.txt para evitar la indexación de las páginas, pero no funcionan para los archivos de recursos.

- Un webmaster puede asegurar un rastreo eficiente de un sitio web proporcionando consejos a sus bots.

- Para evitar que los motores de búsqueda muestren cualquier búsqueda interna página de resultados en la SERP pública.

- Al bloquear ciertas páginas no importantes o innecesarias del sitio web, puede maximizar su presupuesto de rastreo en las páginas necesarias.

- Para ser utilizado como meta-robots para evitar que el contenido duplicado se muestre en las SERPs.

- Puede tomar su ayuda para no indexar los resultados de búsqueda internos o las páginas web rotas de su sitio web.

- Para evitar la sobrecarga de los servidores web que es posible cuando los rastreadores carga múltiples contenidos a la vez añadiendo un cierto retraso en el rastreo.

- Si usted no quiere que la gente aterrice en cualquier página que está en su versión de puesta en escena que puede impactar la impresión especialmente de un visitante por primera vez de un sitio web.

- Para ayudar a los agentes del usuario a acceder fácilmente a la ubicación del mapa del sitio(s).

Un webmaster puede mantener una sección particular de un sitio web (especialmente en construcción o incompleta) completamente privada de los robots de rastreo.

Es necesario crear el archivo robots.txt si el número de URLs indexadas supera las expectativas.

¿Cómo implementar el Robots txt?

Es mejor utilizar cualquier editor de textos como el bloc de notas o el wordpad para crear un sencillo archivo de texto compatible con las reglas para hacer un robots.txt.

¿Cómo hacer el Robots txt?

Basta con incluir las directivas básicas como "User agent:" y "Disallow: /" para crear un archivo básico para el sitio web.

¿Cómo puedo crear un archivo Robots txt?

Cualquiera puede incluir las reglas siguiendo la sintaxis compatible dentro del archivo robots.txt.

¿Cómo hacer un archivo Robots txt para mi sitio?

La mejor manera es generar primero los sitemaps de su sitio web e incluir sus URLs en la parte inferior para hacerlo más efectivo.

¿Cómo crear el archivo Robots txt?

Los términos comunes que se utilizan dentro de un archivo robots.txt son:

Retraso en el gateo - Indica cuánto tiempo debe esperar un rastreador especificado antes de acceder al contenido de una página. El comando no funcionará para el Googlebot, sin embargo el crawl tasa se puede configurar desde Google Search Console para realizar el mismo trabajo.

- User-agent - Menciona un rastreador web específico o el agente de usuario (generalmente un motor de búsqueda) al que un webmaster quiere dar instrucciones de rastreo. Existen técnico nombres para los motores de búsqueda como Googlebot para Google y así sucesivamente.

- Permitir (utilizado por Google) - Es una sintaxis útil para instruir a Googlebot para que rastree una subcarpeta o una página que está presente dentro de cualquier subcarpeta padre o una página que podría estar desautorizada.

- Disallow - Es para instruir a un bot web para que no acceda a una URL específica. El comando no debe ser permitido dos veces para cualquier URL.

-Sitemap - Cualquier agente de usuario compatible como Yahoo, Ask, Bing o Google puede acceder a este comando para encontrar la ubicación de los mencionados sitemaps XML basados en una URL.

Nota: Las expresiones regulares como el signo de dólar ($) y el asterisco (*) pueden ser utilizadas por SEO para ayudar a los agentes de usuario de Bing y Google a identificar las subcarpetas o páginas. Aquí * es la sintaxis de coincidencia de patrones para cubrir todo el tipo de opciones posibles de terminación de URL y * es para representar una secuencia diferente de caracteres, funcionando como un simple comodín.

¿Cómo evitar que los robots rastreen su sitio?

Se puede hacer bloqueando o desautorizando a los bots de la web especificando las directivas para que cada uno o todos no accedan a una página o subcarpeta de un sitio web.

¿Cómo evitar que los robots rastreen mi sitio?

Estas son algunas de las directivas que se suelen utilizar en el archivo robots.txt para dar instrucciones a sus agentes de usuario o rastreadores web;

¿Cómo permitir el uso de Robots txt?

1) Permitir que cada rastreador web encuentre todo el contenido

Sintaxis: User-agent: * Disallow:

¿Cómo evitar los rastreadores web?

2) Desactivar el acceso de un rastreador web concreto a una carpeta

Sintaxis: User-agent: Googlebot Disallow: /extra-subcarpeta/

(La instrucción anterior pide al rastreador de Google que no acceda a ninguna página de la ubicación www.site-name.com/extra-subfolder/)

¿Cómo se puede deshabilitar todo en el Robots txt?

3) No permitir que todos los rastreadores de la web accedan a ningún contenido

Sintaxis: User-agent: * Disallow: /

(Puede utilizar la instrucción simple como una solución a ¿Cómo bloquear bots Robots txt?)

¿Cómo bloquear a los rastreadores?

4) Desactivar el acceso de un rastreador web a una página web específica

Sintaxis: User-agent: Googlebot Disallow: /extra-subcarpeta/página-inútil.html

¿Qué son los robots de Google?

El popular motor de búsqueda utiliza muchos araña es un software que gira por toda la web y escanea los sitios web. Los más destacados son Googlebot, Googlebot-images (utilizado para las imágenes) y Googlebot-news (para indexar y servir la información sobre las noticias a los usuarios).

¿Cómo crear Robots txt para mi sitio web?

Utilice un editor de texto que pueda crear un archivo de texto estándar UTF-8. La creación del archivo con un procesador de textos puede añadir algún carácter inesperado, como las comillas, y puede guardarlo en un formato propietario que podría plantear problemas a los rastreadores para entender las instrucciones. Se pueden añadir comentarios después de especificar el carácter o la marca #.

Contratar a un consultor SEO

Contrata a un consultor SEO #1 que vive en Londres y que ha trabajado con empresas como Zoopla, uSwitch, Mashable, Thomson Reuters y muchas otras. Contrata a Lukasz Zelezny (MCIM, F IDM).

    ¿Cómo crear un archivo Robots txt para Google?

    Aquí hay algunas sugerencias para crear el archivo especialmente para los agentes de usuario de Google;

    1) El archivo debe seguir la norma de exclusión de robots.

    2) Puede incluir una o más reglas para permitir o bloquear el acceso al crawler especificado a una ruta particular de un sitio.

    3) Un webmaster debe estar familiarizado con casi toda la sintaxis del archivo robots.txt para entender el sutil comportamiento de cada sintaxis.

    4) El sitio no puede tener más de un archivo robots.txt.

    5) El archivo admite tanto subdominios (como http://website.demo.com/robots.txt o cualquier puerto no estándar como (http://demo:8181/robots.txt).

    6) Si no conoce o no tiene acceso a la carpeta raíz de su sitio web, lo mejor es que se dirija al proveedor de servicios de alojamiento web para que guarde el archivo robots.txt dentro de la misma. En caso de que no pueda acceder a la raíz del sitio web, utilice las etiquetas meta como método de bloqueo alternativo.

    7) Se puede incluir más de un grupo de directivas o reglas (mencionadas una por línea) en el archivo robots.txt.

    8) Sólo admite caracteres ASCII.

    9) Un grupo proporciona información sobre a quién se aplica (agente de usuario) y cuáles son todos los archivos o directorios a los que un agente no puede/puede acceder. Las directivas se procesan de arriba a abajo. Un bot web se asocia a un solo grupo de reglas que puede ser especificado por separado o viene primero.

    10) Según la suposición por defecto, un bot puede rastrear cualquier directorio o página mediante una sintaxis "Disallow:".

    11) Las directivas utilizadas en el archivo distinguen entre mayúsculas y minúsculas, como Disallow: /one.xml no se aplica a ONE.xml.

    12) Se aplica a la totalidad del dominio de un sitio web que consiste en protocolo https o http.

    Normalmente, los agentes de usuario de Bing y Google se decantan por un grupo específico de directivas pero, por defecto, se prefieren las reglas de concordancia, ya que los diferentes bots web de los motores de búsqueda interpretan las directivas de manera diferente.

    También se sugiere a los administradores de sitios web que eviten utilizar la sintaxis de retardo de rastreo en la medida de lo posible en su archivo robots.txt para reducir el tiempo total de rastreo de los robots del motor de búsqueda.

    ¿Cómo comprobar su Robots txt?

    Puede utilizar la herramienta de comprobación de robots.txt disponible en el sitio web La consola para webmasters de Google para comprobar si el robot de Google es capaz de rastrear la URL que ya había bloqueado de su búsqueda. También puede mostrar los errores de lógica y advertencia de sintaxis si hay alguno en su robots.txt. Puede editarlo y volver a probarlo.

    Una vez que todo está bien, puede hacer frente a los cambios y actualizar su archivo principal ubicado en el servidor de su sitio web. Del mismo modo, puede utilizar diferentes herramientas para comprobar de antemano el comportamiento de rastreo del motor de búsqueda después de leer el robots.txt de su sitio web.

    ¿Cómo comprobar si el Robots txt funciona o no?

    También puede comprobar cómo funciona el robots.txt de su sitio web utilizando la función "URLs bloqueadas" dentro de la sección "Crawl" que se encuentra en la parte izquierda del sitio web. Herramientas para webmasters de Google. Sin embargo, es posible que no muestre la versión actual o actualizada de robots.txt, pero puede utilizarse para realizar pruebas.

    ¿Cómo comprobar el archivo Robot txt en un sitio web?

    Trate de comprobar regularmente su archivo robots.txt utilizando cualquier herramienta para saber si todo es válido en él y si el archivo está funcionando de la manera esperada. Por cierto, un motor de búsqueda puede tardar muchos días o incluso algunas semanas en identificar una URL no permitida al leerla en el archivo robots.txt y eliminar su indexación.

    ¿Cómo añadir Robots txt en HTML?

    Después de incluir todos los conjuntos de reglas en el archivo y nombrarlo con robots.txt, es necesario guardarlo en la carpeta principal o raíz del sitio web en el servidor. Una carpeta de nivel raíz puede ser "www' o "htdocs" que ayuda a que el robots.txt aparezca junto al nombre de su dominio.

    ¿Cómo configurar un archivo Robots txt?

    Siempre se sugiere mantener un tamaño razonable de robots.txt evitando mencionar directivas no deseadas en el archivo. Es porque años antes John Mueller de Google ya ha aclarado el hecho de que Googlebot sólo accederá a los primeros 500kB de un archivo robot.txt. Un archivo gigante puede ser truncado de forma no deseada para formar una línea que podría ser interpretada como una regla incompleta.

    ¿Para qué sirve un archivo Robots txt?

    También se conoce como protocolo de exclusión de robots o estándar de exclusión de robots que es utilizado por los sitios web para comunicarse con los robots o rastreadores web. Los motores de búsqueda utilizan sus robots para clasificar los sitios web.

    Los webmasters utilizan archivos robots.txt para instruir o guiar a dichos robots para conseguir una mejor indexación de sus sitios web. Usted no necesita un archivo robots.txt si no desea controlar el acceso de los agentes de usuario a cualquier área de su sitio web. Uno puede encontrar más detalles sobre robots.txt en cualquier tema avanzado como ¿Cómo crear un bot de motor de búsqueda?

    ¿Cómo utilizar el Robots txt para el SEO?

    Para una mejor clasificación en los motores de búsqueda, es una buena práctica de SEO para permitir que sus rastreadores para llegar y acceder a su sitio con facilidad. Nuestro sitio web generalmente consiste en un montón de páginas no deseadas que nuestras expectativas, y cuando los robots del motor de búsqueda rastrear cada página de su sitio, entonces seguramente va a consumir más tiempo y esto seguramente va a afectar negativamente a su clasificación.

    Google utiliza el crawl budget (dividido en dos partes, crawl rate limit y crawl demand) de cada sitio web para decidir el número de URLs que quiere o puede escanear. Por lo tanto, si quiere ayudar a estos bots o agentes de usuario a acceder e indexar sólo el contenido más valioso de su sitio web, robots.txt es imprescindible.

    Un SEO nunca quiere que se bloquee ninguna sección o contenido de un sitio web que sea necesario rastrear.

    - Un motor de búsqueda como Google puede tener múltiples agentes de usuario como Googlebot-Image (para buscar las imágenes) y Googlebot (para la búsqueda orgánica). Muchos agentes de usuario que pertenecen al mismo motor de búsqueda pueden seguir las mismas reglas por lo que muchos webmasters omiten especificar directivas para cada uno de estos rastreadores. Un SEO puede aprovechar esto mencionando instrucciones diferentes a cada uno de los rastreadores aunque pertenezcan a un solo motor de búsqueda para controlar mejor su comportamiento de rastreo.

    - Para un mejor SEO es necesario que los enlaces o páginas no permitidas no incluyan más enlaces que deban ser seguidos. Por lo tanto, la página bloqueada no debe pasar por el enlace de destino o es mejor utilizar cualquier otro mecanismo de bloqueo. Tampoco deben estar enlazadas con otras páginas accesibles por los motores de búsqueda, es decir, páginas web que no estén desautorizadas por meta robots, robots.txt, o cualquier otro. De lo contrario, los recursos importantes enlazados no serán accedidos e indexados por los motores de búsqueda.

    - Lo mejor es enviar la URL de robots.url directamente a Google después de cualquier actualización realizada en el archivo para asegurar su rápido acceso por parte del agente de usuario objetivo. Por lo general, un motor de búsqueda actualiza el contenido de robots.txt en caché una vez al día como mínimo.

    ¿Cómo hacer que el Robot txt sea efectivo para el SEO?

    Es bueno mencionar la ubicación de todos o alguno de los sitemaps basado en el dominio del sitio web en la parte inferior de su archivo robots.txt. Por cierto, los sitemaps son archivos XML que contienen información detallada sobre las páginas de un sitio web como su URL con los metadatos relacionados como su importancia, su intervalo de actualización y la última actualización.

    Toda esta información puede ser utilizada por los robots de los motores de búsqueda para rastrear inteligentemente un sitio web. Así, de esta forma los webmasters pueden ayudar a los agentes de usuario que soportan los sitemaps a conocer y acceder a todas las URLs del mapa del sitio y saber más sobre ellas en su proceso de descubrimiento de páginas de un enlace a otro dentro de uno o desde otro sitio.

    Por ejemplo;

    Dirección del navegador: https://www.demo.com/robots.txt

    La salida:

    Agente de usuario: *

    Disallow: *.dl.html

    Permitir: /*.html$

    Mapa del sitio: https://www.demo.com/en-au/sitemap.xml

    Mapa del sitio: https://www.demo.com/en-se/sitemap.xml

    Mapa del sitio: https://www.demo.com/en-us/sitemap.xml

    (Las directivas anteriores son para llamar a más de un sitemaps a través del archivo robots.txt).

    ¿Cómo evitar el Robots txt?

    Existen riesgos de seguridad asociados a robots.txt ya que muchos bots maliciosos no pueden seguirlo así como uno puede utilizarlo para conocer todos los enlaces no permitidos y acceder directamente a ellos. Así que como solución, puede proteger con contraseña el área de su sitio web que contiene contenido privado para que un intruso no pueda acceder a él incluso después de conocer su ubicación.

    Para evitar que los datos sensibles sean indexados o aparezcan en las SERPs (ya sea directa o indirectamente, es decir, a través de las páginas favoritas), es mejor utilizar cualquier otro método que no sea el de bloquear la página en el robots.txt. Puede ser una directiva de no indexación o métodos de protección con contraseña.

    ¿Cómo eliminar el archivo Robots txt de un sitio web?

    WordPress generalmente hace un archivo virtual por defecto robots.txt en la raíz directamente para sus sitios web que no pueden ser vistos en el directorio. ¡Por lo tanto, siempre es mejor crear un nuevo archivo que se superponga a cualquier configuración por defecto, especialmente para no permitir la página de inicio de sesión o de registro que no importa a un motor de búsqueda!

    Mucha gente suele estar confundida sobre cómo eliminar el Robots txt en WordPress u otras plataformas. Sin embargo, el proceso es el mismo para todos. El archivo robots.txt debe guardarse en el directorio de nivel superior del sitio web, es decir, el dominio raíz o el directorio principal, para ayudar a los robots a encontrarlo con facilidad. Por lo tanto, todo lo que necesita es eliminar el archivo directamente de esa carpeta o ubicación en particular.

    Reflexiones finales

    Intente no incluir las instrucciones para ocultar información confidencial del usuario dentro del archivo robots.txt. Es porque el archivo es un archivo de acceso público, uno puede ver sus directivas añadiendo /robots.txt al final del dominio raíz.

    De esta manera, cualquier persona puede llegar a saber qué páginas están permitidas por el webmaster del sitio para ser rastreadas o no por todos o determinados robots web. El archivo debe guardarse sólo con el nombre "robots.txt", ya que distingue entre mayúsculas y minúsculas, por lo que ninguna otra combinación será aceptada por ningún agente de usuario.

    Por último, es posible que se confunda entre x-robots, meta robots y robots.txt que suenan a términos similares. Entre ellos, x-robots y meta son directivas meta pero robots.txt es un archivo de texto y se utilizan para aplicar diferentes funciones.

    En concreto, x-robots y meta deben dictar el comportamiento de indexación a nivel de elemento de página (o de página individual), mientras que robots.txt debe proporcionar información sobre el comportamiento de rastreo del director o del sitio.

    Hay más posibilidades de que los bots del motor de búsqueda puedan indexar y mostrar el contenido de su sitio web en los SERPs de la mejor manera y hacerlo más visible mediante el gasto de su presupuesto de rastreo bien mientras se escanea el mismo sitio. Mediante el uso de los robots.txt también puede bloquear el rastreo de las páginas de etiquetas autogeneradas de WordPress y evitar más contenido duplicado.

    En general, es necesario tener mucho cuidado cuando se trata de lo que se incluye en el archivo robots.txt. Después de todo, un pequeño error dentro del archivo robots.txt podría hacer que todo su sitio web sea desindexado.

    Cómo utilizar el Robots txt para el SEO

    Última actualización en 2023-02-04T21:08:56+00:00 por Lukasz Zelezny