¿Cómo bloquear robots con Robots.txt?

Para un observador desinformado, un robot deambulando por su sitio web podría parecer algo sacado de una película de ciencia ficción. Lo creas o no, está lejos de la ficción y más cerca de la realidad de lo que imaginas. Para cualquiera que navegue por el terreno de la propiedad y el mantenimiento de sitios web, es crucial comprender cómo interactúan los robots con nuestros espacios en línea. Igualmente esencial es tener la capacidad de regular esta interacción. Esta necesidad nos introduce en una práctica herramienta: robots.txt. En este completo guíadescifraremos qué qué significa "cómo bloquear robots robots txt" y por qué es importante en la era digital actual.

¿Qué es un archivo Robots.txt?

Tabla de contenidos

Un archivo robots.txt es esencialmente el guardián de su sitio web. Le permite controlar que partes de su sitio están disponibles para la exploración bot-como Google busque en y cuáles deberían estar prohibidas. Funcionando como parte del Estándar de Exclusión de Robots (un estándar no oficial utilizado por los sitios), instruye a los robots web sobre las acciones permitidas cuando visitan su sitio web.

Este humilde archivo de texto dice mucho sobre tus preferencias de accesibilidad a la página. ¿Tiene directorios o páginas particulares que quiere mantener alejados de los ojos de los robots? El archivo robots.txt es la solución. Su contenido estipula de forma directa las directivas -es decir, las instrucciones que se dan a los rastreadores web- que permiten gestionar el acceso al sitio de forma más eficaz. Este ingenio permite garantizar una presentación adecuada de contenido en las búsquedas, al tiempo que se protegen las zonas sensibles de una exposición accidental.

En última instancia, aprender a acordonar partes de nuestra ciber dominios nos permite, como webmasters, navegar mejor por la presencia e influencia de los bots en los ámbitos más preciados de nuestras plataformas.

Sintaxis técnica de Robots.txt

La sintaxis de un archivo robots.txt es esencialmente el lenguaje y la estructura gramatical utilizados para crear sus directivas. Es crucial entender cómo aprovechar adecuadamente esta sintaxis puede ayudar a aprender cómo bloquear bots usando robots txt.

Usuario-agente: La directiva user-agent indica el tipo de bot con el que quieres comunicarte, como Googlebot para Google o BingBot para Bing. Comenzar su conjunto de directivas con "User-agent: *" implica que todos los rastreadores web deben seguir estas instrucciones.
Rechazar: Esta directiva envía un mensaje directo: evite la ruta descrita inmediatamente después de ella. Por ejemplo, si escribe "Disallow: /images/", está indicando a cualquier bot que lo lea que no debe arrastrarse de su sitio web imágenes directorio.
Permitir: A la inversa de disallow, dentro de los directorios "no permitidos", una sentencia allow devuelve el permiso de acceso a determinados subdirectorios o archivos.

Coincidencia de patrones

Un elemento intrincado pero potente de la sintaxis del archivo robots.txt es la concordancia de patrones. Además de especificar rutas directamente, la concordancia de patrones permite articular instrucciones complejas sobre cómo bloquear robots en un archivo robots txt mediante símbolos sencillos.

Concéntrese principalmente en dos caracteres esenciales a la hora de aprender la concordancia de patrones: '*' (asterisco) y '$' (signo del dólar). El asterisco actúa como comodín, mientras que el signo del dólar simboliza el final de una URL.
El uso de un asterisco dentro de una sentencia disallow denota cualquier secuencia de cadenas presente en ella. Por ejemplo, "Disallow: /ejemplo" impedirá que los rastreadores accedan a cualquier página de su sitio web cuya URL contenga "ejemplo".
Por el contrario, añadir "$" al final de sus diferentes términos especifica que sólo URLs que terminan así tienen prohibido arrastrándose por bots. Un aviso que diga 'Disallow: /*ejemplo$' restringe el acceso sólo a las páginas cuya URL termine exactamente con 'ejemplo'.

Recuerde, sin embargo, que no todas las arañas comprenden o siguen estos patrones -sobre todo muchas orientadas al spam-, así que téngalo en cuenta a la hora de construir directivas y discernir formas eficientes de bloquear robots mediante archivos robots txt de forma eficaz."""

Navegar por la colocación de su archivo robots.txt puede parecer desalentador, pero puede estar seguro de que es un proceso relativamente sencillo. Este pequeño pero esencial documento debe estar en una ubicación precisa: el directorio raíz de su sitio web.

Lo más importante que hay que recordar es que este sencillo archivo de texto debe ser encontrado fácilmente por los rastreadores. La "raíz" o directorio superior es normalmente donde los robots de los motores de búsqueda van primero en aterrizaje en su dominio. Por lo tanto, colocar el archivo robots.txt aquí proporciona instrucciones inmediatas y claras sobre qué partes de su sitio deben ser accesibles.

Ahora bien, los menos familiarizados con la jerga web se preguntarán a qué nos referimos exactamente cuando hablamos del directorio raíz. En esencia, el directorio raíz de su sitio web es como el tronco de un árbol del que parten todos los demás directorios: constituye la columna vertebral de su presencia en línea. Por ejemplo, si la URL de su sitio web es www.example.com, la raíz sería / (la barra después de .com). Así, www.example.com/robots.txt designa perfectamente su lugar dentro de su directorio raíz.

En cambio, colocarlo bajo otro subdirectorio como /blog/robots.txt no tendrá el efecto deseado, ya que los robots no se molestarán en buscar tan lejos en su sitio antes de obtener instrucciones.

Un posicionamiento incorrecto puede provocar un rastreo y una indexación ineficaces, dos factores fundamentales para el éxito de un proyecto. SEO éxito-porque los buscadores no sabrán dónde se les permite o prohíbe explorar con prontitud cuando lleguen a "su puerta".

Así que asegúrese de que tiene la colocación clavado cuando se mira en la forma de bloquear los robots utilizando los archivos robots txt de manera eficiente. La colocación desempeña un papel fundamental en la configuración de esta piedra angular del SEO técnico.

Al comprender la importancia y el funcionamiento de los archivos robots.txt, queda una pregunta pertinente: ¿por qué se necesita un archivo robots.txt?

En primer lugar, tener un archivo robots.txt orienta a los rastreadores web sobre cómo deben interactuar con su sitio web. Cuando los motores de búsqueda se acercan a su sitio para indexarlo, estas instrucciones en su robots.txt entran en juego. Guían a los robots de búsqueda como Googlebot o Bingbot de Bing en sus rutas de navegación a través de su dominio.

En segundo lugar, un archivo robots.txt es esencial para gestionar el acceso a secciones privadas de su sitio que sean sensibles o estén en desarrollo. Puede dar instrucciones específicas a los robots de indexación dichos contenidos. Esto garantiza que las áreas no deseadas permanezcan sin indexar y fuera de la vista del público a través de las páginas de resultados de los motores de búsqueda (SERP).

Además, existen innumerables robots de rastreo en la Web, tanto buenos como malignos. Al personalizar quién puede rastrear qué en su sitio mediante comandos específicos de "User-agent" en su archivo robots.txt, mantiene altos los estándares de protección contra amenazas potenciales que lo visitan bajo la apariencia de una actividad de rastreo inocente.

Por último, sin las restricciones proporcionadas por un archivo Robots txt, algunos bots podrían sobrecargar los servidores sobrecargándolos de peticiones, lo que provocaría una ralentización del usuario. experiencia o ataques DDoS (Denegación Distribuida de Servicio). Por lo tanto, es una herramienta importante para garantizar una seguridad óptima. servidor rendimiento.

Cuando empiece a familiarizarse con la estructuración de su propio archivo Robots txt más adelante en este artículo, recuerde este concepto clave: Ejemplificar el control sobre las interacciones de los rastreadores con su sitio web define por qué tener un archivo Robots txt particularizado es crucial para proteger y optimizar la presencia en línea de cualquier dominio.

Comprobar si tiene un archivo robots.txt

Ahora vamos a ver cómo puede averiguar si su sitio web ya tiene un archivo "robots.txt". Por lo general, se encuentra en el directorio raíz de su sitio.

Para comprobar su presencia, le recomiendo que siga estos sencillos pasos:

Abre tu navegador favorito.
En el dirección bar del topEscriba yoursitename.com/robots.txt; sustituya "yoursitename.com" por el nombre real de su dominio.

Su pantalla debería mostrar el contenido de este sencillo pero influyente archivo "robots.txt" si existe en su sitio. Por el contrario, un mensaje de error similar a "página 404 no encontrada" o "archivo no encontrado" significaría que no existe ningún archivo robots.txt.

Recuerda que implementar correctamente un 'como bloquear robots bots txt' estrategia influye significativamente en la optimización para motores de búsqueda (SEO). Por lo tanto, es crucial mantenerse informado sobre si tiene o no uno.

En resumen (aunque no es obligatorio), comprender y utilizar correctamente un archivo "robots.txt" forma parte integral de la gestión de sitios web de éxito hoy en día. Si todavía no está seguro después de realizar estos pasos para comprobar su existencia, considere la posibilidad de obtener el asesoramiento de un experto, ya que podría implicar una TI más avanzada. conocimiento de lo esperado.

Recuerde también que no tener un 'robots.txt' no es necesariamente perjudicial - simplemente significa acceso sin restricciones por parte de los robots de los motores de búsqueda en todas las áreas de su sitio. Un control significativo de dicho acceso será eminentemente posible una vez que comprendamos "cómo bloquear robots.txt" eficazmente en nuestros sitios.

Cómo crear un archivo Robots.txt

La creación de un archivo robots.txt es un paso esencial en la gestión de cómo los robots de los motores de búsqueda interactúan con su sitio web. Vamos a sumergirnos en el proceso de creación de uno.

Comprender los componentes de Robots.txt

Un archivo robots.txt típico contiene dos componentes principales: las directivas User-agent y Disallow. El User-agent se refiere al rastreador web específico, como Googlebot o Bingbot, al que desea dirigir sus instrucciones. Por otro lado, en la directiva Disallow se enumeran las páginas o directorios que no desea que rastreen determinados robots. Por ejemplo

User-agent: * Disallow: /privado/

En este caso, todos los bots ('*' significa todos) tienen bloqueado el acceso a todo lo que se encuentre en el directorio 'privado'.

Generación de archivos frescos

Ahora vamos a generar este ingenioso trozo de código. Necesitarás un editor de texto plano, como el bloc de notas. Los procesadores de texto como Microsoft Word no son adecuados para esta tarea debido a su tendencia a insertar caracteres de formato adicionales.

Para empezar, cree un nuevo documento y guárdelo como "robots.txt". Tenga en cuenta que las mayúsculas son importantes: asegúrese de que todo está en minúsculas. A continuación, elabore la sintaxis en función de las secciones que desee bloquear. Recuerde que cada regla debe estar en su propia línea:

User-agent: * Disallow: /

Esta regla impide a todos los bots acceder a cualquier parte de su sitio (señalada con '/'). Utilícela con precaución.

El palabra clave Aquí está la especificidad; a la hora de aprender a bloquear bots, los módulos robots txt son herramientas versátiles que permiten un control preciso de las acciones de los bots.

Cargar su archivo

Una vez creado, suba el archivo robots.txt a la carpeta raíz de su sitio mediante FTP (protocolo de transferencia de archivos). Normalmente se encuentra en la misma ubicación que las carpetas wp-admin, wp-content y wp-includes.

Una vez completados con éxito estos pasos, los usuarios pueden localizar su archivo Robots.txt añadiendo "/robots.txt" después de su dominio principal - por ejemplo, www.example.com/robots.txt. Ahora ya sabe cómo crear un archivo robots.txt.

Recuerde, no obstante, que aunque son eficaces para dirigir a los rastreadores honestos, la cortesía sólo dicta conformidad; los robots destructivos más astutos pueden optar por ignorarlas directamente.

Una vez adquiridos estos conocimientos, recuerde que el mantenimiento es necesario: el control periódico garantiza la eficacia continua, así que dedique tiempo a las inspecciones periódicas. ¡Feliz codificación!

Bloqueo de robots y archivos/carpetas específicos

Al profundizar en el tema - cómo bloquear robots robots txt, es importante entender que esta tarea no siempre se trata de restringir todos los rastreadores. A menudo, es posible que sólo desee especificar ciertos robots no deseados o restringir el acceso únicamente a determinados archivos y directorios. En estos casos, un mayor conocimiento del archivo robots.txt puede marcar la diferencia.

La unidad en la diversidad es una táctica muy extendida que utilizan varios servicios en línea. Diferentes tipos de rastreadores web están flotando alrededor de la internet con comportamientos y capacidades diferentes. Mientras que algunas arañas son vitales para indexar contenidos, como Googlebot, otras, como los robots de spam, podrían perjudicar el rendimiento de su sitio.

Estos bots menos constructivos pueden bloquearse de dos formas: de forma estrecha o de forma amplia. El enfoque restringido consiste en bloquear un bot específico de todo el sitio web, mientras que el más amplio implica bloquear todos los bots de una carpeta o archivo en particular.

Antes de continuar, vamos a comprender cómo puede especificar un user-agent (es decir, un bot) dentro de su archivo robots.txt. Cada regla de este documento debe comenzar especificando el "User-agent", seguido de dos puntos(:), y a continuación delinear el nombre del agente. Dejarlo como un asterisco (*) implica cualquier bot que visite la página. En su lugar, se puede optar por escribir nombres particulares para determinados bots.

A continuación vienen las directivas de "No permitir" o "Permitir", que indican las acciones permitidas para los usuarios-agentes identificados en relación con áreas específicas de su sitio web.

Recuerde que la importancia no reside únicamente en saber cómo bloquear los robots txt, sino también por qué, centrándose tanto en la prevención del despilfarro de recursos como en la protección frente a las actividades maliciosas de los agentes comprometidos.

Para completar nuestro discurso sobre los detalles del bloqueo, recuerde que la fiabilidad desempeña un papel importante a la hora de confiar en el respeto de estas normas: los principales motores de búsqueda suelen cumplirlas estrictamente; por desgracia, los robots raspadores menos conocidos rara vez lo hacen correctamente. No confíes únicamente en robots.txt si quieres proteger datos confidenciales.

Robots.txt vs Meta Robots vs X-Robots

Saber cómo bloquear bots con robots txt es crucial, pero no es el único método para controlar el comportamiento de los bots en su sitio web. También existen meta robots y x-robots, otros dos medios eficaces de dar instrucciones a los robots en línea sobre su sitio. Si se pregunta cuál utilizar o qué distingue a cada una de las otras, permítame que se lo explique.

El archivo Robots.txt

Como ya hemos comentado, un archivo robots.txt actúa como guía principal del webmaster para dirigir a los motores de búsqueda hacia o desde partes específicas de un sitio web. Este pequeño archivo de texto se encuentra en el directorio raíz y suele proporcionar directrices generales para todos los robots de agente de usuario, a menos que se indiquen otras específicas.

Básicamente, el archivo robots.txt dice a los robots: "Estas zonas están prohibidas". Sin embargo, tenga en cuenta que no todas las arañas respetarán estas reglas.

¿Qué son las etiquetas meta robot?

Las etiquetas Meta Robots ofrecen un control más granular en comparación con las etiquetas amplia directrices proporcionadas por un archivo robots.txt. Estos atributos HTML indican a los robots de los motores de búsqueda si deben indexar páginas individuales en lugar de directorios o sitios enteros. Indican a los motores de búsqueda si deben indexar una página ("noindex"), seguir sus enlaces ("nofollow"), "none" (que implica noindex y nofollow) entre otros comandos. Las etiquetas meta robot se comunican directamente con los rastreadores de los motores de búsqueda página por página, ofreciendo una verdadera versatilidad en la gestión del comportamiento de los rastreadores.

¿Cómo funcionan las etiquetas X-Robots?

Las etiquetas x-robots comparten algunas similitudes con las etiquetas meta robots, ya que también proporcionan instrucciones detalladas a nivel de página. Sin embargo, a diferencia de sus homólogas que aparecen dentro de los documentos HTML, las etiquetas x-robots se sitúan en HTTP encabezados. Esta ubicación les permite funcionar incluso con archivos no HTML, como PDF o imágenes. Al igual que las etiquetas meta robot, las acciones de las etiquetas x-robot pueden ser "noindex", "nofollow" o incluso "nosnippet", entre otras.

Por tanto, aunque aprender a bloquear robots mediante robots txt es un conocimiento valioso para cualquier webmaster, comprender los puntos fuertes y las aplicaciones de los meta robots y los x robots proporciona un conjunto de herramientas aún más amplio a la hora de gestionar la relación de su sitio con los rastreadores web.

Publicado en: junio 2023

Última actualización en 2023-06-29T16:47:23+00:00 por Lukasz Zelezny

Escrito por:

Lukasz Zelezny

Comparta este artículo:

Volver al blog

Acceder a Ejemplo de Análisis SEO GAP

SEO.London comprobó 35 sitios web y más de 150.000 palabras clave. A continuación se presenta el resultado de más de 5 millones de puntos de datos.

Estudio de datos abiertos