Robots.txt로 봇을 차단하는 방법은 무엇인가요?

잘 모르는 사람에게는 웹사이트를 돌아다니는 로봇이 공상과학 영화에서나 나올 법한 장면처럼 보일 수 있습니다. 믿거나 말거나, 생각보다 공상과는 거리가 멀고 현실에 가깝습니다! 웹사이트를 소유하고 유지 관리하는 모든 사람들에게 봇이 온라인 공간과 상호 작용하는 방식을 이해하는 것은 매우 중요합니다. 이러한 상호작용을 제어할 수 있는 역량을 갖추는 것도 마찬가지로 중요합니다. 이러한 필요에 따라 편리한 도구가 등장했습니다: 로봇.txt. 이 포괄적인 가이드를 디코딩합니다. 무엇 "봇 로봇 텍스트 차단 방법"의 의미와 오늘날 디지털 시대에 중요한 이유.

Robots.txt 파일이란 무엇인가요?

쉬운 목차

robots.txt 파일은 기본적으로 웹사이트의 게이트키퍼 역할을 합니다. 이 파일을 통해 다음을 제어할 수 있습니다. 어느 사이트 일부를 봇 탐색에 사용할 수 있습니다(예: Google의 검색 엔진 스파이더와 같이 제한되어야 하는 스파이더를 포함합니다. 로봇 제외 표준(사이트에서 사용하는 비공식 표준)의 일부로 작동하는 이 기능은 웹 로봇이 웹사이트를 방문할 때 허용되는 작업을 알려줍니다.

이 소박한 텍스트 파일은 페이지 접근성 기본 설정에 대해 많은 것을 말해줍니다. 로봇의 눈을 피해 숨기고 싶은 특정 디렉토리나 페이지가 있나요? robots.txt 파일로 해결하세요! 이 파일에는 웹 크롤러에 제공되는 지시문(디렉티브)에 대한 구체적인 지침이 명시되어 있어 사이트 액세스를 보다 효과적으로 관리하는 데 도움이 됩니다. 이러한 유용한 기능 덕분에 다음과 같은 사항을 적절하게 표시할 수 있습니다. 콘텐츠 를 사용하면 검색이 더 쉬워지는 동시에 민감한 영역이 실수로 노출되지 않도록 보호할 수 있습니다.

궁극적으로는 사이버 공간의 일부를 차단하는 방법을 배우는 것입니다. 도메인 를 통해 웹마스터가 플랫폼의 소중한 영역 내에서 봇의 존재와 영향력을 정확하게 파악할 수 있도록 지원하는 것이 바로 오늘날 우리가 집중하는 부분입니다.

기술 로봇.txt 구문

robots.txt 파일의 구문은 기본적으로 지시어를 만드는 데 사용되는 언어와 문법 구조입니다. 이 구문을 올바르게 활용하면 robots.txt를 사용하여 봇을 차단하는 방법을 배우는 데 얼마나 도움이 될 수 있는지 이해하는 것이 중요합니다.

사용자 에이전트: 사용자-에이전트 지시어는 통신하려는 봇의 유형(예: Google의 경우 Googlebot 또는 BingBot)을 나타냅니다. Bing. 지시어 집합을 "사용자-에이전트: *"로 시작하는 것은 모든 웹 크롤러가 이 지침에 유의해야 함을 의미합니다.
허용하지 않습니다: 이 지시어는 바로 뒤에 설명된 경로를 피하라는 간단한 메시지를 전달합니다. 예를 들어 "Disallow: /이미지/"라고 쓰면, 이 지시문을 읽는 봇에게 다음을 수행하지 말라고 지시하는 것입니다. 크롤링 웹사이트의 이미지 디렉터리로 이동합니다.
허용: '허용되지 않은' 디렉터리 내에서 허용 문은 특정 하위 디렉터리 또는 파일에 대한 액세스 권한을 다시 부여하는 것으로, 불허와 정반대입니다.

패턴 매칭

robots.txt 파일 구문의 복잡하지만 강력한 요소 중 하나는 패턴 매칭입니다. 패턴 매칭을 사용하면 경로를 직접 지정하는 것 외에도 간단한 기호를 통해 로봇 txt 파일에서 봇을 차단하는 방법에 대한 복잡한 지침을 명확하게 표현할 수 있습니다.

패턴 매칭에 대해 배울 때는 주로 '*'(별표)와 '$'(달러 기호)라는 두 가지 필수 문자에 집중하세요. 별표는 와일드카드 역할을 하고 달러 기호는 URL의 끝을 상징합니다.
허용하지 않음 문 안에 별표를 사용하면 해당 문에 있는 문자열 시퀀스를 나타냅니다. 예를 들어, 'Disallow: /example'은 웹 크롤러가 URL에 'example'가 포함된 웹사이트의 모든 페이지에 액세스하지 못하도록 차단합니다.
반대로, 다른 용어의 끝에 '$'를 추가하면 URL 이와 같이 끝나는 것은 금지됩니다. 크롤링 봇에 의해. 'Disallow: /*예시$*'라는 알림은 URL이 정확히 'example'로 끝나는 페이지로만 액세스를 제한합니다.

하지만 모든 스파이더가 이러한 패턴을 이해하거나 따르는 것은 아니며, 특히 스팸 지향적인 스파이더가 많으므로 이 점을 고려하여 지시문을 구성하고 로봇 txt 파일을 사용하는 봇을 효과적으로 차단하는 효율적인 방법을 찾아보세요."""

robots.txt 파일의 위치를 탐색하는 것은 어려워 보일 수 있지만 비교적 간단한 과정이므로 안심하세요. 이 작지만 필수적인 문서는 웹사이트의 루트 디렉터리라는 정확한 위치에 있어야 합니다.

기억해야 할 중요한 점은 이 간단한 텍스트 파일을 크롤러가 쉽게 찾을 수 있어야 한다는 것입니다. "루트" 또는 최상위 디렉터리는 일반적으로 검색 엔진 봇이 가장 먼저 방문하는 곳입니다. 착륙 귀하의 도메인. 따라서 robots.txt 파일을 여기에 배치하면 사이트의 어느 부분에 액세스할 수 있어야 하는지에 대한 즉각적이고 명확한 지침을 제공합니다.

웹 용어에 익숙하지 않은 분들은 '루트' 디렉터리가 정확히 무엇을 의미하는지 궁금하실 것입니다. 기본적으로 웹사이트의 루트 디렉토리는 다른 모든 디렉토리가 파생되는 트리 트렁크와 비슷하며, 온라인 존재의 중추를 형성합니다. 예를 들어 웹사이트 URL이 www.example.com 인 경우 루트는 / (.com 뒤의 슬래시)가 됩니다. 따라서 www.example.com/robots.txt은 루트 디렉토리 내에서 완벽하게 위치를 지정합니다.

반대로 다른 항목 아래에 배치하면 하위 디렉터리 블로그/로봇.txt와 같은 파일은 봇이 지침을 얻기 전에 사이트를 그렇게까지 검색하지 않기 때문에 원하는 효과를 얻지 못합니다.

결정적으로, 잘못된 포지셔닝은 크롤링과 인덱싱의 두 가지 기본 요소인 비효율적인 크롤링과 인덱싱으로 이어질 수 있습니다. SEO 검색 엔진이 '사용자의 문앞'에 도착했을 때 즉시 탐색이 허용되거나 금지된 위치를 알 수 없기 때문입니다.

따라서 로봇 txt 파일을 사용하여 봇을 효율적으로 차단하는 방법을 살펴볼 때 배치가 제대로 이루어졌는지 확인해야 합니다. 게재 위치는 이 기술적 SEO 초석 설정에서 정말 중요한 역할을 합니다.

robots.txt 파일의 중요성과 기능을 이해하는 데 있어 한 가지 관련 질문이 남아 있습니다.

첫째, robots.txt 파일이 있으면 웹 크롤러가 웹사이트와 상호 작용하는 방법에 대한 지침을 웹 크롤러에게 제공합니다. 검색 엔진이 색인을 생성하기 위해 사이트에 접근할 때 robots.txt에 있는 이러한 지침이 적용됩니다. 이 파일은 Google의 Googlebot 또는 Bing의 Bingbot과 같은 검색 봇이 도메인을 탐색하는 경로를 안내합니다.

둘째, 사이트의 민감한 부분이나 개발 중인 비공개 섹션에 대한 액세스를 관리하려면 robots.txt 파일이 필수입니다. 다음에서 봇에게 구체적으로 지시할 수 있습니다. 인덱싱 이러한 콘텐츠. 이렇게 하면 원치 않는 영역이 색인되지 않고 검색 엔진 결과 페이지(SERP)를 통해 대중이 볼 수 없게 됩니다.

또한 웹에는 선의의 크롤링 봇과 악의적인 크롤링 봇이 무수히 존재합니다. robots.txt 파일의 특정 '사용자 에이전트' 명령을 통해 누가 사이트에서 무엇을 크롤링할 수 있는지 맞춤 설정하면 무고한 크롤링 활동으로 위장하여 방문하는 잠재적 위협에 대한 보호 기준을 높게 유지할 수 있습니다.

마지막으로, Robots txt 파일에서 제공하는 제한이 없으면 일부 봇은 요청으로 서버에 과부하를 일으켜 사용자 속도를 저하시킬 수 있습니다. 경험 또는 DDoS(분산 서비스 거부) 공격으로부터 보호합니다. 따라서 최적의 성능을 보장하는 중요한 도구 역할을 합니다. 서버 성능.

이 글의 뒷부분에서 자신만의 Robots txt 파일 구조에 익숙해지기 시작할 때 이 핵심 개념을 기억하세요: 웹사이트와의 크롤러 상호 작용을 제어하는 예시를 통해 특정화된 Robots txt 파일을 갖는 것이 온라인에서 도메인의 존재를 보호하고 최적화하는 데 중요한 이유를 알 수 있습니다.

robots.txt 파일이 있는지 확인하기

이제 웹사이트에 이미 'robots.txt' 파일이 있는지 확인하는 방법을 살펴보겠습니다. 일반적으로 이 파일은 사이트의 루트 디렉터리에 있습니다.

그 존재 여부를 확인하려면 다음과 같은 간단한 단계를 따르는 것이 좋습니다:

즐겨 사용하는 웹 브라우저를 엽니다.
에서 주소 바에서 top에 yoursitename.com/robots.txt를 입력하고 "yoursitename.com"을 실제 도메인 이름으로 바꿉니다.

사이트에 이 'robots.txt' 파일이 존재한다면 화면에 이 중요하지 않지만 영향력 있는 파일의 내용이 표시되어야 합니다. 반대로 '404 페이지를 찾을 수 없음' 또는 '파일을 찾을 수 없음'과 유사한 오류 메시지가 표시되면 현재 robots.txt 파일이 없음을 의미합니다.

'봇을 차단하는 방법'을 올바르게 구현하는 것은 전략 는 검색 엔진 최적화(SEO)에 큰 영향을 미칩니다. 따라서 보유 여부에 대한 정보를 지속적으로 파악하는 것이 중요합니다.

요약하자면(필수는 아니지만), 오늘날 성공적인 웹사이트 관리에 있어 'robots.txt' 파일을 이해하고 적절히 활용하는 것은 필수적인 부분입니다. 이러한 단계를 수행하여 파일의 존재 여부를 확인한 후에도 여전히 확실하지 않은 경우 고급 IT가 필요할 수 있으므로 전문가의 조언을 받는 것이 좋습니다. 지식 예상보다 많았습니다.

'robots.txt'가 없다고 해서 반드시 해로운 것은 아니며, 단지 사이트의 모든 영역에서 검색 엔진 봇이 제한 없이 액세스할 수 있음을 의미할 뿐입니다. 사이트에서 '봇을 효과적으로 차단하는 방법'을 이해하면 이러한 액세스를 의미 있게 제어할 수 있습니다!

Robots.txt 파일을 만드는 방법

robots.txt 파일을 만드는 것은 검색 엔진 봇이 웹사이트와 상호 작용하는 방식을 관리하는 데 필수적인 단계입니다. 파일을 만드는 과정을 자세히 살펴보겠습니다.

Robots.txt의 구성 요소 이해하기

일반적인 robots.txt 파일에는 사용자 에이전트 및 허용하지 않음 지시문을 포함한 두 가지 주요 구성 요소가 포함되어 있습니다. 사용자 에이전트는 지시 사항을 적용하려는 특정 웹 크롤러(예: Googlebot 또는 Bingbot)를 나타냅니다. 반면에 허용하지 않음 지시문은 특정 봇이 크롤링하지 않기를 원하는 페이지 또는 디렉토리를 나열하는 곳입니다. 예를 들어

사용자 에이전트: * 허용하지 않음: /개인/

이 경우 모든 봇('*'는 모두를 의미)이 'private' 디렉터리 아래의 모든 항목에 액세스할 수 없도록 차단됩니다.

새로운 파일 생성

이제 이 멋진 코드를 생성해 보겠습니다. 일반 텍스트 편집기가 필요합니다. 메모장이면 충분합니다. Microsoft Word와 같은 워드 프로세서는 추가 서식 문자를 삽입하는 경향이 있기 때문에 이 작업에 적합하지 않습니다.

시작하려면 새 문서를 만들어 "robots.txt"라는 이름으로 저장합니다. 여기서는 대소문자가 중요하므로 모든 것이 소문자로 되어 있는지 확인하세요. 다음으로 차단하려는 섹션에 따라 구문을 작성하세요. 각 규칙은 고유한 줄에 있어야 한다는 점을 기억하세요:

사용자 에이전트: * 허용하지 않음: /

이 규칙은 모든 봇이 사이트의 어떤 부분('/'로 표시됨)에도 액세스하지 못하도록 합니다. 주의해서 사용하세요!

The 키워드 봇을 차단하는 방법을 학습할 때 TXT 모듈은 봇 동작을 정밀하게 제어할 수 있는 다용도 도구입니다.

파일 업로드

robots.txt 파일이 생성되면 FTP(파일 전송 프로토콜)를 사용하여 사이트의 루트 폴더에 업로드합니다. 이 파일은 일반적으로 wp-admin, wp-content, wp-includes 폴더와 같은 위치에 있습니다.

이 단계를 성공적으로 완료하면 사용자는 기본 도메인 뒤에 "/robots.txt"(예: www.example.com/robots.txt)를 추가하여 Robots.txt 파일을 찾을 수 있습니다. 이제 robots.txt 파일을 만드는 방법을 마스터하셨습니다!

정직한 크롤러에게는 예의를 지키도록 유도하는 것이 효과적이지만, 교활한 파괴적인 봇은 예의를 완전히 무시할 수도 있다는 점을 기억하세요.

이제 이 지식을 잘 숙지했으니 유지 관리가 필요하다는 점을 명심하세요. 주기적인 모니터링이 지속적인 효과를 보장하므로 정기적인 점검을 위해 시간을 내세요. 즐거운 코딩이 되시길 바랍니다!

특정 봇 및 파일/폴더 차단하기

봇 차단 방법이라는 주제를 다룰 때, 이 작업이 항상 모든 크롤러를 제한하는 것은 아니라는 점을 이해하는 것이 중요합니다. 원치 않는 특정 봇만 지정하거나 특정 파일 및 디렉터리로만 액세스를 제한하고 싶은 경우가 종종 있습니다. 이러한 미묘한 시나리오에서는 robots.txt 파일 처리에 대한 이해도를 높이는 것이 큰 차이를 만들 수 있습니다.

다양성 속의 통일성은 다양한 온라인 서비스에서 널리 사용되는 전략입니다. 다양한 유형의 웹 크롤러가 웹사이트를 떠돌고 있습니다. 인터넷 다양한 행동과 기능을 가진 스파이더가 있습니다. 일부 스파이더는 Googlebot과 같이 콘텐츠 색인화에 필수적인 반면, 스팸 봇과 같은 스파이더는 사이트 성능에 해를 끼칠 수 있습니다.

이러한 건설적이지 않은 봇은 좁게 또는 넓게 차단하는 두 가지 방법으로 차단할 수 있습니다. 좁은 의미의 접근 방식은 전체 웹사이트에서 특정 봇을 차단하는 것이고, 넓은 의미의 접근 방식은 특정 폴더나 파일에서 모든 봇을 차단하는 것입니다.

계속 진행하기 전에 robots.txt 파일 내에서 사용자 에이전트(즉, 봇)를 지정하는 방법을 이해해 보겠습니다. 이 문서의 모든 규칙은 '사용자 에이전트'를 지정한 다음 콜론(:)을 붙이고 에이전트의 이름을 설명하는 것으로 시작해야 합니다. 별표(*)로 남겨두면 해당 페이지를 방문하는 모든 봇을 의미합니다. 대신 특정 봇의 특정 이름을 입력하도록 선택할 수도 있습니다.

다음은 웹사이트의 특정 영역과 관련하여 식별된 사용자 에이전트에 대해 허용된 작업을 지시하는 "허용 안 함" 또는 "허용" 지시문입니다.

리소스 낭비를 방지하고 손상된 에이전트의 악의적인 활동을 방지하는 데 중점을 두어 봇 로봇 txt를 차단하는 방법뿐만 아니라 그 이유도 중요하다는 점을 기억하세요.

구체적인 차단 방법에 대한 설명을 마치면서, 이러한 규칙을 준수하는 데 있어 신뢰성이 중요한 역할을 한다는 점을 기억하세요. 주류 검색 엔진은 일반적으로 규칙을 엄격하게 준수하지만, 안타깝게도 잘 알려지지 않은 스크레이퍼 봇은 규칙을 제대로 준수하는 경우가 드물기 때문입니다. 민감한 데이터를 보호하려는 경우 robots.txt에만 의존하지 마세요!

Robots.txt 대 메타 로봇 대 X-로봇

로봇 텍스트로 봇을 차단하는 방법을 아는 것은 매우 중요하지만, 이것이 웹사이트에서 봇 행동을 제어하는 유일한 방법은 아닙니다. 다른 방법도 있습니다. 메타 로봇과 x-로봇 태그는 온라인 봇에게 사이트에 대한 지침을 제공하는 두 가지 효과적인 수단입니다. 어떤 것을 사용해야 하는지 또는 각각의 차이점이 무엇인지 궁금하다면 설명해 드리겠습니다.

Robots.txt 파일

앞서 설명했듯이 robots.txt 파일은 검색 엔진을 웹사이트의 특정 부분으로 또는 특정 부분으로부터 멀어지게 하는 웹마스터의 기본 가이드 역할을 합니다. 이 작은 텍스트 파일은 루트 디렉터리 수준에 있으며 특정 봇이 지적되지 않는 한 일반적으로 모든 사용자 에이전트 봇에 대한 일반적인 지침을 제공합니다.

기본적으로 robots.txt 파일은 봇에게 다음과 같이 말합니다: "이 영역은 접근 금지 구역입니다." 하지만 모든 스파이더가 이러한 규칙을 준수하는 것은 아닙니다.

메타 로봇 태그란 무엇인가요?

메타 로봇 태그는 메타 로봇 태그에 비해 더 세분화된 제어 기능을 제공합니다. 광범위 지침을 따릅니다. 이러한 HTML 속성은 검색 엔진 봇에게 전체 디렉토리나 사이트가 아닌 개별 페이지의 색인화에 대해 지시합니다. 이 속성은 검색 엔진에 페이지를 색인화할지("noindex"), 링크를 따라갈지("nofollow"), "none"(noindex 및 nofollow) 등 다양한 명령을 사용할 수 있습니다. 메타 로봇 태그는 페이지 단위로 검색 엔진 크롤러와 직접 통신하여 크롤러 동작을 관리할 수 있는 진정한 다목적 기능을 제공합니다.

X-로봇 태그는 어떻게 작동하나요?

X-로봇 태그는 페이지 수준에서 자세한 지침을 제공한다는 점에서 메타 로봇 태그와 몇 가지 유사점을 공유합니다. 하지만 HTML 문서 내에 표시되는 메타 로봇 태그와 달리 X-로봇 태그는 HTTP 헤더를 사용합니다. 특히 이 배치를 통해 PDF나 이미지와 같은 비 HTML 파일에서도 작동할 수 있습니다. 메타 로봇 태그와 마찬가지로 X-로봇 태그의 동작은 "noindex", "nofollow", 심지어 "nosnippet"까지 다양합니다.

따라서 로봇 txt를 사용하여 봇을 차단하는 방법을 배우는 것은 모든 웹마스터에게 유용한 지식이지만, 메타 로봇과 X-로봇의 강점과 응용 분야를 이해하면 사이트와 웹 크롤러의 관계를 관리할 때 훨씬 더 광범위한 도구 세트를 활용할 수 있습니다.

에 게시됨: 6월 2023

마지막 업데이트 2023-06-29T16:47:23+00:00 작성자 루카스 젤레즈니

작성자:

루카스 젤레즈니

이 글을 공유하세요:

블로그로 돌아가기

SEO 갭 분석 예시에 액세스

SEO.London은 35개 웹사이트와 150,000개 이상의 키워드를 확인했습니다. 5백만 개가 넘는 데이터 포인트의 결과는 다음과 같습니다.

오픈 데이터 스튜디오