Cách chặn bot bằng tệp robots.txt?

Đối với một người không am hiểu, việc một robot lang thang trên trang web của bạn có thể trông giống như một cảnh trong phim khoa học viễn tưởng. Tin hay không tùy bạn, nhưng điều này hoàn toàn không phải là hư cấu và gần với thực tế hơn bạn nghĩ! Đối với bất kỳ ai đang quản lý và duy trì trang web, việc hiểu cách các bot tương tác với không gian trực tuyến của chúng ta là điều vô cùng quan trọng. Cũng quan trọng không kém là khả năng điều chỉnh tương tác này. Nhu cầu này đưa chúng ta đến với một công cụ hữu ích: robot.txt. Trong tài liệu này, chúng tôi trình bày một cách toàn diện hướng dẫn, Chúng tôi sẽ giải mã gì “Cách chặn bot bằng tệp robots.txt” là gì và tại sao nó quan trọng trong kỷ nguyên số hiện nay.

Tệp Robots.txt là gì?

Mục lục

Tệp robots.txt là "người gác cổng" của trang web của bạn. Nó cho phép bạn kiểm soát nào Một số phần của trang web của bạn có thể được các bot tìm kiếm truy cập—như Google’s. tìm kiếm Các công cụ tìm kiếm web—và những trang nào nên bị chặn. Là một phần của Tiêu chuẩn Loại trừ Robot (một tiêu chuẩn không chính thức được các trang web sử dụng), nó hướng dẫn các robot web về các hành động được phép khi chúng truy cập trang web của bạn.

Nâng cao sự hiện diện trực tuyến của bạn với Lukasz Zelezny, Chuyên gia Tối ưu hóa Công cụ Tìm kiếm (SEO) với hơn 20 năm kinh nghiệm — hãy đặt lịch hẹn ngay bây giờ.

Tập tin văn bản đơn giản này nói lên rất nhiều về sở thích truy cập trang web của bạn. Có những thư mục hoặc trang web cụ thể mà bạn muốn tránh khỏi sự theo dõi của các robot? Tập tin robots.txt sẽ giúp bạn! Nội dung của nó đơn giản quy định các chỉ thị—những hướng dẫn cụ thể dành cho các trình thu thập dữ liệu web—giúp quản lý quyền truy cập trang web hiệu quả hơn. Sự linh hoạt này giúp đảm bảo việc hiển thị đúng đắn của nội dung Giúp việc tìm kiếm trở nên dễ dàng hơn đồng thời bảo vệ các khu vực nhạy cảm khỏi việc bị lộ thông tin một cách vô ý.

Cuối cùng, việc học cách cách ly các phần của không gian mạng của chúng ta tên miền Điều này giúp chúng ta, với tư cách là quản trị viên website, có thể quản lý hiệu quả sự hiện diện và ảnh hưởng của các bot trong các không gian quan trọng của nền tảng – đó chính là trọng tâm của chúng ta hôm nay.

Cú pháp kỹ thuật của tệp robots.txt

Cú pháp của tệp robots.txt về cơ bản là ngôn ngữ và ngữ pháp. cấu trúc được sử dụng để tạo ra các chỉ thị của nó. Việc hiểu rõ cách sử dụng cú pháp này một cách đúng đắn là rất quan trọng để giúp bạn học cách chặn bot bằng tệp robots.txt.

User-agent: Hướng dẫn user-agent chỉ định loại bot mà bạn muốn tương tác, ví dụ như Googlebot cho Google hoặc BingBot cho Bing. Bắt đầu bộ chỉ thị của bạn với “User-agent: *” có nghĩa là tất cả các trình thu thập dữ liệu web nên tuân theo các hướng dẫn này.
Không cho phép: Hướng dẫn này gửi một thông điệp rõ ràng – tránh con đường được mô tả ngay sau nó. Ví dụ, nếu bạn viết, “Disallow: /images/”, bạn đang hướng dẫn bất kỳ bot nào đọc nó không được bò Trang web của bạn’s hình ảnh thư mục.
Cho phép: Ngược lại với việc từ chối, trong các thư mục bị từ chối, lệnh cho phép sẽ cấp quyền truy cập trở lại cho một số thư mục con hoặc tệp tin cụ thể.

Phù hợp mẫu

Một yếu tố phức tạp nhưng mạnh mẽ trong cú pháp của tệp robots.txt là khớp mẫu. Ngoài việc chỉ định đường dẫn trực tiếp, khớp mẫu cho phép bạn diễn đạt các hướng dẫn phức tạp về cách chặn bot trong tệp robots.txt thông qua các ký hiệu đơn giản.

Khi học về khớp mẫu, hãy tập trung chủ yếu vào hai ký tự quan trọng sau: ‘*’ (dấu sao) và ‘$’ (dấu đô la). Dấu sao (‘*’) hoạt động như một ký tự đại diện, trong khi dấu đô la (‘$’) biểu thị cuối của một URL.
Sử dụng dấu sao (*) trong câu lệnh disallow để chỉ định bất kỳ chuỗi ký tự nào có mặt tại đó. Ví dụ, ‘Disallow: /example’ sẽ ngăn các trình thu thập dữ liệu web truy cập vào bất kỳ trang nào trên trang web của bạn có URL chứa ‘example’.
Ngược lại, việc thêm ‘$’ vào cuối các thuật ngữ khác nhau của bạn chỉ định rằng chỉ Địa chỉ URL Các trường hợp kết thúc như vậy bị cấm. bò bởi các bot. Thông báo có nội dung ‘Disallow: /*example$’ chỉ cho phép truy cập vào các trang có URL kết thúc chính xác bằng ‘example’.

Tuy nhiên, hãy nhớ rằng không phải tất cả các bot đều hiểu hoặc tuân theo các mẫu này—đặc biệt là nhiều bot spam—vì vậy hãy cân nhắc điều này khi xây dựng các chỉ thị và tìm ra cách hiệu quả để chặn bot bằng tệp robots.txt.”

Tuyển dụng Chuyên gia Tối ưu hóa Công cụ Tìm kiếm (SEO)

Việc xác định vị trí đặt tệp robots.txt có thể khiến bạn cảm thấy bối rối, nhưng hãy yên tâm, đây là một quy trình tương đối đơn giản. Tệp nhỏ nhưng quan trọng này cần được đặt tại một vị trí cụ thể – thư mục gốc của trang web của bạn.

Điều quan trọng cần nhớ là tệp văn bản đơn giản này cần phải dễ dàng được các trình thu thập dữ liệu tìm thấy. Thư mục gốc (root) hoặc thư mục cao nhất thường là nơi các bot tìm kiếm truy cập đầu tiên khi hạ cánh trên của bạn tên miền. Do đó, việc đặt tệp robots.txt tại đây cung cấp hướng dẫn ngay lập tức và rõ ràng về những phần nào của trang web của bạn nên được truy cập.

Tăng lượng khách hàng trực tuyến cùng Lukasz Zelezny, chuyên gia SEO với hơn 20 năm kinh nghiệm — đặt lịch hẹn ngay hôm nay.

Bây giờ, đối với những ai không quen với thuật ngữ web, có thể bạn đang thắc mắc chính xác chúng tôi đang đề cập đến thư mục ‘root’ là gì. Về cơ bản, thư mục root của trang web của bạn tương tự như thân cây, từ đó tất cả các thư mục khác phát triển ra – nó tạo nên nền tảng cho sự hiện diện trực tuyến của bạn. Ví dụ, nếu URL trang web của bạn là www.example.com, thì thư mục gốc sẽ là / (dấu gạch chéo sau .com). Do đó, www.example.com/robots.txt được đặt chính xác trong thư mục gốc của bạn.

Ngược lại, đặt nó dưới một cái khác thư mục con Tệp /blog/robots.txt sẽ không có tác dụng mong muốn vì các bot sẽ không tìm kiếm sâu vào trang web của bạn đến mức đó trước khi nhận được hướng dẫn.

Những câu hỏi cần đặt ra cho một chuyên gia tư vấn SEO

Điều quan trọng là, việc định vị sai có thể dẫn đến việc thu thập dữ liệu và lập chỉ mục không hiệu quả—hai yếu tố cơ bản quyết định thành công trong SEO—bởi vì các công cụ tìm kiếm sẽ không biết ngay lập tức nơi họ được phép hoặc bị cấm khám phá khi đến ‘cửa nhà bạn.’

Vì vậy, hãy đảm bảo rằng bạn đã xác định chính xác vị trí khi xem xét cách chặn bot bằng tệp robots.txt một cách hiệu quả. Vị trí thực sự đóng vai trò quan trọng trong việc thiết lập nền tảng SEO kỹ thuật này.

Trong việc hiểu rõ tầm quan trọng và cách hoạt động của các tệp robots.txt, một câu hỏi quan trọng vẫn còn đó: Tại sao bạn cần một tệp robots.txt?

Đầu tiên, việc có một tệp robots.txt cung cấp hướng dẫn cho các trình thu thập dữ liệu web về cách chúng nên tương tác với trang web của bạn. Khi các công cụ tìm kiếm truy cập trang web của bạn để lập chỉ mục, các hướng dẫn trong tệp robots.txt sẽ được áp dụng. Chúng hướng dẫn các bot tìm kiếm như Googlebot của Google hoặc Bingbot của Bing trong quá trình di chuyển qua trang web của bạn.

Thứ hai, tệp robots.txt là yếu tố quan trọng để quản lý quyền truy cập vào các phần riêng tư của trang web, đặc biệt là những phần nhạy cảm hoặc đang trong quá trình phát triển. Bạn có thể chỉ định cụ thể cho các bot không lập chỉ mục nội dung này. Điều này đảm bảo rằng các khu vực không mong muốn sẽ không được lập chỉ mục và không hiển thị trên các trang kết quả tìm kiếm (SERPs).

Hơn nữa, trên mạng có vô số bot thu thập dữ liệu, cả hữu ích lẫn độc hại. Bằng cách tùy chỉnh quyền truy cập của các bot vào các phần cụ thể trên trang web của bạn thông qua các lệnh ‘User-agent’ cụ thể trong tệp robots.txt, bạn có thể duy trì mức độ bảo mật cao trước các mối đe dọa tiềm ẩn có thể xâm nhập dưới vỏ bọc của hoạt động thu thập dữ liệu vô hại.

Cuối cùng, nếu không có các hạn chế được quy định trong tệp Robots.txt, một số bot có thể làm quá tải máy chủ bằng cách gửi quá nhiều yêu cầu, dẫn đến trải nghiệm người dùng bị chậm lại hoặc các cuộc tấn công DDoS (Tấn công từ chối dịch vụ phân tán). Do đó, nó đóng vai trò là công cụ quan trọng để đảm bảo hiệu suất tối ưu của máy chủ.

Khi bạn bắt đầu làm quen với việc cấu trúc tệp Robots.txt của riêng mình trong phần sau của bài viết này, hãy nhớ khái niệm quan trọng sau: Việc kiểm soát tương tác của các trình thu thập dữ liệu với trang web của bạn chính là lý do tại sao việc có một tệp Robots.txt được tùy chỉnh là điều cần thiết để bảo vệ và tối ưu hóa sự hiện diện trực tuyến của bất kỳ tên miền nào.

Kiểm tra xem bạn có tệp robots.txt hay không

Hãy cùng tìm hiểu cách kiểm tra xem trang web của bạn đã có tệp ‘robots.txt’ hay chưa. Thông thường, tệp này được đặt trong thư mục gốc của trang web.

Để kiểm tra sự hiện diện của nó, tôi khuyên bạn nên thực hiện các bước đơn giản sau:

Mở trình duyệt web yêu thích của bạn.
Trong địa chỉ quầy bar tại đỉnh, nhập địa chỉ trang web của bạn vào ô “yoursitename.com/robots.txt”; thay thế "yoursitename.com" bằng tên miền thực tế của bạn.

Màn hình của bạn sẽ hiển thị nội dung của tệp ‘robots.txt’ - một tệp có vẻ đơn giản nhưng có ảnh hưởng lớn - nếu tệp này tồn tại trên trang web của bạn. Ngược lại, một thông báo lỗi tương tự như “404 trang không tìm thấy” hoặc “tệp không tìm thấy” sẽ cho biết hiện tại không có tệp robots.txt nào được đặt trên trang web.

Hãy nhớ rằng việc triển khai chính xác hướng dẫn ‘cách chặn bot bằng tệp robots.txt’ chiến lược có tác động đáng kể đến Tối ưu hóa Công cụ Tìm kiếm (Tối ưu hóa công cụ tìm kiếmDo đó, việc nắm rõ tình trạng của mình là vô cùng quan trọng.

Tóm lại (mặc dù không bắt buộc), việc hiểu và sử dụng đúng cách tệp ‘robots.txt’ là một phần quan trọng trong việc quản lý các trang web thành công ngày nay. Nếu bạn vẫn còn băn khoăn sau khi thực hiện các bước kiểm tra sự tồn tại của tệp này, hãy cân nhắc việc tham khảo ý kiến chuyên gia vì có thể liên quan đến các vấn đề công nghệ thông tin phức tạp hơn. kiến thức hơn dự kiến.

Hãy nhớ rằng việc không có tệp ‘robots.txt’ không nhất thiết là điều xấu – nó chỉ đơn giản là cho phép các bot tìm kiếm truy cập không giới hạn vào tất cả các khu vực trên trang web của bạn. Việc kiểm soát truy cập này một cách có ý nghĩa trở nên hoàn toàn khả thi một khi chúng ta hiểu rõ cách chặn bot thông qua tệp robots.txt một cách hiệu quả trên trang web của mình!

Cách tạo tệp Robots.txt

Tạo tệp robots.txt là một bước quan trọng trong việc quản lý cách các bot tìm kiếm tương tác với trang web của bạn. Hãy cùng tìm hiểu quy trình tạo tệp này.

Hiểu các thành phần của tệp robots.txt

Một tệp robots.txt điển hình bao gồm hai thành phần chính là User-agent và Disallow. User-agent đề cập đến trình thu thập dữ liệu web cụ thể, như Googlebot hoặc Bingbot, mà bạn muốn hướng các chỉ thị của mình đến. Mặt khác, chỉ thị Disallow là nơi bạn liệt kê các trang hoặc thư mục mà bạn không muốn các bot nhất định thu thập dữ liệu. Ví dụ:

User-agent: * Disallow: /private/

Trong trường hợp này, tất cả các bot (‘*’ đại diện cho tất cả) đều bị chặn truy cập vào bất kỳ tệp nào trong thư mục ‘private’.

Tạo tệp mới

Bây giờ chúng ta sẽ tạo ra đoạn mã tiện lợi này. Bạn sẽ cần một trình soạn thảo văn bản thuần túy – Notepad là lựa chọn phù hợp. Các trình xử lý văn bản như Microsoft Word không phù hợp cho tác vụ này do chúng có xu hướng chèn các ký tự định dạng thừa.

Để bắt đầu, hãy tạo một tài liệu mới và lưu nó với tên “robots.txt”. Lưu ý rằng việc viết hoa chữ cái rất quan trọng ở đây — hãy đảm bảo tất cả đều viết thường. Tiếp theo là tạo cú pháp theo các phần mà bạn muốn chặn. Hãy nhớ rằng mỗi quy tắc phải nằm trên một dòng riêng biệt:

User-agent: * Disallow: /

Quy tắc này ngăn chặn tất cả các bot truy cập vào bất kỳ phần nào của trang web của bạn (được biểu thị bằng ‘/’). Hãy sử dụng nó một cách thận trọng!

The từ khóa Đây là tính cụ thể; khi học cách chặn bot, các mô-đun robots.txt là công cụ linh hoạt cho phép kiểm soát chính xác các hành động của bot.

Tải lên tệp của bạn

Sau khi tạo xong, hãy tải lên tệp robots.txt của bạn vào thư mục gốc của trang web bằng FTP (File Transfer Protocol). Tệp này thường nằm cùng vị trí với các thư mục wp-admin, wp-content và wp-includes.

Sau khi hoàn thành thành công các bước này, người dùng có thể tìm thấy tệp Robots.txt của bạn bằng cách thêm “/robots.txt” sau tên miền chính của bạn – ví dụ: www.example.com/robots.txt. Bây giờ bạn đã nắm vững cách tạo tệp robots.txt!

Tuy nhiên, hãy nhớ rằng mặc dù các quy tắc này hiệu quả trong việc hướng dẫn các trình thu thập dữ liệu trung thực, nhưng chúng chỉ yêu cầu tuân thủ; các bot độc hại tinh vi hơn có thể hoàn toàn phớt lờ chúng.

Với kiến thức này đã được nắm vững, hãy nhớ rằng việc bảo trì là cần thiết – việc theo dõi định kỳ đảm bảo hiệu quả liên tục, vì vậy hãy dành thời gian cho các cuộc kiểm tra định kỳ. Chúc bạn lập trình vui vẻ!

Chặn các bot cụ thể và các tệp/thư mục

Khi tìm hiểu về chủ đề – cách chặn bot bằng robots.txt, điều quan trọng là phải hiểu rằng nhiệm vụ này không phải lúc nào cũng liên quan đến việc hạn chế tất cả các trình thu thập dữ liệu. Thường thì, bạn có thể chỉ muốn chỉ định các bot không mong muốn cụ thể hoặc hạn chế truy cập chỉ vào các tệp và thư mục được chỉ định. Trong những tình huống phức tạp này, việc nắm vững cách quản lý tệp robots.txt của bạn có thể tạo ra sự khác biệt lớn.

Sự thống nhất trong đa dạng là một chiến lược phổ biến được nhiều dịch vụ trực tuyến áp dụng. Các loại trình thu thập dữ liệu web khác nhau đang hoạt động trên mạng. Internet với các hành vi và khả năng khác nhau. Trong khi một số loài nhện là rất quan trọng cho Chỉ mục Nội dung như Googlebot, các bot spam khác có thể gây hại cho trang web của bạn. hiệu suất.

Các bot không mang tính xây dựng này có thể bị chặn theo hai cách: chặn cụ thể hoặc chặn rộng. Phương pháp chặn cụ thể có nghĩa là chặn một bot cụ thể khỏi toàn bộ trang web, trong khi phương pháp chặn rộng hơn liên quan đến việc chặn tất cả các bot khỏi một thư mục hoặc tệp cụ thể.

Trước khi tiếp tục, hãy tìm hiểu cách bạn có thể chỉ định một user-agent (tức là một bot) trong tệp robots.txt của mình. Mỗi quy tắc trong tài liệu này phải bắt đầu bằng việc chỉ định ‘User-agent’, tiếp theo là dấu hai chấm (:), và sau đó ghi rõ tên của bot. Để trống dấu hoa thị (*) có nghĩa là bất kỳ bot nào truy cập trang web. Thay vào đó, bạn có thể nhập tên cụ thể cho các bot nhất định.

Tiếp theo là các chỉ thị “Disallow” hoặc “Allow”, hướng dẫn các hành động được phép cho các user-agent đã xác định đối với các khu vực cụ thể trên trang web của bạn.

Hãy nhớ rằng, tầm quan trọng không chỉ nằm ở việc biết cách chặn bot thông qua tệp robots.txt mà còn ở lý do tại sao – tập trung cả vào việc ngăn chặn lãng phí tài nguyên và bảo vệ khỏi các hoạt động độc hại từ các tác nhân bị xâm nhập.

Kết thúc phần thảo luận về các chi tiết chặn, hãy nhớ rằng độ tin cậy đóng vai trò quan trọng khi đặt niềm tin vào việc tuân thủ các quy tắc này – các công cụ tìm kiếm chính thống thường tuân thủ nghiêm ngặt; tiếc là các bot thu thập dữ liệu ít nổi tiếng hiếm khi tuân thủ đúng cách. Đừng chỉ dựa vào robots.txt nếu bạn đang cố gắng bảo vệ dữ liệu nhạy cảm!

Robots.txt so với Meta Robots so với X-Robots

Biết cách chặn bot bằng robots.txt là rất quan trọng, nhưng đó không phải là phương pháp duy nhất để kiểm soát hành vi của bot trên trang web của bạn. Ngoài ra còn có meta Thẻ robots và x-robots là hai phương pháp hiệu quả khác để cung cấp hướng dẫn cho các bot trực tuyến về trang web của bạn. Nếu bạn đang băn khoăn không biết nên sử dụng loại nào hoặc điểm khác biệt giữa chúng là gì, hãy để tôi giải thích.

Tệp Robots.txt

Như chúng ta đã thảo luận, tệp robots.txt đóng vai trò là hướng dẫn chính cho quản trị viên website trong việc hướng dẫn các công cụ tìm kiếm truy cập hoặc tránh các phần cụ thể của trang web. Tệp văn bản nhỏ này được đặt tại cấp thư mục gốc và thường cung cấp các hướng dẫn chung cho tất cả các bot user-agent, trừ khi có các bot cụ thể được chỉ định.

Tóm lại, tệp robots.txt thông báo cho các bot: “Các khu vực này bị cấm truy cập.” Tuy nhiên, hãy lưu ý rằng không phải tất cả các bot đều tuân thủ các quy tắc này.

Thẻ Meta Robots là gì?

Thẻ Meta Robots cung cấp khả năng kiểm soát chi tiết hơn so với rộng Các hướng dẫn được cung cấp bởi tệp robots.txt. Các thuộc tính HTML này hướng dẫn các bot tìm kiếm về việc lập chỉ mục các trang riêng lẻ thay vì toàn bộ thư mục hoặc trang web. Chúng thông báo cho các công cụ tìm kiếm liệu có nên lập chỉ mục một trang (“noindex”), theo dõi các liên kết của nó (“nofollow”) hay “none” (nghĩa là không lập chỉ mục và không theo dõi) cùng với các lệnh khác. Thẻ meta robot giao tiếp trực tiếp với các trình thu thập dữ liệu của công cụ tìm kiếm trên từng trang, mang lại sự linh hoạt thực sự trong việc quản lý hành vi của trình thu thập dữ liệu.

Các thẻ X-Robots hoạt động như thế nào?

Thẻ X-Robots có một số điểm tương đồng với thẻ meta robots, vì cả hai đều cung cấp hướng dẫn chi tiết ở cấp độ trang. Tuy nhiên, khác với các thẻ meta robots xuất hiện trong tài liệu HTML, thẻ X-Robots được đặt trong Giao thức truyền thông siêu văn bản (HTTP) Đầu đề. Đáng chú ý, vị trí này cho phép chúng hoạt động ngay cả với các tệp không phải HTML như PDF hoặc hình ảnh. Giống như thẻ meta robot, các hành động của thẻ x-robot bao gồm “noindex”, ”nofollow” hoặc thậm chí “nosnippet” và các tùy chọn khác.

Vì vậy, trong khi việc học cách chặn bot bằng robots.txt là kiến thức hữu ích cho bất kỳ quản trị viên website nào, việc hiểu rõ ưu điểm và ứng dụng của meta robots và x-robots sẽ cung cấp một bộ công cụ rộng hơn khi quản lý mối quan hệ của trang web với các trình thu thập dữ liệu web.