Trí tuệ nhân tạoTìm kiếm tiếp thị

Tệp Robots.txt là gì? Mọi thứ bạn cần để viết, gửi và thu thập lại tệp Robot cho SEO

Chúng tôi đã viết một bài viết toàn diện về cách công cụ tìm kiếm tìm, thu thập dữ liệu và lập chỉ mục trang web của bạn. Một bước cơ bản trong quá trình đó là robots.txt tệp, cổng để công cụ tìm kiếm thu thập dữ liệu trang web của bạn. Hiểu cách xây dựng tệp robots.txt đúng cách là điều cần thiết trong việc tối ưu hóa công cụ tìm kiếm (SEO).

Công cụ đơn giản nhưng mạnh mẽ này giúp quản trị viên web kiểm soát cách các công cụ tìm kiếm tương tác với trang web của họ. Hiểu và sử dụng hiệu quả tệp robots.txt là điều cần thiết để đảm bảo khả năng lập chỉ mục hiệu quả và khả năng hiển thị tối ưu của trang web trong kết quả của công cụ tìm kiếm.

Tệp Robots.txt là gì?

Tệp robots.txt là tệp văn bản nằm trong thư mục gốc của trang web. Mục đích chính của nó là hướng dẫn trình thu thập thông tin của công cụ tìm kiếm về những phần nào của trang web nên hoặc không nên được thu thập thông tin và lập chỉ mục. Tệp sử dụng Giao thức loại trừ robot (REP), một trang web tiêu chuẩn được sử dụng để liên lạc với trình thu thập dữ liệu web và các robot web khác.

REP không phải là một tiêu chuẩn Internet chính thức nhưng được các công cụ tìm kiếm lớn chấp nhận và hỗ trợ rộng rãi. Gần nhất với tiêu chuẩn được chấp nhận là tài liệu từ các công cụ tìm kiếm lớn như Google, Bing và Yandex. Để biết thêm thông tin, hãy truy cập Thông số kỹ thuật Robots.txt của Google được khuyến khích.

Tại sao Robots.txt lại quan trọng đối với SEO?

  1. Thu thập thông tin có kiểm soát: Robots.txt cho phép chủ sở hữu trang web ngăn công cụ tìm kiếm truy cập vào các phần cụ thể trên trang web của họ. Điều này đặc biệt hữu ích để loại trừ nội dung trùng lặp, khu vực riêng tư hoặc các phần có thông tin nhạy cảm.
  2. Ngân sách thu thập thông tin được tối ưu hóa: Các công cụ tìm kiếm phân bổ ngân sách thu thập dữ liệu cho mỗi trang web, số trang mà bot công cụ tìm kiếm sẽ thu thập dữ liệu trên một trang web. Bằng cách không cho phép các phần không liên quan hoặc ít quan trọng hơn, robots.txt giúp tối ưu hóa ngân sách thu thập dữ liệu này, đảm bảo rằng nhiều trang quan trọng hơn được thu thập dữ liệu và lập chỉ mục.
  3. Cải thiện thời gian tải trang web: Bằng cách ngăn chặn bot truy cập các tài nguyên không quan trọng, robots.txt có thể giảm tải máy chủ, có khả năng cải thiện thời gian tải của trang web, một yếu tố quan trọng trong SEO.
  4. Ngăn chặn lập chỉ mục các trang không công khai: Nó giúp giữ cho các khu vực không công khai (như trang web tổ chức hoặc khu vực phát triển) không bị lập chỉ mục và xuất hiện trong kết quả tìm kiếm.

Các lệnh cơ bản của Robots.txt và cách sử dụng chúng

  • Cho phép: Lệnh này được sử dụng để chỉ định những trang hoặc phần nào của trang web sẽ được trình thu thập thông tin truy cập. Ví dụ: nếu một trang web có phần đặc biệt liên quan đến SEO thì lệnh 'Cho phép' có thể đảm bảo phần đó được thu thập thông tin.
Allow: /public/
  • Không cho phép: Ngược lại với 'Cho phép', lệnh này hướng dẫn các bot công cụ tìm kiếm không thu thập dữ liệu các phần nhất định của trang web. Điều này hữu ích cho các trang không có giá trị SEO, như trang đăng nhập hoặc tệp tập lệnh.
Disallow: /private/
  • Ký tự đại diện: Ký tự đại diện được sử dụng để khớp mẫu. Dấu hoa thị (*) đại diện cho bất kỳ chuỗi ký tự nào và ký hiệu đô la ($) biểu thị sự kết thúc của URL. Đây là những hữu ích để chỉ định một loạt các URL.
Disallow: /*.pdf$
  • Sơ đồ trang web: Việc đưa vị trí sơ đồ trang web vào robots.txt sẽ giúp các công cụ tìm kiếm tìm và thu thập dữ liệu tất cả các trang quan trọng trên một trang web. Điều này rất quan trọng đối với SEO vì nó hỗ trợ việc lập chỉ mục trang web nhanh hơn và đầy đủ hơn.
Sitemap: https://martech.zone/sitemap_index.xml

Các lệnh bổ sung trong Robots.txt và cách sử dụng chúng

  • Đại lý người dùng: Chỉ định quy tắc áp dụng cho trình thu thập thông tin nào. 'Tác nhân người dùng: *' áp dụng quy tắc cho tất cả các trình thu thập thông tin. Ví dụ:
User-agent: Googlebot
  • Không lập chỉ mục: Mặc dù không phải là một phần của giao thức robots.txt tiêu chuẩn nhưng một số công cụ tìm kiếm hiểu một noindex lệnh trong robots.txt như một hướng dẫn không lập chỉ mục URL được chỉ định.
Noindex: /non-public-page/
  • Độ trễ thu thập thông tin: Lệnh này yêu cầu trình thu thập thông tin chờ một khoảng thời gian cụ thể giữa các lần truy cập vào máy chủ của bạn, hữu ích cho các trang web có vấn đề về tải máy chủ.
Crawl-delay: 10

Cách kiểm tra tệp Robots.txt của bạn

Mặc dù nó bị chôn vùi trong Google Search Console, bảng điều khiển tìm kiếm có cung cấp trình kiểm tra tệp robots.txt.

Kiểm tra tệp Robots.txt của bạn trong Google Search Console

Bạn cũng có thể gửi lại Tệp Robots.txt của mình bằng cách nhấp vào ba dấu chấm ở bên phải và chọn Yêu cầu thu thập lại thông tin.

Gửi lại tệp Robots.txt của bạn trong Google Search Console

Kiểm tra hoặc gửi lại tệp Robots.txt của bạn

Tệp Robots.txt có thể được sử dụng để điều khiển Bot AI không?

Tệp robots.txt có thể được sử dụng để xác định xem AI các bot, bao gồm trình thu thập dữ liệu web và các bot tự động khác, có thể thu thập dữ liệu hoặc sử dụng nội dung trên trang web của bạn. Tệp hướng dẫn các bot này, cho biết chúng được phép hoặc không được phép truy cập phần nào của trang web. Hiệu quả của robots.txt kiểm soát hành vi của bot AI phụ thuộc vào một số yếu tố:

  1. Tuân thủ Nghị định thư: Hầu hết các trình thu thập thông tin của công cụ tìm kiếm có uy tín và nhiều bot AI khác đều tôn trọng các quy tắc được đặt ra trong
    robots.txt. Tuy nhiên, điều quan trọng cần lưu ý là tệp này mang tính chất yêu cầu hơn là một hạn chế có thể thực thi được. Bot có thể bỏ qua những yêu cầu này, đặc biệt là những yêu cầu được vận hành bởi các thực thể kém cẩn thận hơn.
  2. Tính cụ thể của hướng dẫn: Bạn có thể chỉ định các hướng dẫn khác nhau cho các bot khác nhau. Chẳng hạn, bạn có thể cho phép các bot AI cụ thể thu thập dữ liệu trang web của mình trong khi không cho phép những bot khác. Việc này được thực hiện bằng cách sử dụng User-agent chỉ thị trong robots.txt ví dụ về tập tin ở trên. Ví dụ, User-agent: Googlebot sẽ chỉ định hướng dẫn cho trình thu thập thông tin của Google, trong khi User-agent: * sẽ áp dụng cho tất cả các bot.
  3. Hạn chế: Trong khi robots.txt có thể ngăn bot thu thập dữ liệu nội dung được chỉ định; nó không ẩn nội dung với họ nếu họ đã biết URL. Ngoài ra, nó không cung cấp bất kỳ phương tiện nào để hạn chế việc sử dụng nội dung sau khi đã được thu thập thông tin. Nếu cần phải bảo vệ nội dung hoặc hạn chế sử dụng cụ thể thì các phương pháp khác như bảo vệ bằng mật khẩu hoặc các cơ chế kiểm soát truy cập phức tạp hơn có thể cần thiết.
  4. Các loại Bots: Không phải tất cả các bot AI đều liên quan đến công cụ tìm kiếm. Các bot khác nhau được sử dụng cho các mục đích khác nhau (ví dụ: tổng hợp dữ liệu, phân tích, thu thập nội dung). Tệp robots.txt cũng có thể được dùng để quản lý quyền truy cập của các loại bot khác nhau này, miễn là chúng tuân thủ REP.

Sản phẩm robots.txt tập tin có thể là một công cụ hiệu quả để báo hiệu các tùy chọn của bạn liên quan đến việc thu thập thông tin và sử dụng nội dung trang web của các bot AI. Tuy nhiên, khả năng của nó bị giới hạn trong việc cung cấp các hướng dẫn thay vì thực thi kiểm soát truy cập nghiêm ngặt và tính hiệu quả của nó phụ thuộc vào sự tuân thủ của các bot với Giao thức loại trừ rô-bốt.

Tệp robots.txt là một công cụ nhỏ nhưng mạnh mẽ trong kho vũ khí SEO. Nó có thể ảnh hưởng đáng kể đến khả năng hiển thị của trang web và hiệu suất của công cụ tìm kiếm khi được sử dụng đúng cách. Bằng cách kiểm soát những phần nào của trang web được thu thập thông tin và lập chỉ mục, quản trị viên web có thể đảm bảo rằng nội dung có giá trị nhất của họ được làm nổi bật, cải thiện nỗ lực SEO và hiệu suất trang web của họ.

Douglas Karr

Douglas Karr là CMO của mởINSIGHTS và người sáng lập ra Martech Zone. Douglas đã giúp hàng chục công ty khởi nghiệp MarTech thành công, đã hỗ trợ thẩm định hơn 5 tỷ USD trong các thương vụ mua lại và đầu tư của Martech, đồng thời tiếp tục hỗ trợ các công ty triển khai và tự động hóa các chiến lược tiếp thị và bán hàng của họ. Douglas là một chuyên gia và diễn giả về chuyển đổi kỹ thuật số và MarTech được quốc tế công nhận. Douglas cũng là tác giả đã xuất bản sách hướng dẫn của Dummie và sách lãnh đạo doanh nghiệp.

Bài viết liên quan

Back to top
Đóng

Đã phát hiện ra khối quảng cáo

Martech Zone có thể cung cấp cho bạn nội dung này miễn phí vì chúng tôi kiếm tiền từ trang web của mình thông qua doanh thu quảng cáo, liên kết đơn vị liên kết và tài trợ. Chúng tôi sẽ đánh giá cao nếu bạn xóa trình chặn quảng cáo của mình khi bạn xem trang web của chúng tôi.