Robots.txt là gì? Sử dụng Robots.txt hiệu quả - Hướng dẫn

Trong bài viết này chúng ta cùng tìm hiểu
Robots.txt là gì?? và sử dụng Robots.txt như thế nào để đem lại hiệu quả cho tìm kiếm.

SE crawl - con bọ tìm kiếm

1. Robots.txt là gì ?
Robots.txt là 1 dạng tập tin cho phép các công cụ tìm kiếm biết liệu chúng có thể truy cập và nhờ vậy, thu thập dữ liệu các phần trong trang web của bạn không? Như vậy khi SE crawl một Website thì cái đầu tiên SE thấy đó là file robots.txt. Và Tệp này phải được đặt tên là "robots.txt" và được đặt trong thư mục gốc của trang web của bạn.
Ví dụ:

nội dung của File robots.txt
ví dụ sau:


User-agent: *
Disallow: /images/
Disallow: /search

Tất cả các bot công cụ tìm kiếm tương thích (được biểu thị bằng biểu tượng ký tự đặc trưng *) không được truy cập và thu thập dữ liệu nội dung theo /images/ hoặc bất kỳ URL nào có đường dẫn bắt đầu bằng /search
Trong một vài trường hợp bạn không muốn SE tìm tới những thư mục không muốn thì hãy sử dụng Disallow
- Nên sử dụng công cụ Webmaster Tools của google để tạo robots.txt, có chế độ xem trước + chỉnh sửa trực tiếp:

- Lưu ý: nếu trang web của bạn sử dụng các tên miền phụ và bạn muốn một số trang nhất định không được thu thập dữ liệu trong tên miền phụ cụ thể, bạn sẽ phải tạo tệp robots.txt riêng biệt cho tên miền phụ đó. Để biết thêm thông tin về robots.txt, chúng tôi đề xuất Trung tâm Trợ giúp Quản trị Trang web này hướng dẫn về việc Sử dụng các tệp robots.txt
- Video Matt Cutts nói về cảnh báo về mỗi phương thức chặn URL trong Webmaster Tools

2. Sử dụng Robots.txt hiệu quả
Sử dụng các phương thức an toàn hơn đối với nội dung nhạy cảm
- Bạn sẽ không cảm thấy yên tâm khi sử dụng robots.txt để chặn tài liệu nhạy cảm hoặc bí mật. Một lý do là các công cụ tìm kiếm có thể vẫn tham chiếu các URL bạn chặn (chỉ hiển thị URL, không phải tiêu đề hay đoạn trích) nếu ngẫu nhiên có được các liên kết đến những URL đó trên Internet (như các bản ghi tham chiếu). Cũng vậy, các công cụ tìm kiếm lừa đảo hoặc không tương thích không thừa nhận Chuẩn Loại trừ Robot có thể không tuân theo các hướng dẫn của robots.txt của bạn. Cuối cùng, người dùng tò mò có thể kiểm tra các thư mục hoặc thư mục con trong tệp robots.txt của bạn và đoán ra URL của nội dung mà bạn không muốn cho xem.
Mã hoá nội dung hoặc bảo vệ bằng mật khẩu với .htaccess là lựa chọn an toàn khác.
Tránh:
• cho phép các trang giống kết quả tìm kiếm được thu thập dữ liệu (người dùng không thích rời trang kết quả tìm kiếm và vào trang kết quả tìm kiếm khác không thêm giá trị quan trọng nào cho họ)
• cho phép số lượng lớn các trang tự tạo với cùng nội dung hoặc nội dung chỉ hơi khác nhau được thu thập dữ liệu: "100.000 trang gần như trùng lặp này có thật sự nên nằm trong chỉ mục của công cụ tìm kiếm?"
• cho phép các URL được tạo ra bởi các dịch vụ uỷ quyền được thu thập dữ liệu
------------------------------------------
Nguồn tham khảo: search-engine-optimization-starter-guide

Robots.txt là gì? Sử dụng Robots.txt hiệu quả - Hướng dẫn

No comments:

Post a Comment

Popular Posts

Comment

Tag

Total Pageviews