Các con bọ tìm kiếm đều phải tuân thủ nội dung trong Robots.txt trước khi lập chỉ mục các nội dung trong website.
Việc thiết lập Robots.txt chuẩn cho công cụ lập chỉ mục (index) nhanh chóng hoặc index các nội dung không muốn cho lập chỉ mục.
Robots.txt chuẩn cho Blogspot 2018 |
Robots.txt mà Toilaquantri.com đang dùng
Bạn thay link https://www.toilaquantri.com/ ở các code bên dưới nhé!Hoặc tham khảo robots.txt mà toilaquantri đang dùng tại https://toilaquantri.com/robots.txt
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=10
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
[/tintuc]
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=10
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
Giải thích cách hoạt động của Robot.txt
- User-agent: Mediapartners-Google
- Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
- User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
- Allow: / //Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com)
- Disallow: /search* //Chặn trang tìm kiếm
- Allow: /search //Cho phép đọc trang bài viết mới
- Disallow: *archive.html //Chặn index trang lưu trữ
- Disallow: *?m=0 // chặn index trang có giá trị domain.com?m=0
- Allow: /search/label/ //Cho phép index trang nhãn
- Allow: *max-results=10 //Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế)
Dành cho các site không index các trang *max-results=*
Disallow: *max-results=* // Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.
Riêng đối với Blogger sử dụng cấp dữ liệu qua atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo sitemap: như sau
Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500
Sitemap: https://www.toilaquantri.com/p/map.html
Trong đó các link sau:
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500
= Được khai báo trong Google Webmaster Tools
Sitemap: https://www.toilaquantri.com/p/map.html
Sitemap dành cho người dùng nhưng cũng khai báo link để Google (SE) vào đó đọc link cho nhanh.
Cách khai báo Robots.Txt
1. Cho phép dò và index toàn bộ trang và các thư mục, các file
Allow: /
2. Chặn không cho phép tất cả bot (SE) truy cập và index toàn bộ
Disallow: /
3. Chặn toàn bộ một thư mục và các file, thư mục con trong nó
Disallow: /abc/
4. Chặn một trang cố định
Disallow: /abc.html
5. Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: Googlebot
Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)
6. Chặn một hình không cho Googlebot-Image index
User-agent: Googlebot-Image
Disallow: /abc/def.jpg
7. Chặn không cho một bot bất kì truy cập:
User-agent: Googlebot
Disallow: /
Lưu ý khi sử dụng và tạo file Robots.txt
- Phân biệt chữ hoa, chữ thường
- Không được viết thừa hoặc thiếu khoảng trắng
- Mỗi lệnh viết trên một dòng
- Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
- Hết sức thận trọng khi sử dụng khi bạn chưa hiểu thường tận
- Kiểm tra thường xuyên file robots.txt
Sao lại chặn thế này
Disallow: /2017*
Nếu chặn vậy thì toàn bộ bài viết sẽ bị chặn.
Ví dụ: https://www.lazoko.com/2017/12/huong-dan-su-dung-iphone-x-can-ban-cho.html
Với cách chặn trên thì rõ ràng bài biết của tớ ở trên sẽ bị chặn
Đúng rồi nên mình đã xóa phần chặn này trong bài hướng dẫn rồi :))
về robot.txt ý a
trong bài viết của a có viết
Disallow: /search* //Chặn trang tìm kiếm
lệnh này dùng để chặn google tìm kiếm bài viết của mình rồi thì làm sao mn tìm kiếm dc bài viết của mình nữa mà đọc a
Đây là chặn trang Search ví dụ: https://www.toilaquantri.com/search
Còn bài viết không có search trong đó mà /năm/tháng/bai-viet.html nên vẫn index bài viết bình thường.
Và cũng không chặn trang label được vì đã allow: /search/label/ rồi
Cám ơn bạn đã chia sẻ bài viết rất hay