Robots.txt chuẩn cho Blogger/Blogspot 2018

byHuỳnh Phụng Blogger •3/19/2018 • 2 min read • views

5

Admin Huỳnh Phụng Blogger - [tintuc]Robots.txt là một tài liệu cho các con bọ (SE: Search Engine) đọc trang này (index) dữ liệu website ở trang nào, và không cho đọc trang nào lên các máy chủ tìm kiếm.

Các con bọ tìm kiếm đều phải tuân thủ nội dung trong Robots.txt trước khi lập chỉ mục các nội dung trong website.

Việc thiết lập Robots.txt chuẩn cho công cụ lập chỉ mục (index) nhanh chóng hoặc index các nội dung không muốn cho lập chỉ mục.

Robots.txt chuẩn cho Blogspot 2018

Robots.txt mà Toilaquantri.com đang dùng

Bạn thay link https://www.toilaquantri.com/ ở các code bên dưới nhé!

Hoặc tham khảo robots.txt mà toilaquantri đang dùng tại https://toilaquantri.com/robots.txt

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=10
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
Sitemap: https://www.toilaquantri.com/sitemap.xml
Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500

Giải thích cách hoạt động của Robot.txt

User-agent: Mediapartners-Google
Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / //Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com)
Disallow: /search* //Chặn trang tìm kiếm
Allow: /search //Cho phép đọc trang bài viết mới
Disallow: *archive.html //Chặn index trang lưu trữ
Disallow: *?m=0 // chặn index trang có giá trị domain.com?m=0
Allow: /search/label/ //Cho phép index trang nhãn
Allow: *max-results=10 //Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế)

Dành cho các site không index các trang *max-results=*

Disallow: *max-results=* // Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.

Riêng đối với Blogger sử dụng cấp dữ liệu qua atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo sitemap: như sau

Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED

Sitemap: https://www.toilaquantri.com/sitemap.xml

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500

Sitemap: https://www.toilaquantri.com/p/map.html

Trong đó các link sau:

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500

Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500

= Được khai báo trong Google Webmaster Tools

Sitemap: https://www.toilaquantri.com/p/map.html

Sitemap dành cho người dùng nhưng cũng khai báo link để Google (SE) vào đó đọc link cho nhanh.

Cách khai báo Robots.Txt

1. Cho phép dò và index toàn bộ trang và các thư mục, các file

Allow: /

2. Chặn không cho phép tất cả bot (SE) truy cập và index toàn bộ

Disallow: /

3. Chặn toàn bộ một thư mục và các file, thư mục con trong nó

Disallow: /abc/

4. Chặn một trang cố định

Disallow: /abc.html

5. Chặn một loại file cố định từ một bot của công cụ tìm kiếm

User-agent: Googlebot

Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)

6. Chặn một hình không cho Googlebot-Image index

User-agent: Googlebot-Image

Disallow: /abc/def.jpg

7. Chặn không cho một bot bất kì truy cập:

User-agent: Googlebot

Disallow: /

Lưu ý khi sử dụng và tạo file Robots.txt

Phân biệt chữ hoa, chữ thường
Không được viết thừa hoặc thiếu khoảng trắng
Mỗi lệnh viết trên một dòng
Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
Hết sức thận trọng khi sử dụng khi bạn chưa hiểu thường tận
Kiểm tra thường xuyên file robots.txt

[/tintuc]

4.94 / 169 rates

5 Nhận xét

➔ Gửi kèm hình ảnh trên bài viết để được hỗ trợ tốt nhất.
➔ Để bình luận kèm hình ảnh, bạn vào trang Upload Ảnh, kéo thả để Upload hình ảnh lên.
➔ Bạn dán URL link hình ảnh vào khung bình luận và ấn Xuất bản, ảnh sẽ được tự động tải lên.
➔ Không spam trong khung bình luận, hạn chế viết tắt.
➔ Tích vào ô Thông báo cho tôi (Notify me) để nhận thông báo phản hồi của Admin

Vincent

Sao lại chặn thế này
Disallow: /2017*

Nếu chặn vậy thì toàn bộ bài viết sẽ bị chặn.
Ví dụ: https://www.lazoko.com/2017/12/huong-dan-su-dung-iphone-x-can-ban-cho.html

Với cách chặn trên thì rõ ràng bài biết của tớ ở trên sẽ bị chặn

Reply Delete 11/5/18
1. Huỳnh Phụng Blogger
  
  Đúng rồi nên mình đã xóa phần chặn này trong bài hướng dẫn rồi :))
  
  Reply Delete 30/5/18
quangtien30

về robot.txt ý a
trong bài viết của a có viết
Disallow: /search* //Chặn trang tìm kiếm
lệnh này dùng để chặn google tìm kiếm bài viết của mình rồi thì làm sao mn tìm kiếm dc bài viết của mình nữa mà đọc a

Reply Delete 10/6/18
1. Huỳnh Phụng Blogger
  
  Đây là chặn trang Search ví dụ: https://www.toilaquantri.com/search
  
  Còn bài viết không có search trong đó mà /năm/tháng/bai-viet.html nên vẫn index bài viết bình thường.
  
  Và cũng không chặn trang label được vì đã allow: /search/label/ rồi
  
  Reply Delete 30/6/18
QuocHuy

Cám ơn bạn đã chia sẻ bài viết rất hay

Reply Delete 7/8/18

Đăng nhận xét

Chủ đề	Giá	Demo	Order
Planding App	200.000đ	View	Mua
Planding BĐS #1	200.000đ	View	Mua
Planding BĐS #2	200.000đ	View	Mua
Planding BĐS #3	200.000đ	View	Mua
Planding BĐS #4	200.000đ	View	Mua
Planding BĐS #5	200.000đ	View	Mua
Planding BĐS #6	200.000đ	View	Mua
Planding BĐS #7	200.000đ	View	Mua
Shop Máy tính	200.000đ	View	Mua
Tạp Chí Zing	500.000đ	View	Mua
Shop Điện Thoại #1	500.000đ	View	Mua
Chung Cư BĐS	500.000đ	View	Mua
Planding Công ty	500.000đ	View	Mua
Shop Tạp Hóa	Miễn Phí Free	View	Tải về
Cây Cảnh	250.000đ	View	Mua
Shop tổng hợp AFF	500.000đ	View	Mua
Tinhdauonline Lite	Miễn Phí Free	View	Tải về
Planding BĐS #8	500.000đ	View	Mua
BĐS Đăng Tin	500.000đ	View	Mua