Fix lỗi trùng lặp nội dung, tiêu đề mô tả chuẩn trong Blogger

- [tintuc]Blogger là nền tảng "Trùm" nổi tiếng về lỗi trùng lặp nội dung. Tức là 2 hay nhiều URL cùng nhận tiêu đề/ mô tả/ nội dung y như nhau và để cho Google Index.
Nếu khái niệm Canonical khai báo cho Google biết đâu là URL muốn index là link chính nhưng quá nhiều trang sinh ra như vậy thì ta dùng biện pháp chặn index các link còn lại mà không thể dùng Canonical được. Bạn có thể xem phương pháp này tại Fix lỗi trùng lặp nội dung bằng Canonical mà mình chia sẻ trước đó.
Hiện nay cụm từ "Trùng lặp nội dung" theo dân Viết Content và cách nhiều người hiểu là nội dung đi copy 100% của trang khác dẫn đến trùng nội dung, không Unique 100%. Xong ít ai biết trùng lặp nội dung còn tự trùng lặp trên chính trang web của mình.

lỗi trùng lặp nội dung, tiêu đề mô tả
lỗi trùng lặp nội dung, tiêu đề mô tả

Bạn có đặt câu hỏi vì trang của bạn có 500 bài viết mà tới 2-3k index không?

Một số site Wordpress mình để ý còn cho Index cả Tags trong khi đánh tag lung tung và cực kì ngẫu hứng. Dẫn đến lượng nội dung Index khổng lồ như vậy.

Một số trang còn cho Index thêm Timeline/trang lưu trữ cực kì hỗn tạp vì không chuyên sử dụng Robots.txt

Như vậy bạn không kiểm soát được các trang Index dẫn đến Google Index hỗn tạp tất cả các trang và đánh giá xấu về SEO website của trang bạn.

Cách xử lý lỗi trùng lặp trong Blogger cũng cực kì đơn giản. 

Tuy nhiên có 2 cách để sửa lỗi này 
Cách 1. Tối ưu lại cấu trúc code Web bằng thẻ Meta (Title và Description). Tuy nhiên nó khá là phứt tạp đối với trang nhiều nội dung thì bù đầu hơn nữa.

Cách 2: Đơn giản nhất là chặn index các Url trùng lặp với link Gốc sinh ra ở các nền tảng website khác nhau.

Xem cách mà Google định nghĩa tại đây: https://support.google.com/webmasters/answer/66359
Google cũng khá thông minh khi cho chúng ta các định nghĩa trùng lặp nội dung nào là có hại và không có hại trong SEO để chúng ta ứng phó.

Các URL trùng lặp nên chặn trong Robots.txt

  • Disallow: *archive.html
  • Disallow: *?m=0
  • Disallow: /search*
  • Disallow: *?updated-max*
  • Disallow: *?q=*
Blogger của Google là nền tảng Blog được chia theo Label, Timeline (tức là Năm/tháng) phân trang theo max-results.

Giải thích về việc chặn các trang trong Blogger

I. Về lỗi trùng lặp trang Label (danh mục)

  1. https://www.toilaquantri.com/search/label/SEO
  2. https://www.toilaquantri.com/search/label/SEO?&max-results=10
  3. https://www.toilaquantri.com/search/label/SEO?&max-results=20 (=xx)
  4. https://www.toilaquantri.com/search/label/SEO?updated-max=2017-09-01T16%3A19%3A00%2B07%3A00&max-results=10#PageNo=2

Bạn sẽ thấy là Google Index hàng loạt các URL nói về Label SEO của mình. Nên điều đầu tiên là mình xác định URL chính cần lấy và chặn Index các URL còn lại. URL được lấy tô màu đỏ.

Chặn trong Robots.txt các URL còn lại
  • Disallow: *?updated-max*
Nhưng cho phép Index max-results=10
  • Allow: *max-results=10
Vì chủ đích của mình muốn như thế để nhằm phân trang.!

2. Về lỗi trùng lặp Archive

Đang cập nhật...

3. Trang trùng lặp Search (không đáng kể)

Tương tự Blogger cũng mở các URL liên quan đến search và sẽ thường lấy mô tả blog làm mô tả cho mình.
https://www.toilaquantri.com/search?q=từ khóa
Ta chặn:
  • Disallow: *?q=*
Trang này trường không hỗ trợ tối ưu về SEO nên ít được index trừ khi bạn trỏ link đến. Nhưng nếu Google Index được nó sẽ đánh trùng lặp mô tả Blog vì trang này thường lấy mô tả của Blog ra.

4. Trùng lặp Trang Desktop

Blogger sinh ra 3 trang cùng nội dung chưa tính tới trang có www và non www nữa.
  1. https://www.toilaquantri.com/ (Desktop)
  2. https://www.toilaquantri.com (Desktop)
  3. https://www.toilaquantri.com?m=0 (Desktop)
Do vậy mình chặn:
  • Disallow: *?m=0

Tại sao mình lại chặn index nhiều đến như vậy?

Là nhằm để cho Google ít tốn tài nguyên index các trang không cần thiết của mình mà dành thời gian index các trang cần thiết nhanh hơn phục vụ cho SEO nhanh hơn đặc biệt là bài viết và trang chủ.
Thứ 2 là giảm trùng lặp nội dung.
Blogger hỗ trợ SEO cực mạnh tại Trang chủ, Bài viết, Trang tĩnh (tối ưu Meta Description thêm) nhưng lại quá yếu kém trong Archive, Label và thường trùng lặp về nội dung tại các trang này. Như chỉ hỗ trợ viết Meta Description cho trang chủ và bài viết còn tất cả các trang còn lại đều không hỗ trợ mà phải làm thủ công toàn bộ.
Cách đơn giản để sử dụng Blogger cho các site vệ tinh là bạn chỉ cho Index trang chủ và bài viết. Chặn tất cả các trang khác còn lại.
Bạn có thể dùng Thẻ Tiêu đề Robots Tùy chỉnh trong cài đặt như ảnh sau mà không cần vất vả chặn như mình.
Vì nếu lỡ tay chặn trang chủ và bài viết là bạn mất toi đấy.

Chặn index trang lưu trữ (Archive) và tìm kiếm
Bài viết này nói riêng cho nền tảng Blogger. Tuy nhiên đối với nền tảng website khác đặc biệt là Wordpress đang bị lỗi trùng lặp nội dung nghiêm trọng thì cần có kỹ thuật lẫn chuyên môn để khắc phục việc này và tương đối không đơn giản.

Bạn cần phải xử lý cả trong Robots.txt, theo dõi Webmaster Tools và tái cấu trúc Meta của Website nữa.

Bạn có thể liên hệ với mình qua hotline: 0932.913.631 nếu website của bạn xảy ra tình trạng này!
[/tintuc]
Huỳnh Phụng Blogger

TLQT là Blog chia sẻ kiến thức về Marketing, Digital Marketing, Kinh nghiệm làm SEO, Tối ưu Website và nhiều thứ khác

Đăng nhận xét

➔ Gửi kèm hình ảnh trên bài viết để được hỗ trợ tốt nhất.
➔ Để bình luận kèm hình ảnh, bạn vào trang Upload Ảnh, kéo thả để Upload hình ảnh lên.
➔ Bạn dán URL link hình ảnh vào khung bình luận và ấn Xuất bản, ảnh sẽ được tự động tải lên.
➔ Không spam trong khung bình luận, hạn chế viết tắt.
➔ Tích vào ô Thông báo cho tôi (Notify me) để nhận thông báo phản hồi của Admin

Mới hơn Cũ hơn

POST ADS1

POST ADS 2