Trùng lặp nội dung và cách sử lý

Các bạn biết đấy google hoàn toàn không thích nội dung kép (nội dung trùng lặp) lý do là vì Google muốn trong trang kết quả tìm kiếm, mười kết quả đầu tiên sẽ là mười trang khác nhau với nội dung khác nhau. Điều này giúp cho người tìm kiếm có nhiều lựa chọn chính xác và đa dạng, hơn là một loạt các nội dung trùng lặp trong top mười này.

Bài viết sau sẽ tôi sẽ chỉ cho các bạn biết thế nào là trùng lặp nội dung và cách sử lý như thế nào?

trung lap noi dung va cach su lytrung lap noi dung va cach su ly

Nội dung bị trùng lặp như thế nào ?

  • Có rất nhiều lý do để nội dung bị lặp lại trên nhiều địa chỉ khác nhau, hoặc các tài liệu này có nội dung tương tự :
  • Bạn có thể có nhiều trang web với tên miền khác nhau nhưng có nội dung tương tự.
  • Bạn có thể đã viết một bài báo và một trang web khác hoặc blog nhặt các bài báo và đăng lại.
  • Khi các url chưa các mã số theo dõi, track code, id…
  • Khi tags được sử dụng và chuyển đến bản gốc của mã nguồn trong một hệ thống CMS.
  • Khi website của bạn chưa được tối ưu hóa cấu hình đúng trên server cấp cơ sở (tức là sự không đống bộ giữa http:// và http://www. hoặc tồn tại nhiều trang chủ dạng domain/ và domain/index.php…)

Làm thế nào Công cụ Tìm kiếm tìm ra nội dung trùng lặp

Công cụ tìm kiếm gửi một bot hoặc chương trình để lướt Internet và thu thập tất cả các nội dung mà nó tìm thấy. Nội dung này được lập chỉ mục và đặt vào một cơ sở dữ liệu.

Trong quá trình này, nội dung được so sánh với nội dung trùng lặp khác. Sau đó, một nỗ lực được thực hiện để xác định ban đầu. Một số đầu mối giúp nó quyết định này là:

  • Tên miền tin cậy nhất – Tức là tên miền nhiều tuổi, tên miền được xác thực, tên miền tốt lâu nay được ưu tiên khi có nhiều web trùng nhau nội dung.
  • Có các liên kết trên một trong những điểm đó trở lại một bản gốc?
  • Hoặc website nào có nhiều nhất các liên kết trỏ đến?
  • Web nào là nơi đầu tiên của Google tìm thấy các nội dung? (Điều này sẽ rất lợi cho các báo điện tử hoặc các trang web có nhiều truy cập. Vì nhiều khi, một trang web bé viết 1 bài, 2 ngày Google mới index, nhưng 1 trang web lớn copy lại, chỉ 1 phút sau Google đã index. Như vậy rõ ràng trang web lớn hưởng lợi, dù nó mới chính là kẻ Copy.

Cách sử lý trùng lặp nội dung

Có nhiều bài viết nói về giải phải sử lý nội dung trùng lặp nên tôi chỉ đề cập sơ lược, các bạn có thể tìm hiểu cụ thể trên Google.

  1. Xử lý bằng robot.txt.

    Hãy chặn những link, thư mục bạn nghĩ sẽ làm Crawler bị dính izanagi . Chặn tất cả những gì bạn có thể chặn, link, thư mục, page,… Đừng làm Crawler bị quay cuồng trong 1 vòng lặp cuối cùng sẽ không thể đi đến đích khi các link được tự động sinh ra trong trang tìm kiếm, lọc sản phẩm.

    Để tham khảo các câu lệnh trong file robots.txt bạn hãy tham khảo của Google >>> http://google.com/robots.txt

  2. Xử lý bằng webmaster tool.

    Trong google webmaster tool có chức năng cho phép bạn remove các link được index không mong muốn. Hãy ứng dụng chức năng này để xóa bỏ các link trùng lặp trong hệ thống của bạn.

  3. Xử lý bằng thẻ Canonical.

    Đây là phương án tốt nhất và hiệu quả nhất tuy nhiên phương án này này phải can thiệp vào code, và nếu website của bạn không được xây dựng chức năng này + bạn không biết code thì khá là khó.

    Canonical cho phép xác định link nào là link chính trong số các nhân bản của nó. Như trên thì chodientu có thể cài đặt để link trên thư mục website của họ là link chính mô tả về sản phẩm Iphone 4gs còn các link trên các shop có thể cho nó thẻ Cannonical.

Kết luận

Trong thực tế có rất nhiều trang web đang mắc lỗi trùng lặp nội dung. Sự cạnh tranh là rất lớn và kiến thức thì có hạn đôi khi khiến chúng ta phải đi sao chép lại các nội dung để thu hút được người truy cập. Tuy nhiên chúng ta nên biết cách biến tấu nội dung để biến cái của người khác thành của mình mà vẫn qua mặt được google. Bản thân dayhocseo.com cũng đã đau đầu rất nhiều về vấn đề xây dựng nội dung làm sao để tránh trùng lặp nội dung mà vẫn thu hút được người truy cập, còn bạn nào có khả năng và điều kiện có thể tự xây dựng nội dung phong phú cuốn hút thì thật là tuyệt vời.

Ý nghĩ của bạn là gì? Hãy cho tôi biết ở phần bình luận bên dưới nhé. Đừng quên chia sẻ hoặc theo dõi RSS feed nếu bạn nghĩ rằng bài viết này là hữu ích !
About ngoanh

Tôi thích internet, đam mê Seo, Sem và Marketing Online và là một kẻ phi chính quy đi lên bằng con đường tà đạo. Tôi mong muốn sẽ chia sẻ các kiến thức mà tôi được học và đã đi làm giúp đỡ được các bạn một phần nào đó để rút ngắn thời gian tìm hiểu.
Nếu bạn gặp khó khăn về Seo, Sem, hay Marketing Online hãy liên hệ với tôi đừng ngại ! Facebook hoặc Google+ hoặc trang Liên hệ.

Comments

  1. Nhờ bài viết này mình mới tối ưu lại thẻ Canonical cho site khách hàng. Bởi vì trùng nội dung mà từ khóa seo chẳng thấy lên top đâu

Speak Your Mind

*