XML Sitemap: Công cụ thường xuyên bị hiểu sai trong bộ công cụ SEO

Thảo luận trong 'Thảo luận trợ giúp SEO' bắt đầu bởi cuongapple, 13/4/17.

tai hinh nen cho iphone

Lượt xem: 934

  1. Offline

    cuongapple Thành viên BQT
    • 28/34

    Bài viết:
    549
    Qua nhiều năm kinh nghiệm trong việc tư vấn SEO, tôi đã thấy nhiều khách hàng có những quan niệm sai lầm căn bản về các XML Sitemap (XML Sitemap). Đó là một công cụ hữu ích - nhưng cũng giống như bất kỳ công cụ nào khác, bạn cần phải có hiểu biết và nền tảng về nguyên lý và cách thức làm việc của chúng mới có thể đạt hiệu quả cao.

    [​IMG]

    Lập chỉ mục (Index)

    Có lẽ quan niệm sai lầm phổ biến nhất là XML Sitemap sẽ hỗ trợ cho việc index trang của bạn. Điều đầu tiên chúng ta phải thực hiện là: Google không index trang chỉ vì bạn yêu cầu. Google chỉ index các trang vì họ tìm thấy và crawl website đó, hoặc họ cho rằng chúng đủ chất lượng để có thể được index.

    Điều quan trọng cần lưu ý là bằng cách gửi một XML Sitemap tới Google Search Console, bạn sẽ cho Google một đầu mối mà bạn cho rằng các trang trong XML Sitemap là các trang đích có chất lượng tốt, xứng đáng được lập chỉ mục.

    Tính nhất quán

    Một trong những sai lầm phổ biến nhất mà tôi thường thấy ở khách hàng là thiếu tính nhất quán trong việc gửi tin nhắn tới Google về một trang nhất định. Nếu bạn chặn một trang trong robots.txt và sau đó lại đính kèm nó trong một XML Sitemap, thì mọi việc giống như thể bạn đang trêu đùa với Google. Trong khi Sitemap của bạn nói rằng: "Này, Google ... ở đây một trang web hoàn hảo mà bạn không được bỏ qua". Thì ngay sau đó robots.txt của bạn sẽ mang nó đi.

    Tiện đây, tôi sẽ nói ngắn gọn về các meta robot: "noindex" có nghĩa là không lập chỉ mục trang. "Nofollow" có nghĩa là không quan tâm đến trang đó. Điều này có nghĩa là "đừng follow các outbound link (liên kết từ website của bạn đến các website khác) từ trang đó". Nếu bạn muốn Google không index một trang, hãy đặt meta robot thành "noindex, follow".

    Nhìn chung, các trang trên website của bạn rơi vào hai nhóm:

    1. Các trang tiện ích (hữu ích cho người dùng, nhưng đó không phải là trang đích tìm kiếm).
    2. Các trang đích tìm kiếm chất lượng cao.

    [​IMG]
    Các trang trong nhóm #1 đều bị chặn bởi robots.txt hoặc meta robot "noindex, follow" và không nằm trong XML Sitemap.

    Các trang trong nhóm #2 tuyệt đối không được nằm trong danh sách chặn trong robots.txtcũng như các meta robot "noindex" nhưng có thể đưa vào trong một XML Sitemap.

    Chất lượng website tổng thể

    Có vẻ như Google đang đo lường chất lượng website tổng thể và sử dụng số liệu trên toàn trang để xếp hạng - và tôi không nói về liên kết nước ép ở đây.

    Giả sử bạn có một trang tuyệt vời với hàng loạt content hoàn hảo. Nếu Google nhìn thấy trong số 1000 trang trên website của bạn, chỉ có 5-6 trang là hoàn hảo và đưa người dùng đến một trong những trang tuyệt vời đó, thì trải nghiệm người dùng sẽ ra sao khi họ click vào một liên kết trên trang đó và ghé thăm các trang khác trên website của bạn? Rất có thể, họ sẽ không bao giờ quay trở lại nữa.

    Các kỹ sư của Google chắc chắn hiểu rằng mọi website đều có một số trang "tiện ích" hữu dụng cho người dùng nhưng không nhất thiết phải là các trang content hay các trang đích như: trang chia sẻ nội dung với người khác, trả lời nhận xét, đăng nhập , lấy lại mật khẩu bị mất, vv

    Nếu XML Sitemap có tất cả các trang nàycó nghĩa là bạn không hề biết mình cần phải có những yếu tố nào để tạo nên một content hay trên website.

    Đây là bức tranh mà bạn muốn phác họa cho Google thấy. Chúng tôi có website với hơn 1.000 trang ... và đây là 475 trong số 1.000 trang content tuyệt vời của chúng tôi. Bạn có thể bỏ qua những trang còn lại vì chúng là các trang tiện ích.

    Giả sử Google crawl hết 475 trang đó vàquyết định rằng 175 trong số đó là loại "A", 200 là "B +" và 100 là "B" hoặc "B-". Thì đó là một kết quả bình khá tốt, chứng tỏ website của bạn phù hợp để Google mang đến cho người dùng.

    Ngược lại, với một website gửi hết 1.000 trang qua XML Sitemap. Google xem xét 1.000 trang bạn giới thiệu và thấy hơn 50% là trang "D" hoặc "F". Thì website của bạn khá tệ; Google không hề muốn đưa người dùng đến một website như vậy.

    Lưu ý

    Hãy nhớ rằng, Google sẽ sử dụng những gì bạn gửi trong XML Sitemap như một đầu mối để đánh giá chất lượng website của bạn. Nhưng Google sẽ không bỏ qua các trang còn lại chỉ vì chúng không nằm trong XML Sitemap của bạn. Bạn vẫn có thể có hàng nghìn trang với nội dung và liên kết gần như không đủ để khiến cho Google index. Nhưng có lẽ đó là điều không nên.

    Điều quan trọng là phải tạo ra một website khiến cho Google có thể index để khám phá các trang mà bạn đã bỏ quên và xóa các trang mà Google xếp hạng trung bình bằng cách đặt siêu dữ liệu Robots "noindex, follow" (hoặc block trong robots.txt). Nói chung, các trang tệ nhất vẫn luôn là các trang bị liệt kê cuối cùng trong bảng xếp hạng tìm kiếm.

    Noindex với Robots.txt

    Có sự khác biệt quan trọng nhưng tinh tế giữa việc sử dụng các meta robot và robots.txt để ngăn chặn việc index trang.

    [​IMG]

    Trong ví dụ ở trên, tôi đang chặn các trang không phải là trang thực - đó là các tập lệnh theo dõi - vì vậy tôi không bị mất liên kết liên kết, vì những trang này dẫn đến các liên kết quan trọng, v.v ...

    [​IMG]

    Hãy suy nghĩ về một trang như Contact Us hoặc Privacy Policy (Chính sách Bảo mật) - có thể được liên kết đến bởi mỗi trang trên website của bạn thông qua menu chính hoặc menu phụ. Có rất nhiều liên kết đến các trang loại này. Vì vậy, đừng bao giờ bỏ qua chúng!

    Quản lý băng thông thu thập dữ liệu

    Khi nào thì bạn thực sự cần sử dụng robots.txt? Có lẽ là khi bạn đang gặp phải vấn đề về băng thông thu thập dữ liệu và Googlebot đang dành rất nhiều thời gian tìm nạp các trang tiện ích, chỉ để khám phá các meta robot "noindex, follow". Hoặc là khi bạn có quá nhiều thứ mà Googlebot không thể tiếp cận đến các trang quan trọng, thì bạn có thể phải chặn thông qua robots.txt.

    Tôi đã nhìn thấy một số khách hàng cải tiến xếp hạng trên bảng bằng cách làm sạch các XML Sitemap và không index các trang tiện ích của họ:

    [​IMG]

    Liệu tôi có từ 6.000 đến 20.000 trang cần được thu thập dữ liệu hàng ngày hay không? Hoặc Googlebot đang theo đuổi các comment/share URL qua email?

    Nếu bạn có một tập hợp các trang nội dung thường xuyên thay đổi (như blog hay trang bán hàng) và bạn đã có rất nhiều trang (như các trang bán hàng đơn) đã thăng hạng nhờ được Google index, nhưng không phải trả phí cho việc re-crawl và index các trang cốt lõi, bạn có thể đưa các trang chính vào trong một XML Sitemap cũng cấp cho Google một đầu mối mà bạn cho là quan trọng.

    Gỡ lỗi index

    [​IMG]

    Đây là nơi mà XML Sitemap thực sự hữu ích đối với SEO: khi bạn gửi một loạt trang tới Google để index và chỉ một vài trong số đó thực sự được index. Google Search Console sẽ không cho bạn biết nó đang index trang nào và chỉ có một vài trang được index trong mỗi XML Sitemap.

    Giả sử bạn có một website thương mại điện tử và có 100.000 trang sản phẩm, 5.000 trang danh mục và 20.000 trang phụ được giới thiệu. Bạn gửi một XML Sitemap chứa 125.000 trang và thấy rằng Google chỉ đang index 87.000 trong số đó.

    Trước hết, trang giới thiệu sản phẩm có thể là mục tiêu tìm kiếm quan trọng nhất đối với bạn. Bạn đang mong đợi sẽ thấy được gần 100% trong số đó được index và nếu kết quả không được như mong đợi thì bạn cần phải nghĩ đến việc xây dựng nhiều content hơn, tăng cường liên kết hoặc cả hai. Bạn có thể nhận ra rằng một vài trang sản phẩm không được index bởi vì chúng chỉ có 1 sản phẩm (hoặc không có gì cả) - trong trường hợp đó, bạn có thể muốn đưa meta robot "noindex, follow" vào đó, và lôi chúng ra khỏi XML Sitemap.

    Rất có thể, vấn đề nằm ở một số trong số 100.000 trang sản phẩm - nhưng đó là những vấn đề nào?

    Bắt đầu với một giả thiết và chia tách các trang sản phẩm của bạn thành các XML Sitemap khác nhau để kiểm tra. Bạn có thể thực hiện nhiều lần cùng một lúc - không có gì sai khi một URL tồn tại trong nhiều sơ đồ website.

    Bạn có thể bắt đầu với 3 giả thiết:

    1. Các trang không có hình ảnh sản phẩm sẽ không được index

    2. Các trang có mô tả ít hơn 200 từ không được index

    3. Các trang không có nhận xét / bài đánh giá không được index

    Hãy tạo một XML Sitemap với một số lượng trang có ý nghĩa nằm trong mỗi danh mục. Nó không nhất thiết phải đưa hết tất cả các trang vào đó – chỉ cần một lượng vừa đủ sao cho kích cỡ mẫu có thể hình dung ra một kết quả index cụ thể. Ví dụ, bạn có thể đưa khoảng 100 trang vào mỗi sitemap.

    Mục tiêu của bạn ở đây là sử dụng tỷ lệ index tổng thể của bất kỳ sitemap nào để xác định thuộc tính của các trang được hoặc không được lập index.

    Một khi bạn biết được vấn đề nằm ở đâu, thì bạn có thể sửa đổi nội dung trang (hoặc các liên kết đến các trang), hoặc noindex các trang. Ví dụ: bạn có thể có 20.000 trong số 100.000 trang sản phẩm có mô tả ít hơn 50 từ. Nếu đay không phải là các điều khoản về việc phải đạt được lưu lượng truy cập lớn cũng như bạn sẽ nhận các mô tả từ nguồn dữ liệu của nhà sản xuất, thì có lẽ bạn không nên thử và tự viết 200 từ mô tả cho mỗi 20.000 trang đó. Bạn cũng có thể thiết lập các meta robot để "noindex, follow" cho tất cả các trang có mô tả sản phẩm ít hơn 50 từ, vì Google sẽ không index các trang này và chúng hầu như chỉ làm giảm chất lượng xếp hạng website tổng thể của bạn. Đừng quên xóa chúng khỏi XML Sitemap.

    XML Sitemap động

    Bây giờ bạn đang nghĩ rằng mình phải tự giữ cho XML sitemap đồng bộ với các meta robot trên cả 100.000 trang. Nhưng điều đó sẽ không xảy ra đâu.

    Bạn không cần phải làm điều này một cách thủ công. XML Sitemap không phải là tệp tĩnh. Trên thực tế, nó thậm chí không cần phải có đuôi .XML mới có thể được gửi vào Google Search Console.

    Thay vào đó, hãy thiết lập quy tắc logic cho việc một trang nào đó có được đưa vào XML Sitemap hay không, và sử dụng logic tương tự trong trang đó để thiết lập các meta robot index/noindex. Bằng cách đó, thời điểm mà mô tả sản phẩm có được từ nguồn dữ liệu của nhà sản xuất được cập nhật và dài khoảng từ 42 từ đến 215 từ, thì trang đó sẽ xuất hiện trong XML Sitemap.

    Trên website du lịch của mình, tôi áp dụng cách này cho nhiều trang khác nhau. Tôi đang sử dụng ASP cổ điển, vì vậy tôi có sitemap như sau: https://www.visualitineraries.com/ItinSiteMap.asp

    Khi các sitemap được tìm nạp, thay vì hiển thị một trang HTML, thì phía máy chủ sẽ trả lại một trang XML đơn giản.

    Video Sitemap

    Những XML Sitemap video nào sẽ mang lại hiệu quả? Bạn chỉ nên sử dụng 2 loại đánh dấu là JSON-LD và schema.org/VideoObject cho website mà thôi.

    Tóm lại

    Hãy nhất quán - nếu trang đó bị chặn trong robots.txt hoặc các meta robot "noindex" thì tốt hơn là không nên đưa vào XML Sitemap của bạn.

    Hãy sử dụng các XML Sitemap của bạn làm công cụ tìm kiếm để khám phá và loại bỏ các vấn đề về lập chỉ mục, và chỉ yêu cầu Google lập chỉ mục các trang mà bạn biết rằng Google sẽ muốn lập chỉ mục.

    Nếu bạn có một website lớn, hãy sử dụng XML Sitemap động - đừng cố gắng giữ đồng bộ hóa giữa robots.txt, các robot meta và các XML Sitemap.

    Mã:
    www.thegioiseo.com
     
    #1

Chia sẻ trang này

Chào mừng các bạn đến với diễn đàn học SEO chúc các bạn có những giây phút thật zui zẻ!
x