Mặc dù có thể lập chỉ mục 100% về mặt ‘kỹ thuật', nhưng nó có khả năng không khả thi trong thực tế.
Khi nói đến các chủ đề như ngân sách thu thập thông tin, lời ngụy biện lịch sử luôn là vấn đề dành riêng cho các trang web lớn (được Google phân loại là hơn 1 triệu trang web) và các trang web quy mô vừa với tần suất thay đổi nội dung cao.
Tuy nhiên, trong những tháng gần đây, thu thập thông tin và lập chỉ mục đã trở thành chủ đề phổ biến hơn trên các diễn đàn SEO và trong các câu hỏi đặt ra cho nhân viên Google trên Twitter.
Từ kinh nghiệm giai thoại của riêng tôi, kể từ tháng 11, các trang web có quy mô và tần suất thay đổi khác nhau đã có nhiều biến động hơn và báo cáo các thay đổi trong Google Search Console (cả thống kê thu thập thông tin và báo cáo mức độ phù hợp) so với trước đây.
Một số thay đổi lớn về phạm vi hoạt động mà tôi đã chứng kiến cũng liên quan đến các bản cập nhật chưa được xác nhận của Google và tính biến động cao từ các bộ theo dõi / cảm biến SERP. Do không có trang web nào có quá nhiều điểm chung về ngăn xếp, ngách hoặc thậm chí là các vấn đề kỹ thuật – đây có phải là dấu hiệu cho thấy 100% được lập chỉ mục (đối với hầu hết các trang web) bây giờ là không thể, và điều đó có ổn không?
Điều này thật ý nghĩa.
Google, trong tài liệu của riêng họ, phác thảo rằng web đang mở rộng với tốc độ vượt xa khả năng và phương tiện của chính nó để thu thập thông tin (và lập chỉ mục) mọi URL.
Trong cùng một tài liệu, Google nêu ra một số yếu tố ảnh hưởng đến khả năng thu thập thông tin của họ, cũng như nhu cầu thu thập thông tin, bao gồm:
- Mức độ phổ biến của các URL (và nội dung) của bạn.
- Đó là sự cứng rắn.
- Trang web phản hồi nhanh như thế nào.
- Kiến thức của Google (khoảng không quảng cáo nhận thức được) về các URL trên trang web của chúng tôi.
Từ các cuộc trò chuyện với John Mueller của Google trên Twitter, mức độ phổ biến của URL của bạn không nhất thiết bị ảnh hưởng bởi mức độ phổ biến của thương hiệu và hoặc miền của bạn.
Đã từng có kinh nghiệm trực tiếp về việc một nhà xuất bản lớn không có nội dung được lập chỉ mục dựa trên tính duy nhất của nó với nội dung tương tự đã được xuất bản trực tuyến – như thể nó đang giảm xuống dưới cả ngưỡng chất lượng và không có giá trị bao gồm SERP đủ cao.
Đây là lý do tại sao, khi làm việc với tất cả các trang web có quy mô hoặc loại hình nhất định (ví dụ: thương mại điện tử), tôi nhận ra rằng 100% được lập chỉ mục không phải lúc nào cũng là thước đo thành công.
Các cấp và phân đoạn lập chỉ mục
Google đã khá cởi mở trong việc giải thích cách lập chỉ mục của họ hoạt động.
Họ sử dụng lập chỉ mục theo cấp (một số nội dung trên máy chủ tốt hơn để truy cập nhanh hơn) và họ có chỉ mục phục vụ được lưu trữ trên một số trung tâm dữ liệu về cơ bản lưu trữ dữ liệu được cung cấp trong SERP.
Đơn giản hóa điều này hơn nữa:
Nội dung của tài liệu trang web (tài liệu HTML) sau đó được mã hóa và lưu trữ trên các phân đoạn và bản thân các phân đoạn đó được lập chỉ mục (giống như bảng thuật ngữ) để chúng có thể được truy vấn nhanh hơn và dễ dàng hơn cho các từ khóa cụ thể (khi người dùng tìm kiếm).
Rất nhiều lúc, vấn đề lập chỉ mục được đổ lỗi cho SEO kỹ thuật và nếu bạn có noindex hoặc các vấn đề và sự mâu thuẫn ngăn Google lập chỉ mục nội dung, thì đó là vấn đề kỹ thuật, nhưng thường xuyên hơn không – đó là vấn đề đề xuất giá trị.
Mục đích có lợi và giá trị bao gồm SERP
Khi tôi nói về đề xuất giá trị, tôi đang đề cập đến hai khái niệm từ hướng dẫn người đánh giá chất lượng (quality rater guidelines – QRG) của Google, đó là:
- Mục đích có lợi
- Chất lượng trang
và kết hợp lại, những điều này tạo ra thứ mà tôi tham khảo là giá trị bao gồm SERP.
Đây thường là lý do tại sao các trang web rơi vào danh mục “Đã khám phá – hiện chưa được lập chỉ mục” trong báo cáo mức độ phù hợp của Google Search Console.
Trong QRGs, Google đưa ra tuyên bố này:
Hãy nhớ rằng nếu một trang không có mục đích có lợi, nó sẽ luôn được xếp hạng Chất lượng trang thấp nhất bất kể xếp hạng Đáp ứng nhu cầu của trang hoặc trang có thể được thiết kế tốt như thế nào.
Điều đó có nghĩa là gì? Trang đó có thể nhắm mục tiêu các từ khóa phù hợp và đánh dấu vào các ô bên phải. Nhưng nếu nó thường lặp lại với nội dung khác và thiếu giá trị bổ sung, thì Google có thể chọn không lập chỉ mục nó.
Đây là nơi chúng ta bắt gặp ngưỡng chất lượng của Google, một khái niệm về việc một trang có đáp ứng “chất lượng” cần thiết để được lập chỉ mục hay không.
Một phần quan trọng trong cách hoạt động của ngưỡng chất lượng này là nó gần như theo thời gian thực và linh hoạt.
Gary Illyes của Google đã xác nhận điều này trên Twitter, nơi một URL có thể được lập chỉ mục khi được tìm thấy lần đầu tiên và sau đó bị loại bỏ khi tìm thấy các URL mới (tốt hơn) hoặc thậm chí được tăng “độ mới” tạm thời từ việc gửi thủ công trong GSC.
Hiểu xem bạn có gặp sự cố hay không
Điều đầu tiên cần xác định là liệu bạn có thấy số lượng trang trong báo cáo mức độ phù hợp của Google Search Console được chuyển từ bao gồm sang loại trừ hay không.
Biểu đồ này tự nó và ngoài ngữ cảnh đủ để gây ra mối quan tâm giữa hầu hết các bên liên quan tiếp thị.
Nhưng bạn quan tâm đến bao nhiêu trong số những trang này? Có bao nhiêu trang trong số này thúc đẩy giá trị?
Bạn sẽ có thể xác định điều này thông qua dữ liệu tập thể của mình. Bạn sẽ thấy liệu lưu lượng truy cập và doanh thu / khách hàng tiềm năng có giảm trong nền tảng phân tích của mình hay không và bạn sẽ nhận thấy trong các công cụ của bên thứ ba nếu bạn đang mất khả năng hiển thị và xếp hạng tổng thể của thị trường.
Khi bạn đã xác định liệu bạn có thấy các trang có giá trị thoát khỏi chỉ mục của Google hay không, các bước tiếp theo là tìm hiểu lý do tại sao và Search Console chia nhỏ các trang bị loại trừ thành các danh mục khác. Những vấn đề chính bạn cần lưu ý và hiểu là:
Đã thu thập thông tin – hiện chưa được lập chỉ mục
Đây là điều tôi gặp phải với thương mại điện tử và bất động sản nhiều hơn bất kỳ ngành dọc nào khác.
Vào năm 2021, số lượng đăng ký ứng dụng kinh doanh mới ở Hoa Kỳ đã phá vỡ các kỷ lục trước đó và với việc nhiều doanh nghiệp cạnh tranh hơn để giành người dùng, có rất nhiều nội dung mới được xuất bản – nhưng có thể không phải là nhiều thông tin hoặc quan điểm mới và độc đáo.
Đã phát hiện – hiện chưa được lập chỉ mục
Khi gỡ lỗi vấn đề lập chỉ mục, tôi thấy điều này xuất hiện rất nhiều trên các trang web thương mại điện tử hoặc các trang web đã triển khai phương pháp tiếp cận có lập trình đáng kể để tạo nội dung và xuất bản một số lượng lớn các trang cùng một lúc.
Các lý do chính khiến các trang rơi vào danh mục này có thể giảm ngân sách thu thập thông tin, đó là bạn vừa xuất bản một lượng lớn nội dung và các URL mới, đồng thời tăng số lượng các trang có thể thu thập thông tin và lập chỉ mục trên trang web theo cấp số nhân và ngân sách thu thập thông tin mà Google đã xác định cho trang web của bạn không hướng đến nhiều trang này.
Bạn không thể làm gì nhiều để ảnh hưởng đến điều này. Tuy nhiên, bạn có thể giúp Google thông qua sơ đồ trang XML, sơ đồ trang HTML và liên kết nội bộ tốt để chuyển xếp hạng trang từ các trang quan trọng (được lập chỉ mục) sang các trang mới này.
Lý do thứ hai khiến nội dung có thể rơi vào danh mục này là do chất lượng – và điều này thường xảy ra ở nội dung có lập trình hoặc các trang web thương mại điện tử có số lượng lớn sản phẩm và PDP là sản phẩm tương tự hoặc biến thể.
Google có thể xác định các mẫu trong URL và nếu nó truy cập một phần trăm các trang này và không tìm thấy giá trị, nó có thể (và đôi khi sẽ) đưa ra giả định rằng các tài liệu HTML có các URL tương tự sẽ có chất lượng tương đương (thấp) và nó sẽ chọn không thu thập thông tin chúng.
Rất nhiều trang này sẽ được tạo có chủ ý với mục tiêu chuyển đổi khách hàng, chẳng hạn như các trang vị trí có lập trình hoặc các trang so sánh nhắm mục tiêu đến người dùng thích hợp, nhưng những truy vấn này được tìm kiếm với tần suất thấp, có thể sẽ không được nhiều người chú ý và nội dung có thể không đủ độc đáo so với các trang có lập trình khác, vì vậy Google sẽ không lập chỉ mục nội dung đề xuất có giá trị thấp khi có sẵn các lựa chọn thay thế khác.
Nếu đúng như vậy, bạn sẽ cần đánh giá và xác định xem liệu các mục tiêu có thể đạt được trong tài nguyên và thông số của dự án mà không có quá nhiều trang gây tắc nghẽn thu thập thông tin và không được coi là có giá trị hay không.
Nội dung
trùng lặp Nội dung trùng lặp là một trong những nội dung đơn giản hơn và phổ biến trong thương mại điện tử, xuất bản và có lập trình.
Nếu nội dung chính của trang, giữ giá trị đề xuất, bị trùng lặp trên các trang web hoặc trang nội bộ khác, thì Google sẽ không đầu tư tài nguyên vào việc lập chỉ mục nội dung.
Điều này cũng liên quan đến đề xuất giá trị và khái niệm về mục đích có lợi. Tôi đã gặp nhiều ví dụ trong đó các trang web lớn, có thẩm quyền có nội dung không được lập chỉ mục vì nó giống với nội dung khác có sẵn – không đưa ra quan điểm độc đáo hoặc đề xuất giá trị duy nhất.
Hành động
Đối với hầu hết các trang web lớn và các trang web có quy mô vừa phải, việc đạt được 100% lập chỉ mục sẽ trở nên khó khăn hơn vì Google phải xử lý tất cả nội dung hiện có và nội dung mới trên web.
Nếu bạn thấy nội dung có giá trị được coi là dưới ngưỡng chất lượng, bạn nên thực hiện những hành động nào?
- Cải thiện liên kết nội bộ từ các trang có “giá trị cao”: Điều này không nhất thiết có nghĩa là các trang có nhiều liên kết ngược nhất, nhưng những trang xếp hạng cho một số lượng lớn từ khóa và có khả năng hiển thị tốt có thể chuyển các tín hiệu tích cực thông qua neo mô tả đến các trang khác .
- Tỉa bỏ nội dung chất lượng thấp, giá trị thấp. Nếu các trang bị loại khỏi chỉ mục có giá trị thấp và không thúc đẩy bất kỳ giá trị nào (ví dụ: số lần xem trang, chuyển đổi), chúng nên được cắt bớt. Việc để chúng hoạt động chỉ lãng phí tài nguyên thu thập thông tin của Google khi nó chọn thu thập thông tin và điều này có thể ảnh hưởng đến các giả định về chất lượng của họ dựa trên đối sánh mẫu URL và khoảng không quảng cáo được nhận thức.