Xây dựng và gửi sơ đồ trang web sitemap

 Xây dựng và gửi sơ đồ trang web

Trang này mô tả cách tạo sơ đồ trang web và cung cấp cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.




Quyết định định dạng sơ đồ trang web bạn muốn sử dụng.


Tạo sơ đồ trang web , tự động hoặc thủ công.


Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm nó vào tệp robots.txt của bạn hoặc gửi trực tiếp nó đến Search Console.


Định dạng sơ đồ trang web


Google hỗ trợ một số định dạng sơ đồ trang web:




XML


RSS, mRSS và Atom 1.0


Chữ


Google mong đợi giao thức sơ đồ trang web tiêu chuẩn ở tất cả các định dạng. Google hiện không sử dụng <priority>thuộc tính này trong sơ đồ trang web.




Tất cả các định dạng giới hạn một sơ đồ trang web ở 50MB (không nén) và 50.000 URL. Nếu bạn có một tệp lớn hơn hoặc nhiều URL, bạn sẽ phải chia danh sách của mình thành nhiều sơ đồ trang. Bạn có thể tùy chọn tạo tệp chỉ mục sơ đồ trang web (tệp trỏ đến danh sách các sơ đồ trang web) và gửi tệp chỉ mục duy nhất đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và / hoặc tệp chỉ mục sơ đồ trang web cho Google.




XML


Đây là một sơ đồ trang XML rất cơ bản bao gồm vị trí của một URL:






<?xml version="1.0" encoding="UTF-8"?>


<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">


  <url>


    <loc>http://www.example.com/foo.html</loc>


    <lastmod>2018-06-04</lastmod>


  </url>


</urlset>


Bạn có thể tìm thấy các ví dụ phức tạp hơn và tài liệu đầy đủ tại sitemaps.org .




Bạn có thể xem các ví dụ về sơ đồ trang web chỉ định các trang ngôn ngữ thay thế và sơ đồ trang web cho các tệp tin tức, hình ảnh hoặc video .




RSS, mRSS và Atom 1.0


Nếu bạn có blog có nguồn cấp RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu dưới dạng sơ đồ trang web. Hầu hết các phần mềm blog đều có thể tạo nguồn cấp dữ liệu cho bạn, nhưng hãy nhận biết rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về các URL gần đây.




Google chấp nhận nguồn cấp dữ liệu RSS 2.0 và Atom 1.0.


Bạn có thể sử dụng nguồn cấp dữ liệu mRSS (media RSS) để cung cấp cho Google thông tin chi tiết về nội dung video trên trang web của bạn.


Chữ


Nếu sơ đồ trang web của bạn chỉ bao gồm các URL của trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản chứa một URL trên mỗi dòng. Ví dụ:






http://www.example.com/file1.html


http://www.example.com/file2.html


Hướng dẫn về sơ đồ trang web tệp văn bản 


Mã hóa tệp của bạn bằng cách sử dụng mã hóa UTF-8.


Không đặt bất kỳ thứ gì khác ngoài URL trong tệp sơ đồ trang web.


Bạn có thể đặt tên cho tệp văn bản bất kỳ thứ gì bạn muốn, miễn là nó có .txtphần mở rộng (ví dụ: sitemap.txt).


Tiện ích mở rộng sơ đồ trang web cho các loại phương tiện bổ sung


Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho các loại phương tiện sau. Sử dụng các tiện ích mở rộng này để mô tả các tệp video, hình ảnh và nội dung khó phân tích cú pháp khác trên trang web của bạn để cải thiện việc lập chỉ mục.




Video


Hình ảnh


Google Tin tức


Nguyên tắc chung về sơ đồ trang web


Sử dụng các URL nhất quán, đủ điều kiện. Google sẽ thu thập dữ liệu các URL của bạn chính xác như được liệt kê. Ví dụ: nếu trang web của bạn có tại https://www.example.com/, không chỉ định URL là https://example.com/(bị thiếu www) hoặc ./mypage.html(URL tương đối).


Sơ đồ trang web có thể được đăng ở bất kỳ đâu trên trang web của bạn, nhưng sơ đồ trang web chỉ ảnh hưởng đến con cháu của thư mục mẹ . Do đó, một sơ đồ trang web được đăng tại thư mục gốc của trang web có thể ảnh hưởng đến tất cả các tệp trên trang web, đó là nơi chúng tôi khuyên bạn nên đăng các sơ đồ trang web của mình.


Không bao gồm ID phiên từ các URL trong sơ đồ trang web của bạn. Điều này làm giảm việc thu thập dữ liệu trùng lặp của các URL đó.


Cho Google biết về các phiên bản ngôn ngữ thay thế của URL bằng cách sử dụng chú thích hreflang .


Các tệp sơ đồ trang web phải được mã hóa UTF-8 và các URL được thoát một cách thích hợp .


Chia sơ đồ trang web lớn thành các sơ đồ trang web nhỏ hơn: một sơ đồ trang web có thể chứa tối đa 50.000 URL và không được vượt quá 50 MB khi chưa nén. Sử dụng tệp chỉ mục sơ đồ trang web để liệt kê tất cả các sơ đồ trang web riêng lẻ và gửi tệp này tới Google thay vì gửi các sơ đồ trang web riêng lẻ.


Chỉ liệt kê các URL chuẩn trong sơ đồ trang web của bạn. Nếu bạn có hai phiên bản của một trang, hãy chỉ liệt kê trong sơ đồ trang web mà bạn muốn xuất hiện trong kết quả tìm kiếm. Nếu bạn có hai phiên bản trang web của mình (ví dụ: có www và không có www), hãy quyết định xem đâu là trang web ưa thích của bạn và đặt sơ đồ trang ở đó và thêm rel=canonicalhoặc chuyển hướng trên trang web khác.


Nếu bạn có các URL khác nhau cho các phiên bản trên thiết bị di động và máy tính để bàn của một trang, chúng tôi khuyên bạn chỉ nên trỏ đến một phiên bản trong sơ đồ trang web. Tuy nhiên, muốn trỏ đến cả hai URL, hãy chú thích các URL của bạn để chỉ ra phiên bản dành cho máy tính để bàn và thiết bị di động.


Sử dụng tiện ích mở rộng sơ đồ trang web để trỏ đến các loại phương tiện bổ sung như video, hình ảnh và tin tức.


Nếu bạn có các trang thay thế cho các ngôn ngữ hoặc khu vực khác nhau , bạn có thể sử dụng hreflang trong sơ đồ trang web hoặc các thẻ html để chỉ ra các URL thay thế.


Các ký tự không phải chữ và số và không phải latin. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hóa UTF-8 (bạn thường có thể thực hiện việc này khi lưu tệp). Như với tất cả các tệp XML, mọi giá trị dữ liệu (bao gồm cả URL) phải sử dụng mã thoát thực thể cho các ký tự được liệt kê trong bảng bên dưới. Sơ đồ trang web chỉ có thể chứa các ký tự ASCII; nó không được chứa các ký tự ASCII trên hoặc các mã điều khiển nhất định hoặc các ký tự đặc biệt như *và {}. Nếu URL sơ đồ trang web của bạn chứa những ký tự này, bạn sẽ gặp lỗi khi cố thêm nó.


Tính cách Biểu tượng Mã thoát


Ký hiệu và & &amp;


Trích dẫn đơn ' &apos;


Trích dẫn kép " &quot;


Lớn hơn > &gt;


Ít hơn < &lt;


Ngoài ra, tất cả các URL (bao gồm URL của sơ đồ trang web của bạn) phải được mã hóa để có thể đọc được bởi máy chủ web mà chúng nằm trên đó và được thoát khỏi URL. Tuy nhiên, nếu bạn đang sử dụng bất kỳ loại tập lệnh, công cụ hoặc tệp nhật ký nào để tạo URL của mình (bất kỳ thứ gì ngoại trừ việc nhập chúng bằng tay), điều này thường đã được thực hiện cho bạn. Nếu bạn gửi sơ đồ trang web của mình và bạn nhận được lỗi rằng Google không thể tìm thấy một số URL của bạn, hãy kiểm tra để đảm bảo rằng các URL của bạn tuân theo tiêu chuẩn RFC-3986 cho URI, tiêu chuẩn RFC-3987 cho IRI và tiêu chuẩn XML .




Dưới đây là ví dụ về URL sử dụng ký tự không phải ASCII ( ü), cũng như ký tự yêu cầu thực thể thoát ( &):






http://www.example.com/ümlat.html&q=name


Đây là cùng một URL, được mã hóa ISO-8859-1 (để lưu trữ trên máy chủ sử dụng mã hóa đó) và URL đã thoát:






http://www.example.com/%FCmlat.html&q=name


Đây là cùng một URL, được mã hóa UTF-8 (để lưu trữ trên máy chủ sử dụng mã hóa đó) và URL đã thoát:






http://www.example.com/%C3%BCmlat.html&q=name


Đây là cùng một URL, thực thể đã thoát:






http://www.example.com/%C3%BCmlat.html&amp;q=name


Hãy nhớ rằng sơ đồ trang web là một đề xuất cho Google về những trang bạn cho là quan trọng; Google không cam kết thu thập dữ liệu mọi URL trong sơ đồ trang web.


Google bỏ qua <priority>và đánh <changefreq>giá cao.


Google sử dụng <lastmod>giá trị nếu giá trị đó chính xác và nhất quán (ví dụ: bằng cách so sánh với lần sửa đổi cuối cùng của trang).


Vị trí của URL trong sơ đồ trang web không quan trọng ; Google không thu thập dữ liệu URL theo thứ tự mà chúng xuất hiện trong sơ đồ trang web của bạn.


Tạo sơ đồ trang web


Khi tạo sơ đồ trang web, bạn đang cho các công cụ tìm kiếm biết bạn muốn hiển thị URL nào trong kết quả tìm kiếm. Đây là các URL chuẩn . Nếu bạn có cùng một nội dung có thể truy cập được dưới các URL khác nhau, hãy chọn URL bạn thích và đưa URL đó vào sơ đồ trang web thay vì tất cả các URL dẫn đến cùng một nội dung.




Khi bạn đã quyết định đưa URL nào vào sơ đồ trang web, hãy chọn một trong các cách sau để tạo sơ đồ trang web, tùy thuộc vào kiến ​​trúc và kích thước trang web của bạn:




Hãy để CMS của bạn tạo sơ đồ trang web cho bạn .


Đối với các sơ đồ trang web có ít hơn vài chục URL, bạn có thể tạo sơ đồ trang web theo cách thủ công .


Đối với các sơ đồ trang web có hơn vài chục URL, hãy tự động tạo sơ đồ trang web .


Hãy để CMS của bạn tạo sơ đồ trang web cho bạn


Nếu bạn đang sử dụng CMS như WordPress, Wix hoặc Blogger, có thể CMS của bạn đã tạo sẵn một sơ đồ trang cho các công cụ tìm kiếm. Thử tìm kiếm thông tin về cách CMS của bạn tạo sơ đồ trang web hoặc cách tạo sơ đồ trang web nếu CMS của bạn không tự động tạo sơ đồ trang web. Ví dụ: trong trường hợp Wix, hãy tìm kiếm "sơ đồ trang web wix".




Đối với tất cả các thiết lập trang web khác, bạn sẽ cần tự tạo sơ đồ trang web.




Tạo sơ đồ trang web theo cách thủ công


Đối với các sơ đồ trang web có ít hơn vài chục URL, bạn có thể tạo sơ đồ trang web theo cách thủ công. Đối với điều này, hãy mở một trình soạn thảo văn bản như Windows Notepad hoặc Nano (Linux, MacOS) và làm theo cú pháp được mô tả trong phần Định dạng Sơ đồ trang web .




Bạn có thể tạo các sơ đồ trang web lớn hơn theo cách thủ công, nhưng đó là một quá trình tẻ nhạt.




Tự động tạo sơ đồ trang web


Đối với các sơ đồ trang web có hơn vài chục URL, bạn sẽ cần tạo sơ đồ trang web. Có nhiều công cụ khác nhau có thể tạo sơ đồ trang web . Tuy nhiên, cách tốt nhất là để phần mềm trang web của bạn tạo ra nó cho bạn. Ví dụ: bạn có thể trích xuất các URL của trang web từ cơ sở dữ liệu của trang web và sau đó xuất URL ra màn hình hoặc tệp thực trên máy chủ web của bạn. Nói chuyện với các nhà phát triển hoặc người quản lý máy chủ của bạn về giải pháp này. Nếu bạn cần nguồn cảm hứng cho mã, hãy xem bộ sưu tập cũ các trình tạo sơ đồ trang web của bên thứ ba của chúng tôi .




Hãy nhớ rằng sơ đồ trang web không được lớn hơn 50 MB . Tìm hiểu thêm về cách quản lý các sơ đồ trang web lớn .




Gửi sơ đồ trang web của bạn tới Google


Google không kiểm tra sơ đồ trang web mỗi khi một trang web được thu thập thông tin; sơ đồ trang web chỉ được kiểm tra lần đầu tiên khi chúng tôi nhận thấy nó và sau đó chỉ khi bạn ping cho chúng tôi để cho chúng tôi biết rằng nó đã thay đổi. Chỉ thông báo cho Google về sơ đồ trang web khi nó mới hoặc được cập nhật; không gửi hoặc ping các sơ đồ trang web không thay đổi nhiều lần.




Nếu bạn đã cập nhật các trang trong sơ đồ trang web, hãy đánh dấu chúng bằng <lastmod>trường. Các tệp XML khác có trường tương tự, chẳng hạn như <updated>Atom XML. Bạn cũng có thể học cách tính ngày này .




Có một số cách khác nhau để cung cấp sơ đồ trang web của bạn cho Google:




Gửi sơ đồ trang web bằng cách sử dụng báo cáo Sơ đồ trang web .


Sử dụng công cụ ping. Gửi yêu cầu GET trong trình duyệt của bạn hoặc dòng lệnh tới địa chỉ này, chỉ định URL đầy đủ của sơ đồ trang web. Đảm bảo rằng tệp sơ đồ trang web có thể truy cập được:




https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP


Thí dụ:






https://www.google.com/ping?sitemap=https://example.com/sitemap.xml


Chèn dòng sau vào bất kỳ vị trí nào trong tệp robots.txt của bạn , chỉ định đường dẫn đến sơ đồ trang web của bạn. Chúng tôi sẽ tìm thấy nó vào lần tiếp theo khi chúng tôi thu thập thông tin tệp robots.txt của bạn:




Sitemap: https://example.com/my_sitemap.xml


Sử dụng WebSub nếu bạn sử dụng Atom / RSS cho sơ đồ trang web của mình và muốn truyền phát các thay đổi của mình tới các công cụ tìm kiếm khác ngoài Google.


Khắc phục sự cố sơ đồ trang web


Xem hướng dẫn gỡ rối sơ đồ trang web .

Đăng nhận xét

Mới hơn Cũ hơn