置顶

如何创建��交网站Sitemap地图

作者:zuozuo | 分类:谷歌SEO | 浏览:112 | 日期:2022年10月24日

创建网站Sitemap地图

如�没有导航,�一个�熟悉的地方开车那是一件�常困难的事情,�样��,如�没有Sitemap,�索引�蜘蛛�到你的网站也会迷路。

�过创建和�交 XML 网站地图并���。让我们一起�看看,关�Sitemap,我们需�了解哪些事情�

什么是网站地图?

网站地图是一个 XML 文件,用�罗列网站上的��内容。任何你希望能够出�在�索引�的页�或文件都应该出�在网站地图中。

你需�了解:网站地图�能罗列超过 50,000 个 URL,且体积必须在 50mb 以下(百度�索资�平��求�个XML文件�能大�10MB,并且�支�索引�Sitemap)。如�你的网站地图超出其中任一指标,你就需�多创建几个了。

XML 网站地图的形�是�样的?

XML 网站地图是为�索引�——而�是用户——创建的。说白了,就是一堆�索引��读的代�,而�是用户�读的内容。

<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">  <url>    <loc>https://ww.wbolt.com/</loc>    <lastmod>2019-08-21T16:12:20+03:00</lastmod>  </url>  <url>    <loc>https://www.wbolt.com/themes/</loc>    <lastmod>2019-07-31T07:56:12+03:00</lastmod>  </url></urlset>

我们�步展开对这个XML文件进行说�。

XML 声�
<?xml version="1.0" encoding="UTF-8"?>

这则片段会告诉�索引�他们在抓�的是一个 XML 文件。�时这也声�了 XML 的版本和所用的字符编�。对�网站地图�说,版本应该为 1.0,编�必须为 UTF‑8。

URL 组
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

这个容器包�了网站地图中所有的 URL。�时它还会告诉网络爬虫应该使用何��议标准。大多数网站地图会指定使用 0.90 的�议标准,包括 Google�百度�Yahoo! 和微软在内的�类�索引�都支�该标准。

URL
<url><loc>https://www.wbolt.com/</loc><lastmod>2019-08-21T16:12:20+03:00</lastmod></url>

这是�个 URL 的父标签。你必须在一个嵌套的标签 <loc> 中指定 URL 的�置。这些 URL 必须是�对的——而�相对的——��链�。

尽管该标签是这里唯一的强制标签,你还�以使用一些�选的�性:

<lastmod>: 用�声�文件最�一次修改的时间。其格�必须符� W3C Datetime 格�。例如你在 2019 年 9 月 25 日更新了�篇帖文,该�性应为 2019–09-25。你还�以在其中指定时间,但这�是强制的。<priority>: 用�指�该 URL 较网站其他 URL 的优先级。数值在 0.0 到 1.0 之间。数值越高表�越��。<changefreq>: 用�指�该页��能更新的频�。它的作用是告诉�索引�应该多久�头抓�一次这个 URL。它的值�以是总是���时��天和�周。

这些�选的标签对 SEO �说并没有那么��。

说到  <lastmod> 标签,Google 的 Gary Ilyes 曾�表示他们会无视这个标签,因为“站长在��这个标签数�的准确性方��得太差了。� 大多数的网站地图生�器都会将所有页�的日期设置�当�日期,而�是该页�上次被编辑的日期。�因显而易�。

至� <priority>标签,Google 曾表示,因为这些标签会带�“大�噪音(干扰性)�,所以他们会选择无视。

而<changefreq>标签,John Mueller 指出“优先级和改动频�已�退出网站地图的��了。�

为什么需�网站地图?

�索引�通过爬行网站��索新的内容。当�索引�的爬虫爬行�个页�时,他们会�时关注页�的内外链。当他们���个 URL �在索引中时,就会试图解�其中的内容,并在适当的�置索引他们。

但是�索引�无法通过这�方�找到所有的内容。如��个页�没有�自其他页�的链�,那么�索引�就没有�法找到这些页�。

这个时候网站地图就�以�挥作用了。

网站地图�以告诉 Google�百度以�其他�索引�应该�网站的哪些�置寻找最��的页�,这样爬虫就�以抓�并索引它们。这很��因为引��有事先索引了你的页�,��以对它进行��。

如何创建网站地图

部分内容管�系统�以帮你生�网站地图。当你�网站添加或移除页�的时候,这些网站地图会自动更新。如�你的内容管�系统本身�自带这个功能,那么通常情况下会有相关的�件�以�到。

在 WordPress 中创建网站地图

�使 WordPress 驱动了全� 34.5% 的网站,然而它��会为你自动生�网站地图。你�以借助 Yoast SEO 或者 Smart SEO Tool 这样的�件�生�网站地图。

�安装 Smart SEO Tool,首先登录 WordPres ��。

�次进入�件>安装�件:

add new plugin wordpress WP�件安装入�

�索 Smart SEO Tool。

点击�在安装然��用:

yoast seo search Smart SEO Tool�件�索安装

�往�件设置页� > Sitemap生�,确�“Sitemap生��开关处�打开状�。如�你�将Sitemap更新��至谷歌或者Bing,�以�时�用这两个�索引�的通知开关,如下图所示:

xml sitemap yoast Smart SEO Tool网站地图生��通知

你还�以对Sitemap地图的内容进行设置,比如首页�文章�分类目录�标签等等,你�需�设置优先级�更改频��开关��(谷歌�能对这些�数�太感冒,如��所述)。

Smart SEO Tool网站地图结�

设置这些之�,你�以点击�下角的“�存设置�按钮��生�Sitemap。如下图所示:

Smart SEO Tool网站地图�地图清�

注:为什么�生�一堆�sitemap清�,因为百度�支�索引�Sitemap,必须�个�交�Sitemap,具体�考“�索引�Sitemap地��交�一文。

�在你应该�以通过 yourdomain.com/sitemap.xml 查看网站地图(或者网站地图的索引)了。

ahrefs sitemap 标准XML网站地图

yoast noindex post

���示. �有当你�想��些页�出�在�索结�中时,��网站地图中移除他们。�时Sitemap地图的URL地��应该�Robots.txt的规则有冲�。

在 Wix 中创建网站地图

Wix 会自动为网站创建网站地图。你�以通过访问 yourwixsite.com/sitemap.xml 找到它。

�幸的是,对�网站地图包�哪些页�,�包�哪些页�,你并没有太多�制。如�你想��除�个页�,就�往该页�的的“SEO (Google)�设置��并关闭“在�索结�中展示该页��(“Show this page in search results�)选项。

wix noindex Wix网站地图

注�这样会给该页�加入一个 noindex 元标签,它就�会显示在�索结�中了。

��示. 如�你在 Wix 将�个 URL��化,它并�会�网站地图中消失。尽管这对大多数用户�说无关紧�,但是记�在网站地图中包���页�并�是最好的�法,这样�会� Google ��混淆的信�。

在 Squarespace 中创建网站地图

Squarespace 也会自动创建网站地图。你�以在 yoursquarespacesite.com/sitemap.xml 中找到它。

在 Squarespace 中你没有�法手动编辑网站地图,但是你�以在“SEO�标签中将那些无需索引的页��除。

seo squarespace Squarespace网站地图

这样他们也会�你的网站地图中消失。

在 Shopify 中创建网站地图

Shopify 会自动生�网站地图,地�为 youtstore.com/sitemap.xml。

然而,想�在 Shopify 中�将一些页��除在索引之外没那么简�。你必须直�编辑 .liquid 文件。

�使用内容管�系统创建网站地图

如�你网站的页��足 300 个,�以安装�费版的 Screaming Frog。

安装完��,�往 模�(Mode)> 爬虫(Spider)。

将你首页的 URL 粘贴进标有“�抓虫�供 URL�(“Enter URL to spider�)的文本框内。

点击“开始�(“Start�)。

screaming frog sitemap Screaming Frog网站爬�

��示. 确�你使用了网站首页的��(主�)版本。如如�使用了其他版本,Screaming Frog 将�会的抓�一个 URL。

抓�任务结��,查看�幕的�下角。会看到下图所示的信�:

sf total scrape Screaming Frog爬�页�进度

如�数���等� 499,就�以�到网站地图(Sitemaps)> XML 网站地图(XML sitemap)。

因为 Google 基本会忽略<lastmod>, <changefreq>, 和<priority>,我们建议将这些片断�除出网站地图文件。

screaming frog sitemap settings Screaming Frog生�网站地图

点击“下一步�并将网站地图�存到本地。完�。

若数�显示为“500 of 500�,就没有必�将网站地图导入了。为什么?因为这�味� Screaming Frog 在抓�到网站的所有页�之�已�达到了数�上�。亦�此时导出的网站地图中�能会�失数百个页�——这样就没有�义了。

有一�解决�法是寻找�费的网站地图生�器。这样的工具有很多。

�惜的是,他们中的大部分都很���。

我们测试了许多�行的网站地图生�工具,��其中的大部分包�了���的 URL,无需索引的页�以��定�。这是�常糟糕的 SEO �践。

生�工具包����的URLs?包�无需索引的URLs?包��定�(301 redirects)?
xml-sitemaps.comYes �No ✅No ✅
web-site-map.comYes �No ✅No ✅
xmlsitemapgenerator.orgYes �No ✅No ✅
smallseotools.com/xml-sitemap-generatorYes �Yes �Yes �
freesitemapgenerator.comYes �Yes �Yes �
duplichecker.com/xml-sitemap-generator.phpYes �Yes �Yes �
xsitemap.comYes �Yes �Yes �

那么应该如何解决呢?

如� Screaming Frog 未能�功抓�整个网站,�以使用 Ahrefs 的网站诊断(Site Audit)工具。

��示. 验�你的网站�,抓�速度会�快。

一旦抓�完�,�以�往页�分�(Page Explorer)��,添加以下过滤�件。

页�分�

点击导出(Export)> 当�表格视图(Current table view)。

打开 CSV 文件,��将 URL 一�中的所有链��制粘贴到这个工具中。

点击“加入队列�(“Add to queue�),然��点击“将队列导出为 sitemap.xml�(“Export queue as sitemap.xml�)。

这个导出的文件就是完整版的网站地图了。

如何� Google �交网站地图

首先,你需�知�网站地图的�置。

如�你使用了�件,那么很有�能网站地图会存放在 domain.com/sitemap.xml。

如�你的网站地图是手动生�的,那么请将它命�为类似 sitemap.xml 这样的文件�,然�上传到网站根目录。这样你就�以通过 domain.com/sitemap.xml �访问它了。

��示. 当然你也�以自由选择网站地图的文件�,但最好还是��用 sitemap.xml。当你有多个网站地图的时候,�以使用 sitemap_1.xml,sitemap_2.xml 这样的模�。

���到 Google 站长工具(Google Search Console)> 网站地图(Sitemaps)> 粘贴网站地图的地� > 点击“�交�(“Submit�)

谷歌站长工具Sitemap�交 sitemap search console

这样就�以了。

�示

把网站地图的 URL 添加到robots.txt文件上也是一��错的�践。

你�以在网站�务器的根目标找到这个文件。�在其中加入网站地图,�需�打开该文件,并将以下这行粘贴进�:

Sitemap: https://www.yourdomain.com/sitemap.xml

记得将上�的示例 URL ��你自己网站地图的网�。

如�你有多个网站地图,�需�批�将他们加入。

Sitemap: https://www.asos.com/sitemap_1.xmlSitemap: https://www.asos.com/sitemap_2.xml

如�你�将Sitemap网站地图�交至其他�索引�,�以阅读以下文章:

百度�索资�平�之�索引�Sitemap地��交如何添加Sitemap地图到Bing网站管�工具如何通过Sitemap�交数�给头��索如何添加Sitemap地图到360站长平�修�影�网站地图的错误

Google 站长工具�以告诉你�网站地图相关的大多数技术错误。

比如,在以下的例�中,我们�交的一个 URL 被 robots.txt文件�蔽了,Google 站长工具给出了警告:

submitted url blocked by robots robots.txt拦截爬�

点击此处,你�以了解这些问题的更多信�,以�如何修�他们。

�虽如此,有一些问题并�在 Google 站长工具的警告之列。

以下我们罗列出了一些更常�的问题,以�如何修�他们。

网站地图包�无用的��质�的页�

网站地图中的�一个页�都必须是索引的��版本。

然而,这并��味�所有页�都是高质�的。如�你的网站内容较多,那么一些�质�的页�就有�能混入你的网站地图。

例如,我们�看一下�电商网站的这两个页�。 ecommerce 2

ecommerce 2 1 ecommerce电商网站无内容页�

ecommerce电商网站无内容页�2

他们对�索用户�说没有任何价值,��然出�在了这个网站的网站地图中,Google 也索引了这两个页�。

indexed near duplicate 2 谷歌�索��内容索引 谷歌�索��内容索引02

indexed near duplicate 1

�找出这些页�,�以�往网站诊断(Site Audit)> ��内容 (Duplicate Content)

你需�找出那些��的或者准��的没有��版本的页�。他们在 Ahrefs 中会以橙色方框表示。点击其中的�个�以看到存在该类问题的所有页�。

��内容页�分�

查看这些页�,看他们是�有价值。

网站包��质�页��常�好,主�有以下三个�因:

他们浪费了抓�的��。让�索引�浪费时间和资��抓�无用的���的页�是很��想的。他们应该花时间�抓�那些更��的页�。(声�,Google 表示“大部分内容�布者都无需担心�抓���。)他们��了更��的页�的链���度。页�的��度和他们的��有�清晰的关系。指��质�页�的内链�会稀释那些本�以��更��的页�的��度。他们会导致糟糕的用户体验。这些页�的访客无法�中��任何价值。点击这些页�对�访客�说是�人的,如�网站因此得到了�质�和无人看管的�声,那么最�访客很有�能跳出。

总体�说,最好的行动方案是�网站和网站地图中先�移除�质�的内容。如�你正在开展这项工作,那么��忘了�指�那些页�的内部链�也一并删除。�则,你会把一个问题(�质�页�)���外一个问题(无效链�)。

除了��和�近��的内容,你还应该把那些�薄的内容找出�。

查看网站诊断��中的“页��(“On page�)报告,注�那些带有“字数较少�(“Low word count�)警告的页�。

low word count pages 字数较少页�统计

�外地被�除在网站地图外的页�

如�你按照上文中��的��方法创建了网站地图,那么带有 noindex 或者��标签(�自我�照)的页�则�会被包�在内。

这是一件好事。你的网站地图�应该包���链�或者无需索引的页�。

�虽如此,如�你网站包�了粗制烂造的 noindex 标签,页��能会�外地被�除在外。

你�以�往网站诊断��的“�索引性�(“Indexibility�)报告并点击“Noindex 页��警告,就�以看到所有没有被索引的页�。

noindex pages 未索引页�统计数�

这些页�中的大部分�能都是被有��除的,但是�然有必�好好�览这个列表,仔细检查。粗制烂造的 noindex 标签很容易被��,因为他们会贯穿网站的�一分部。

如�你��了�应该被�除的页�,那就应该�页�中移除 noindex 标签,并将这个页�(的链�)加入网站地图。如�你使用了内容管�系统或者�件,那么第二步会自动�生。

专业�示

除此之外还有必��查看武断的��标签和�定�。为此,你需��往页�分�(Page Explorer)��并加入以下过滤�件。

规范页�分�

查看武断的��标签。

�定�URL页�分�

查看武断的�定�。

删除所有武断的��标签和�定�,并将�其影�的页�(链�)添加进网站地图。

常�问题

以下是对一些关�网站地图常�问题的解答。如�你还有其他问题,请告诉我们,我们会把他们(��答案)添加进�。

加速移动页�(AMP)需�网站地图�?

�需�。

@Kfowler325 No need for sitemaps for AMP pages — the rel=amphtml link is enough for us.
— � John � (@JohnMu) 13 October 2016

如何为电商网站创建网站地图?

为电商网站添加网站地图的�作和其他网站一样。�虽如此,考虑到分�导航在电商网站中的普�度, 大�的��和准��页��常会�为�网之鱼,需�仔细检查。

结语

创建网站地图并�是很��的事情,尤其是当你�以借助�件�完���步骤的时候。�无到有创建网站地图也没有很难——抓�你的网站页�并为 URL 结�列表设置�适的格���。

�虽这样说,�常��的一点是你�记得 Google 并�是一定�索引你的网站地图中的页�。并且网站地图和网站��没有什么关系。

如�你想知�如何在 Google 中�得高��,�以看看这篇文章。

除了通过Sitemap地图�交数�至�索引�之外,我们还应该利用一些��API或这JS�时��URL数�,这一点�索��管��件�以帮到你。

(via ahrefs.com 译者:Alex Wang, Not Soup Yet 创始人)

发表评论

取消
微信二维码
支付宝二维码