谈天说地

sitemap-搜索引擎的导盲犬

本原创文章属于《Linux大棚》博客。

博客地址为http://roclinux.cn

文章作者为roc

希望您能通过捐款的方式支持Linux大棚博客的运行和发展。请见“关于捐款

==

什么是sitemap?

一般来说,有两种类型的 sitemap。

第一种类型的 sitemap 是通常按部分列出您网站网页的 HTML 网页,用于帮助用户查找所需的信息。

第二种类型的 sitemap 是XML Sitemap – 通常称为 Sitemap(使用大写 S),是您向 Google 提供有关您网站信息的一种方法。 这正是我们要在本文中讨论的 Sitemap 类型。

用最简单的话来说,Sitemap 就是您网站上网页的列表。 创建并提交 Sitemap 有助于确保 Google 知道您网站上的所有网页,包括 Google 的正常抓取过程可能无法找到的网址。

Stemap在什么时候有用?

  • 网站含动态内容。
  • 网站有不容易被 Googlebot 在抓取过程中发现的页面,如有大量富 AJAX 或 Flash 内容的页面。

  • 网站为新网站且指向网站的链接不多。 (Googlebot 会跟随链接从一个网页到另一个网页抓取网络,因此,如果您的网站没有很好地链接,我们可能很难发现它。)
  • 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。

sitemap的版本兼容问题

按照 sitemaps.org 的规定,Google 采用 Sitemap 协议 0.9。 Sitemap 协议是 XML 的变种,用于概括与网络抓取工具相关的 Sitemap 信息。 因此,使用 Sitemap 协议 0.9 专为 Google 而创建的 Sitemap 也和其他采用 sitemaps.org 标准的搜索引擎兼容。

如何创建sitemap文件

创建sitemap的方法很多。主要方法包括使用RSS/Atom供稿、使用文本文件创建sitemap、使用自创python脚本创建sitemap。我们当然主推“RSS/Atom供稿”。

Google 接受 RSS(真正简单的联合供稿)2.0 供稿和 Atom 1.0 供稿。 如果您的博客有 RSS 或 Atom 供稿,您可以将该供稿的网址作为 Sitemap 提交。 大多数博客软件会为您创建供稿。 如果您的网站没有供稿,您可以使用 Feedburner 创建并发布供稿。 注意供稿可能仅提供有关最近网址的信息。

当然,您也可以使用文本文件来创建sitemap:

一个 Sitemap 应包含一个您网站的网址(最多 50,000 个)列表。 如果您的网站很大,包含的网址超过 50,000 个,则应创建多个 Sitemap,并为它们提交一个 Sitemap 索引文件 <>.

您可以向 Google 提供纯文本文件,其中每行包含一个网址。 例如:

www.example.com/file1.html

www.example.com/file2.html

发表您的评论

请您放心,您的信息会被严格保密。必填项已标识 *