专用提供外贸网站建设、外贸SEO,SNS推广等服务,如果需要请加我 QQ: 582099624,电话:13838810579网站地图

robots怎么写:蜘蛛协议robots.txt写法实例详解

外贸网站建设 Rank name 评论

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件(其实UTF-8也没任何问题),它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件(其实UTF-8也没任何问题),它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

为什么一定要写好robots.txt?

有一条蜘蛛抓取网站的基本规律,或许绝大多数的SEO同仁们并不了解,希望 可以帮助到更多同行:作为一个文本爬虫协议,搜索引擎每次发起对网站的抓取,它首先会试图抓取robots.txt,如查robots文件存在,它会试图理解遵循相应规则。对于绝大多数网站优化案例来讲,一个优秀的robots.txt至少可以在三个方面帮助你的网站:

1. 过滤无效蜘蛛程序。比如:对一个中文网站SEO而言,YAHOO并不能带给你什么流量。但是,雅虎蜘蛛却是较为活跃,站长可以在robots.txt里将其过滤禁止其抓取网站。这样可以节省你的带宽支出,并提升服务器性能。

      2. 禁止 某个或某类蜘蛛的无效抓取。蜘蛛程序总是能通过你网页的链接、HTML代码的文件引用抓取到大量对搜索引擎排名没有任何价值的页面,那么SEO站长们可以将这些URL规则加入到Disallo清单里。这样做会带来两个好处:其一,如同上一条,减少蜘蛛程序的无效抓取,可以节省带宽和提升服务器性能;其二,绝大多数搜索引擎在抓取一个网站时,会有一个按天计划的“抓取预算”,比如百度站长资源平台将其称为“抓取频次”。我们减少搜索引擎的无效抓取,更充分的利用有限的抓取预算,让蜘蛛抓取到更多更有价值的页面。

3. 通过robots.txt申明SITEMAPS地址。虽然有专职团队或者人员进行SEO操作的网站,我们通常会通过各搜索引擎站长平台手动提交SITEMAP。但是,将SITEMAP地址申明在robots.txt中,它同时对所有搜索引擎生效,而且多一个提升网站地图的渠道,只可能更有益处。

举例说明robots正确写法:

1. robots.txt文件必需小写。注意:搜索引擎是对大小写敏感的。和其他网址一样,robots.txt 文件的网址也区分大小写。

2. robots.txt 文件位置:robots.txt文件必须位于主机的顶级目录中,可通过适当的协议和端口号进行访问。如robots文件访问路径为:<#ZC_BLOG_HOST#>robots.txt 。

3. 用user-agent指定为某个爬虫限定规则。如:“user-agent: *”表示针对所有爬虫,“user-agent: GoogleBot”表示该行以下的爬虫抓取规则针对GoogleBot。