新网站 Robots 和 SiteMap 优化

什么是Robots

robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:

不要访问某个文件、文件夹
禁止某些爬虫的访问
限制爬虫访问网站的频率

一个自觉且善意的爬虫,应该在抓取网页之前,先阅读robots.txt,了解并执行网站管理者制定的爬虫规则。

也就是说 对于爬虫来说,爬取你的个人网站,第一件事是读取你的robots.txt文件

格式

User-agent: 爬虫的名称
Disallow: 不允许爬虫访问的地址
Allow: 允许爬虫访问的地址
若User-agent是*,则表示对象是所有爬虫。

Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。

那么我们就可以规定robots中的内容了


 
  User-agent: * # 注意这里指的是 针对所有的搜索引擎
  Disallow: /assets/* # 这里是针对爬虫 不允许访问的目录
   
  # 以下是 网站地图 告诉爬虫 那些页面可以爬 提高网站的收录率
  Sitemap: https://www.arcinbj.com/sitemap.xml
  Sitemap: https://www.arcinbj.com/sitemap.txt

推荐Robots一键生成工具

http://tool.chinaz.com/robots/

robots-1

什么是SiteMap

我们都知道百度地图是用来方便人们出行的,同样的道理,网站地图是用来方便搜索引擎蜘蛛出行的。
网站地图就是一个包含网站大量页面链接的聚合页面,一般的中小型网站地图比较简单,就是全站链接的集合页。但在制作大中型网站的网站地图通常会有链接等级机构,层次分明。

很多人可能会问,为什么要网站地图?
因为在网站不断的内容更新维护中,会产生大量的页面链接,链接结构也会越来越复杂。

搜索引擎面对不同网站的抓取速度是不一样的,一般针对低权重的网站,抓取速度越慢,如果依靠自然抓取的话,抓取到深层次的链接是非常慢的,周期太长,不适合做SEO优化。

因此,网站地图就诞生了,网站地图包含了网站所有重要链接或者需要向搜索引擎展示的链接。网站地图一般存放在根目录下并命名为sitemap,常见的有两种格式:sitemap.xml、sitemap.html。

一般站长们会在robots协议文件中加入网站地图的路径,因为robots协议文件是蜘蛛访问网站第一个访问的文件。这样做也会加快搜索引擎对网站的抓取周期。

sitemap.txt 规范
  1. 一行一个网站链接
  2. 新连接倒序放置

sitemap-1

sitemap.xml 规范
  1. xml格式 一对标签一个网站
  2. 新连接倒序放置
  3. xml中priority为网站爬取权重,告诉爬虫优先爬哪个

sitemap-2

推荐SiteMap一键生成工具

http://tools.bugscaner.com/sitemapspider

sitemap-3

sitemap-4

sitemap-5

关注我们

编辑:Parker

来源:OPSLI 快速开发平台

发布时间:2019-12-09 18:08:46

文章地址:/news/9.html