东莞网站优化
联系电话:0769-33896899      13412461466 宋先生

提高全栖运营网站的抓取率的方法有哪些

发布时间:2018-05-24 17:15    来源:http://www.7s-seo.com/    作者:启源信息科技    点击次数:

  对于搜索引擎而言,爬虫效率的一个重要评价标准就是爬虫开销。浅析提高全栖运营网站的抓取率的方法有哪些?

Dasgupta等人将爬虫开销定义为:爬虫开销=重复抓取的老页面数/发掘的新页面数。那么,爬虫的抓取频率以及效率该如何优化呢?下面进行具体介绍。

首先,以robots.txt命名的文本文件是个很强的利器,当网站上拥有重复内容、无内容且无意义页面等类似内容的时候,就可以果断地用robots.txt屏蔽掉。这里需要注意:robots.txt文件可以用通配符书写,书写是比较自由的。建议把xml格式的sitemap路径放在robots.txt文件中,供搜索引擎寻找。

其次,当需要合理地、有效率地下载一个网站时,设置参数nofollow,可以让百度搜索引擎不抓取页面上的所有链接。在robots.txt文件中添加rel=“noindex”语句,不能阻止百度爬虫抓取,因为noindex参数可以让搜索引擎不把当前网页置入索引库,但是页面上所有的链接,爬虫都会去分析。若要屏蔽链接,要加上nofollow参数。

总之,提高爬虫的抓取效率在SEO之中是一件比较重要的事情,尤其对于中大型网站而言,应该将大部分精力放在让爬虫抓取更多更准的页面上,而不是让它抓到无意义的页面。

 
东莞网站优化 东莞网站优化 QQ咨询
东莞网站优化 东莞网站优化 官方微信
东莞网站优化 关注微信
东莞网站优化 东莞网站优化 联系电话
0769-33896899
东莞网站优化 东莞网站优化 预约上门