更新时间:2023-01-31T15:27:11 / 浏览:
次
如何提高蜘蛛爬取量以及高价值url被蜘蛛发现技巧
一.以下是高价值网址的发现
主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。为什么说高价值url而不是高价值内容呢?主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。
二.以下则是可以提高蜘蛛抓取的策略。
1.目录树增加蜘蛛爬取
站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。
2.页面相关性增加抓取
页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。
本文地址:
http://www.5118.link/article/86535630b0a115cc2dfb.html
上一篇:使用python修改world文件内容并保证格式不...
下一篇:2023年百度谷歌360搜索搜狗必应bing蜘蛛IP...