这个帖子是2014年某站长发的,当时此站长很苦恼,回复里有很多“专家”没有实际测试就很肯定的说是此站长问题,而不是百度蜘蛛问题。这也印证了很多人没实际经验,套用网上老套的东西眼高手低,张口就来。更可笑的是下面这个图
百度官方给某大拿所谓的正确回复点赞了。
前因到此结束,下面来分析此漏洞
经过几个月多个域名测试,百度蜘蛛确实会乱抓网站,id混乱,一篇文章在a目录下,他却还要抓别的目录下有没有相同id文章。百度蜘蛛明显有自动抓取连续ID的情况.
简单解释: 一篇文章链接为 域名/栏目1/1.html,百度蜘蛛除了抓取该链接外还抓取域名/栏目2/1.html , 域名/栏目3/1.html.....你有多少栏目蜘蛛就抓取多少个不同栏目 id相同的链接、
看懂的看下一步,bug的利用
第一步:利用cms把文章命名规则改成独一无二的目录,也就是一篇文章一个目录,例如:a/1.html ,b/2.html,以此类推。假如有1万篇文章就会存在1万个目录。文章越多抓取频次越高。
第二步:把所有百度抓取不存在的404页面随机301重定向到你的其他网站的没收录的高质量页面。
第三步:坐等百度蜘蛛抓取目标站,等收录、
后文:希望各位站长做seo一定要自己亲自测试,不要眼高手低,认为别人提出的问题都是简单问题,自己没测试没见过的事情不要妄下结论。这和做人一个道理,搞技术的一定要严谨,做人一定得谦虚。
转载自《百度站长社区:干货:提高百度每天抓取频次到300万的方法》和《为什么搜索引擎不收录你的原创文章》
本文地址: http://www.5118.link/article/xjs951vc6h72d346zybw.html