对于SEO站长,经常会使用百度站长平台的抓取诊断工具,主要作用是以百度蜘蛛的角度去分析网站的内容,判断百度蜘蛛的抓取情况,解决了百度蜘蛛与seo站长们眼中内容是否一致的问题。如果经常出现抓取失败,那会大大的影响网站的正常收录,下面笔者来分析一下百度抓取诊断失败的原因有哪些。
1. 301或302重定向设置错误
301重定向是指百度蜘蛛访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。
2. 网站访问速度
状态码是200,但是抓取诊断就一直显示抓取中,没有反馈任何结果,这是由于服务器的线路不同,百度蜘蛛抓取的速度可能发生延时,就会产生明明可以正常访问,却出现抓取失败的情况。一般遇到这种情况需要定期检测服务器各地访问速度,优化网站的打开访问速度。
3. robots.txt封禁
在抓取诊断工具中如果返回的抓取失败,请确认你是否对该网站设置了robots.txt封禁,阻止百度蜘蛛抓取网站的某些内容,如果你未使用robots.txt文件屏蔽百度,请点击旁边的报错链接,百度会立即更新你网站的robots信息;如果是你的误操作导致了robots.txt封禁,请及时修改robots文件,避免造成你的网站在百度收录量影响。
4. DNS错误问题
DNS错误是指由于服务器停止运行或DNS到你网域的路由存在问题,导致百度蜘蛛无法与DNS服务器通信。对于持续的或反复出现的DNS错误,请与你的DNS提供商联系处理。通常情况下,你的DNS提供商即为网站服务器托管服务提供商,配置你的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。
5. 404错误
一般情况下,当百度蜘蛛访问到不存在的网页(因为你删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码),404错误也会导致抓取失败。
6. 访问遭拒绝
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度蜘蛛必须能够访问某个网页才能抓取该网页。如果你意外地看到了“访问遭拒”的错误,可能是由于以下几种原因导致的:
(1)百度spider无法访问您网站上的网址,因为你网站上的所有或部分内容要求用户登录后才能查看。
(2)你的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度蜘蛛访问你的网站。
总结:百度站长工具抓取诊断失败的原因还有很多,以上笔者分析了一些常见的,提供给大家参考,需要逐一排除找出原因。