利用PDF文档劫持谷歌官方SEO入门排名指南

puppy

我想分享一个代理商的一个操作尝试,经操作,谷歌认为我们网站就是谷歌官方搜索引擎优化入门指南PDF的一个权威版本—并且把我们列到其“搜索引擎优化”目录下和数千个短语中。

Dan Sharp分享了一个案例,他所在的公司可以劫持谷歌官方搜索引擎优化(SEO)入门指南的排名。让我们看一下他们是如何操作的吧。


robots.txt没有拦截任何内容,其他内容可以检索,并且也没有和

canonicals、网页上的内容以及HTTP header内部有直接的冲突。


谷歌曾表明无论是302临时重定向还是301永久重定向,网页排名的结果都差不多,这其中真正起作用的是检索了什么样的URL,在搜索结果中又是什么样的URL。所以,理论上应该检索原始的URL和排名,但是这并不是重点。


因为每一种重定向都用相似的方法传递PageRank,Gary Illyes说301有助于规范化。


@ AndyNRodgers 重定向传送都是一样的,但是301有助于规范化@ JohnMu


---- GaryIllyes ?(? )? (@methode) 2016年8月5日


我们从以前的实验中知道,相同的内容可能被劫持,但通常由更权威的网站取代。 Google的SEO入门指南有大约2,100个链接根域名指向原始URL,另外重定向目标有485个(HTTP/HTTPS相结合的协议),所以这是一个可见度很高的强大网页。


入门指导也在Google.com上,且享有极高的声誉。目标还是要占据独立的域名。


很明显,Screaming Frog 并没有像谷歌那么权威,但是由于以上提到的问题,不少名不见经传的网站已经提前代替了他们。


试验


我们打算进行一次短期的试验,只把谷歌SEO入门指导上传到我们的域名。然后我们就通过谷歌搜索控制台提交并被收录,随之放置不管。


一周以后,我们发现我们已经劫持了谷歌自己的排名(由于我们的权威性更高,以前所有黑客都没有做到这一点),因为谷歌的算法似乎相信我们就是他本身内容的一部分。我们的URL出现在info: 和 cache:命令查询结果中。



我们劫持了谷歌官网该文档的排名


我们已经劫持了黑客,也劫持了谷歌。



劫持后的排名情况


虽然我们是英国的网址,但是在美国,我们的“搜索引擎优化”从50名开外,一跃成为第四,“SEO”也进入了前十名。



英国的网址,美国搜索的排名也提升了


在PDF排名中,“谷歌SEO”,“谷歌SEO指导”,“www goolgle com ”以及谷歌其他的关键词都是可见的了。



SEO入门指南相关的关键词排名也提升了


在美国和英国其他的PDF排名中,我们可以看到他们对SEMrush的喜爱(以下专门截屏展示美国的结果)


并且,Sistrix还强调了我们有意制造,突然冒出来的这个“新的”关键词。


谷歌站长工具记录了接近800k展现量的PDF,尤其近四天的情况。



谷歌站长工具记录了这种变化


我们在推特上公布以后,该实验得到了广泛关注。


因此在接下来的一段时间里,我们持续关注谷歌,看看他是否会改正索引、改变规范化和排名。48小时以后,我们注意到谷歌官方的搜索引擎优化指南开始出现在排名里,先前没有检索结果现在就能检索到了(同时出现在site:命令查询结果中)。


之后我们还发现谷歌给PDF原始的URL增加了一个HTTP canonical,以此帮助其被正确收录。


但是,我们的内容仍然在info:查询结果中出现,并且还有排名。这也就是说两个指南都在搜索结果中,并且我们的网址排名还在谷歌之上。




我们的排名仍然在谷歌官方该文档的排名之上


我们希望这件事情有所改变---谷歌官方作为权威排名而我们的网页退出排名。接下来五天里,我们的网页仍然和谷歌一起出现在搜索结果里,并且有着上千的访问量。之后我们的PDF就消失了,我们迅速地终止了此次试验。


反思


首先,我们没有推荐其他人乱七八糟的信息。这并不是一个可行的策略技巧来获得靠前的排名,这仅仅是一个与众不同的有趣的个案研究。我们很难就此进行总结,因为我们没办法确定是不是还有其他未知的可能影响操作的因素。


我们有不少理论和想法,在这里以三点做为总结。


1.并不(完全)与关302重定向有关


我们以为根本原因是302重定向,我们都知道谷歌坚信302重定向的使用没有什么问题。我们觉得文件托管方式难以脱开干系。


经过一段时间,我们发现URL另外一些怪异的现象(根据Accept-Language header提供的有价值的信息),并且在HTTPS中,规范化没有正确使用。


2.使用规范


使用canonicals规范来帮助提升收录是非常明智的。只要谷歌更新PDF的HTTP规范,将其改为一个单独的URL,就可以检索到。


使用crawler就可以爬取你的网站中缺失canonical的链接,也可以爬取 HTTP header中的canonical 的链接。


对PDF和文档来说,你可以很轻松的设置一个诸如HTTP canonical using .htaccess文件。


3.尽管发生几率不大,但是劫持还是有可能的


特定情况下,一个网页的排名会让内容完全一样的域名劫持,比如indexation出现问题,或是成为一个更专业的来源。大体来说可能性不大,但是,在原始来源排名这个问题上,谷歌还是需要做一些改进的。

标签: 搜索引擎优化


puppy

官方运营-Sean丶♥

5231 SEO文章

评论