看到很多地方有朋友问过,在禁止任何抓取的情况下,还是会出现快照,当时猜测是因为外链的描述和链接文字,后来百度站长俱乐部里面也证实过,当一个站点根目录写了robot.txt禁止了所有搜索引擎收录任何页面,比如
t.qq.com/robots.txt:
User-agent: *
Disallow: /
这种情况下,百度还是会出现快照,原因是,众多的站点指着这个url说,他是**(key),他的住址是**(url),他的简介是**(url title or附近的文字),这种案例最好的例子是之前的淘宝和百度开战期间淘宝来回数次屏蔽百度很长时间,但是快照任何时间都存在:
http://www.taobao.com/robots.txt :
User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
micblog url:Tencent mic blog微博互听 (Tan_的微博url 和官方微博url)
在正常的链接上面加了title,记得这得靠一定数量的反链才能达到预期效果,先加2个链接试试,当然这个成功率只有1/19w。先保密实验ing…但是为了2分钟后看快照得出实验结果,还是得把锁定文章改成草稿文章。
案例续1、
http://www.google.com/search?q=site:http://t.qq.com/&hl=en&filter=0

接下来选其中2条反链较少的分析:

既然雅虎反链有,那么肯定在search.yahoo.com能找到快照。不幸的是快照中发现现在大家都没有用超链接里面的title属性了,应该是第2种情况造成的谷歌快照,最后,还是一直的相信自己的猜测,robots文件只是阻止se放出抓取的快照,而不是禁止抓取,所以这也是解释文章开头那个问题的又一条论证,期待有朋友提出反面证据。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。