|
这几天因为刚刚开始推www.yici.net这个网站,所以对baidu收录数据比较有兴趣,结果发现一个有趣的现象,这里拿出来给大家参考一下。
首先,打开www.baidu.com(废话!),然后输入:site:www.yici.net,(这是搜索引擎通邮的搜索格式,表示仅搜索www.yici.net域名下所有资源,一般意义上的SEO数据查询的搜索引擎收录数据就是指这个了)
得到如图所示结果:

晕……我全站收录文章还不足2580,怎么百度能把我收录到2580页呢?
活见鬼了~
往下看……

页码的角度看,也没有问题,百度的搜索结果都是前10页,这样也是为了搜索引擎的系统资源不要太浪费。再往后的搜索结果,要点击第10页,然后后面会继续出现11-20页的页码,依此类推。
ok,咱点击,抓一个整页~

看出什么来了?
没错!实际上百度只收录了11页就没有了~
根据这个整页的现实格式,很容易看出来,百度的搜索结果是每页现实10条搜索结果。
那么11页,也就是搜索结果不会大于11×10=110个结果

我们点击第11页,发现第11页实际只有5条搜索结果,也就是百度实际共收录www.yici.net的记录数为10×10+5=105条~
呵呵
和百度标示的2580条记录差距有点大阿~直接就是25倍的差距噢~~~
回到页面顶部,我们再看看右上角的数据~怪异……居然是………………

看见了吗?是273页~
又是个奇怪的数据,不过还是达到了105条实际搜索记录的2.6倍噢~~
结论:
根据我的同类试验,google也有类似数据不准确的现象,但是差距很小,就是1%-2%的差距
依据我个人5年的ASP程序经验,应该是记录数的算法有问题。因为为了节约系统资源,通常搜索记录的条目数都不是真的即时count出来的,一般都是有个估算算法之类的模糊数据。不过百度这么强的技术实力,数据差距这么大,也确实有点……
呵呵
其实这样的数据最大的好处就是:
个人站长认为自己网站被收录N条,空欢喜一场;百度“貌似”真的“肚”很大,装的数据N多,实际……
嘿嘿
再想回来,我对搜索引擎动不动收录NNN亿条信息的宣传数据也不怎么相信了……谁回去数呢?
呵呵………………
最后废话一句送给广大站长朋友:脚踏实地~好好做网站~SEO的数据,只是一个互联网时代的游戏而已~
相关资料:本文作于2006.10.17 9:00,希望百度的技术人员看到本文后可以尽快完善百度的搜索引擎。也算我的小小研究为百度的完善起了一丝作用~*^_^* |