澳大利亚一共多少笔?
这个问题我十年前遇到过,那个时候在Google刚刚退出中国,百度搜索仍然非常强劲,于是有一次和同事们讨论一个营销话题的时候,百度的结果让所有人都大跌眼镜—— 原来在中国搜索引擎市场占百分之九十以上份额的百度,竟然没有收录全部的AOL网址(Aol是美国的互联网接入服务商)!所有以http:/aol.com开头的网址全部被忽略,连起来可以绕地球两圈。当然现在这已经是个历史问题了。
同样的问题也发生在几年前Yandex的身上,作为俄罗斯最大的搜索引擎(市场份额约60%),其能够轻松获得全量的域名数据,所以Yandex的搜索质量也是非常不错的;但问题是Yandex面对的是整个俄语用户群体,而中国区的Yandex却只收录了部分简体中文字典以外的汉字,将大量繁体中文域名抛诸脑后。不过好在现在的搜索引擎都能正常地收录所有的汉字域名了。
那么为什么会出现这种情况呢?原因其实也很简单,搜索引擎对网页的评价标准主要是根据链接的数量和质量判断的。而大量的重复内容就会降低每个页面被收录的可能性。因此很多网站会想尽办法增加自己内容的独特性,比如加一些简单的排版、图片描述或者添加一些来自其他来源的内容。这样一来,即使有很多内容相似或相同的页面,也能达到目的。