博客搜索引擎索引博文数量分析与评估
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估
CopyMiddle:张俊林
TimeStamp:2007/1/25
我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。
调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索
示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
李湘 黄健翔 研究生 大学 李宇春
5000数据: 5 80 53 452 25
百度: 45000 103000 608000 905,000 168,000
奇虎: 34775 83886 456969 4,233,610 102,117
souyo: 1434 1581 10060 121149 3032
有道: 11600 30200 130100 107万 3万7800
估算结果:
1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
排序:百度》奇虎》有道》souyo
奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。
博客搜索引擎索引博文数量分析与评估相关推荐
- 关于CSDN, cnblog, iteye和51cto四个博客网站的比较与分析
CSDN:http://blog.csdn.net/ cnblog: http://www.cnblogs.com/ iteye: http://www.iteye.com/blogs/ 51cto: ...
- 知识累积——这些年写过的博文(博客目录索引)
阅读目录 一.JavaScript系列 1.Bootstrap组件系列 2.JavaScript效果系列 3.JavaScript组件扩展与封装 4.Knockout组件系列 5.Vue组件系列 二. ...
- elasticsearch实现博客搜索_(eblog)9、博客搜索引擎开发、后台精选
小Hub领读: 继续我们的eblog,今天来完成博客的搜索引擎,数据同步,后台精选哈! 项目名称:eblog 项目 Git 仓库:https://github.com/MarkerHub/eblog( ...
- 博客统计:腾讯分析这些数据哪儿来的?
站长统计是很多网站最常用功能,很多站长需要跟踪自己网站的访问和转化情况,于是站长统计就是一个非常直观和方便的工具,统计工具之前在做实验室的网站中用过百度统计和CNZZ,后来做论坛的时候发现Discuz ...
- .net core 实现简单爬虫—抓取博客园的博文列表
一.介绍一个Http请求框架HttpCode.Core HttpCode.Core 源自于HttpCode(传送门),不同的是 HttpCode.Core是基于.net standard 2.0实现的 ...
- Sybase数据库技术,数据库恢复---分享Sybase数据库知识(博客文章索引@51cto)
Sybase数据库技术,数据库恢复 分享Sybase数据库知识 博客文章列表,更新时间:2014-12-14 Sybase数据库技术,数据库恢复 站点地图 最新文章 ASE使用with ignore_ ...
- Sybase数据库技术,数据库恢复---分享Sybase数据库知识(博客文章索引)
Sybase数据库技术,数据库恢复 分享Sybase数据库知识 博客文章列表,更新时间:20141218 Sybase数据库技术,数据库恢复 » 站点地图 最新文章 ASE使用with ignore_ ...
- Python3 学习系列 丨 博客目录索引
整个博客有关 Python 学习目录索引,方便快捷定位查询 基础学习篇 Python3 基础学习笔记 C01[变量和简单数据类型] Python3 基础学习笔记 C02[列表] Python3 基础学 ...
- 分享WordPress博客搜索引擎优化的六点经验
wordpress是非常不错的博客程序,也是很多博客爱好者所喜欢的建站程序之一,wordpress不仅仅模版丰富,而且有足够的插件可以供我们选择,wordpress在搜索引擎优化方面做的也十分不错,在 ...
最新文章
- mysql 5.6.24 win32_mysql-5.6.24-win32解决没有my.ini并且修改编码
- 开始做事了...............
- uva 10034 Freckles (kruskal||prim)
- React项目动态设置title标题
- Gym - 101972A Multiplication Dilemma(模拟)
- Apache ab并发负载压力测试
- React.js 官网入门教程 分离文件 操作无法正常显示HelloWord
- 使用ActiveReports for .net 进行报表开发(十)--交叉变换背景 (转)
- OpenGL多线程创建纹理,附加我的测试结果
- 数据库实验一——数据库定义与操作语言实验
- quora 查看自己关注了谁
- t450加固态硬盘教程_T450能加固态硬盘么 是什么接口
- 模仿人类逻辑,首个BERT模型AI通过初二科学考试!研究人员:完成了老板遗愿...
- 计算机视觉方向好中的期刊有哪些?
- 电源拓扑结构优缺点比较-常见开关电源优缺点对比
- [转贴]变态的C自增
- 杜克大学计算机统计学,杜克大学统计学硕士录取
- 有什么免费软件可以替代几何画板?
- 小米笔记本pro重装系统和问题汇总
- stm32工程模板的创建