分类法过时了吗?

引用网址: http://www.qiji.cn/baike/contents/122.html
更新日期: 2005年6月09 周四 Posted By ianwest 更多
标签: YAHOO Sina Google
页面工具: [前一项] [后一项] { 发表评论 }

 

计算机和互联网的出现意味着新阅读时代的来临,如何组织使用数字格式的信息成为巨大的挑战。在传统的阅读时代,我们可以去图书馆按照图书分类法,查找我们所需要的图书,就在10几年前,我们上大学的第一课仍然是如何使用图书馆,如何在一大厅的卡片里迅速地找到自己需要的知识。图书分类法很多,有所谓中图法、杜威法等等,如果我们再往前追溯,我们会发现,对事物进行分类,是我们对其进行研究的第一部,我们为什么说林耐是现代生物学的奠基人,就是因为他建立了近代的生物分类系统。

在网络时代,人们首先对信息的组织也是尝试建立这样一个分类系统,YAHOO可以称的上是这方面的典范,1997年的YAHOO首页(Link)清楚地给我们展现了它的分类体系。据说这个分类体系是在图书馆学专家的参与下完成的,但网络信息与图书馆信息不同的是其对象无所不包,凡是人们关心的,都可能会以网页或网站的形式出现。随着时间的发展,网络上的知识呈爆炸式的增长,YAHOO借助人工的方法显然是无法为亿万互联网用户创造的信息进行分类的。因此如果YAHOO仍然希望他们的分类法可以组织所有网络信息的话,那只是原则上可行,而事实上是不可能完成的。所以YAHOO开始进行频道化的发展策略是很自然的事情,既然无法为所有信息,那就“专注于”人们需求最多的那部分信息,体育、新闻、拍卖等就成为了“频道化”的内容。当然按“频道”组织信息,并且每日更新的典范是SINA(新浪网),从最初的几个频道发展到目前的几十个甚至更多的频道和专题。

但对于“组织人类有史以来所有知识”这个巨大挑战面前,不存在所谓“二、八法则”,即我们无法仅建设有限个频道,就可覆盖人们所需信息的有限大部分。所以我们可以看到虽然新浪建设的频道越来越多,但无论投入多大,终归只能是有限个频道,仍然无法匹敌亿万互联网用户几乎无穷的信息(知识)需求。

这个叙述,可以用统计语言学中的Zipf法则进行说明,按Zipf法则,语言中最常用单词的词频$f$与其排序$r$成反比:$f = \frac{C}{r}$。

如果我们把$f$看作人们对特定信息需求的频率,$r$看作人们各种需求的排序。对$f$的求和,对应就是人们对各种信息的总需求,当$r \to \infty $,这个求和是发散的,即如果我们只求和最大频率的前$N$项,将永远是个有限大数,和总信息需求相比只能是无穷小。

在这种背景下,Google诞生了,当然类似于Google的搜索技术在上世纪90年代中期就已出现,只不过Google更成功罢了。Google的做法是用计算机程序去索引“所有”网页信息,但并不去“组织”这些信息,“组织”工作是由用户使用的时候与Google互动地完成的,即“关键字”查询。在这种模型下,Google不需要作任何频道,也不需要预先分类,这些工作都是由用户自己完成的,Google只需要保证“索引库”尽量完全,排序法则尽量合理。

从2000年之后,Google的成长是非常迅速的,其中一个原因就是Google满足了人们对“无穷”种类信息的需求,我们可以看一下Google与Sina最近两年浏览量变化的趋势,可以更为直观地体会到这种变化。

如果我们进一步考察,目前最新的互联网应用的话,它们或多或少都具有类似Google搜索的特征,即由用户借助网络工具自主地组织内容,进行分类,如WIKI百科,标签(TAG)等。

那么分类法过时了吗?其实对信息分类是我们合理利用信息必不可少的一步,从这个角度分类法永远不会过时。但金字塔式的分类法再也不是信息分类的唯一选择,而只是方法之一。基于“小世界模型”、“无标度模型”等的新分类法可能更适合于网络时代的信息分类。

分类法过时了吗?【ZZ】相关推荐

  1. 一类动词二类动词三类动词_基于http动词的完全无效授权技术

    一类动词二类动词三类动词 Authorization is a basic feature of modern web applications. It's a mechanism of specif ...

  2. 软件需求规格说明书通用模版_通用需求挑战和机遇

    软件需求规格说明书通用模版 When developing applications there will be requirements that are needed on more than o ...

  3. robo 3t连接_使用robo 3t studio 3t连接到地图集

    robo 3t连接 Robo 3T (formerly Robomongo) is a graphical application to connect to MongoDB. The newest ...

  4. 小程序 国际化_在国际化您的应用程序时忘记的一件事

    小程序 国际化 The hidden bugs waiting to be found by your international users 您的国际用户正在等待发现的隐藏错误 While inte ...

  5. 关系型数据库的核心单元是_核中的数据关系

    关系型数据库的核心单元是 Nucleoid is an open source (Apache 2.0), a runtime environment that provides logical in ...

  6. 熊猫直播 使用什么sdk_没什么可花的-但是16项基本操作才能让您开始使用熊猫

    熊猫直播 使用什么sdk Python has become the go-to programming language for many data scientists and machine l ...

  7. 餐厅数据分析报告_如何使用数据科学选择理想的餐厅设计场所

    餐厅数据分析报告 空间数据科学 (Spatial Data Science) Designing any product requires a lot of analysis and research ...

  8. 爱因斯坦提出的逻辑性问题_提出正确问题的重要性

    爱因斯坦提出的逻辑性问题 We live in a world that values answers. We were taught in school to learn how to answer ...

  9. python db2查询_如何将DB2查询转换为python脚本

    python db2查询 Many companies are running common data analytics tasks using python scripts. They are a ...

最新文章

  1. Bug测试报告--食物链教学工具--奋斗吧兄弟
  2. Leecode11. 盛最多水的容器——Leecode大厂热题100道系列
  3. UEFI + GPT 启动 VHD
  4. angularjs directive2
  5. python获取月份字符串_Python时间获取及转换知识汇总
  6. Python3.x建立服务器自动监测端口数据,客户端测试服务器
  7. 不能显示隐藏文件的问题
  8. wget下载的文件在哪里
  9. Gitlab文件管理之把文档传到指定文件夹
  10. XML的三大解析方式解析
  11. Android系统 —— 各版本代号和对应API等级一览
  12. 安卓app开机自启动代码
  13. 如何在windows11系统中打开ie11浏览网页
  14. 嵌入式分享合集125
  15. c语言的复试笔试题目,c语言面试最必考的十道试题,求职必看!!!
  16. RV1126 Linux AP6256调试、WIFI热点扫描
  17. mac os待机快捷键
  18. RPA机器人:电商好帮手
  19. 嵌入式开发-服务器(二) HTTP服务器
  20. 2021年了, 机器/深度学习还有哪些坑比较能好挖?

热门文章

  1. 大型网站服务器 pdf,大型网站服务器容量规划[PDF][145.25MB]
  2. 骑马与砍杀python代码_GitHub - yunwei1237/scottish-fold: 一个关于骑马与砍杀的剧本制作工具...
  3. 网络基础一(协议的概念,网络应用程序设计模式)
  4. Educational Codeforces Round 73 (Rated for Div. 2)
  5. java开发工程师招聘软件,面试题附答案
  6. 正则表达式(读书过程所记未整理)
  7. TensorFlow MNIST 入门 代码
  8. 微信客户端<->腾讯微信服务器<->开发者服务器
  9. 65个漂亮的WordPress博客主题
  10. Ascamp;Chr Converter v1.0.vbs