本文作者:林檎

1971 年的某一天,奥地利城市因斯布鲁克郊外的田野上,躺着一名喝得酩酊大醉的中年男子。他就是著名的科幻作家 Douglas Adams。这一天,亚当斯带着一本名为《欧洲漫游指南》的书。而当他躺在田野上仰望星空的时候,灵感来了:他畅想存在一本《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy),它将是一本旅游指南和百科全书的混合体。真正的神奇之处在于,该书不聘请专家撰写的,而是任何人都可以贡献条目。

显然,生活在 21 世纪的我们,已经看到这一设想的 “实物”,即维基百科。

时至今日,这本任何人都可以编辑的自由百科全书,正好走过了 20 岁。

一本业余百科全书的诞生

维基百科最初并不是要成为一个独立的信息网站。它其实是另一个专家编写百科项目 ——Nupedia—— 的 “副产品”。

21 世纪初,互联网方兴未艾,随着 Web 的发展,许多人尝试开发互联网百科全书库项目,让百科全书式的信息从图书馆中 “走出来”。

图片出处:Wiki

Nupedia 是这类尝试之一。它由前金融交易员、互联网创业者 Jimmy Wales,和哲学博士 Larry Sanger 在 2000 年共同创办。

但这一整年,依赖专家创造内容的 Nupedia 文章撰写非常缓慢。20001 年,两人开始重新探索新的方式,以更开放,互补的项目补充 Nupedia。此时,他们接触到了 “任何人都可以编辑的百科全书” 这个概念,基于 Wiki 技术的维基百科便由此而生。

维基百科的创始人 Jimmy Wales 和 Larry Sanger。来源:commons.wikimedia.org

到了 2001 年年末,维基百科拥有了用 18 种语言撰写的 2 万多篇文章,而且增长速度正在加快,证明它的模式比 Nupedia 更符合两人的预期。

2003 年,威尔士成立了维基媒体基金会,专门来运作服务器和软件及筹集所需资金。对网站内容的控制仍由名为 “维基人” 的圈子所掌握,他们发展出了复杂的工作流程和指南来生成和维护内容。

现在,维基百科上已经有超过 5500 万篇文章,使用数百种语言,每篇文章都由志愿者撰写,是人类有史以来规模最大、阅读量最多的资料库。网络分析公司 Alexa Internet 将维基百科列为互联网上第 13 个最受欢迎的网站,排在 Reddit、Netflix 和 Instagram 之前。

维基百科诞生基于这样一个朴素的初衷 —— 普通人可以利用计算机和互联网,作为解放、教育和启蒙的工具。

但在很长一段时间内,这种打造一本业余百科全书的想法,被部分权威人士当作小笑料。

“少数人由衷地赞同维基百科。这让我感到不解。” 美国图书馆协会的一位前主席曾在 2007 年写道," 一个鼓励使用维基百科的教授,相当于一个推荐稳定食用麦当劳式饮食的营养师。”

即使是有一些学术研究证实并强调了它可以用作为可靠信息来源,维基百科的认可度仍无法与 “大英百科全书” 这样的老牌百科全书相比。毕竟,后者由学术专家付费撰写。

2005 年,Nature 杂志甚至组建了一个专家小组,专门解决这个问题。这个小组从维基百科和大英百科全书的网站上共找了 42 篇科学文章进行检测。结果维基百科的错误率为平均每篇 4 个,大英百科全书为 3 个。

理论上,维基百科无法平息这种质疑;可实践中,它取得了毋庸置疑的胜利。

值多少钱?

除了普罗大众日常使用维基百科作为权威信息源之一,这几年,饱受假新闻、虚假信息和阴谋论之苦的社交平台(比如 Facebook 和 Youtube),也逐渐推崇维基百科视为中立的、高可信度的信息源。

维基百科还赢得了官方机构的青睐。在流言肆虐的新冠疫情期间,世界卫生组织选择与维基百科合作,通过该网站提供 covid-19 的信息。世卫组织认为,这种合作对其防止新冠病毒错误信息的传播至关重要。

当商业公司和官方机构开始使用这个工具,要计算维基百科的价值和影响力究竟几许,就更加困难了。

哈佛大学的经济学家 Shane Greenstein 曾经如此表示:“维基百科是我愿称之为 ’ 数字暗物质 ’ 的一个例子。” 他曾仔细研究过这个网站,并把它类比作育儿和家务:投入这类事务会产生巨大价值,不过这种价值难以用标准经济工具所衡量。

也有人尝试过量化维基百科所产生的的价值。2018 年的一项研究表示,美国网民每年在维基百科上投入的价值约为 150 美元,如果属实,仅在美国,该网站每年的价值就高达 420 亿美元左右。

随着数据智能、AI 技术的崛起,维基百科还产生出了一种更间接的经济效益 —— 作为大量机器学习数据集的原始文本,“喂” 给各种各样的自然语言处理模型。

根据我们的不完全统计,大概是从 2015 年开始至今,以维基百科为原始语料的代表性数据集开始大量涌现:先是 EMNLP 2015 年发布的 WikiQA,再到 2016 年 SQuAD 1.1 的大获成功,越来越多的数据集开发团队用维基百科开发数据集。特别值得一提的是 SQuAD 数据集。它的出现成为了机器理解领域的一个重要的转折点,直到今天,SQuAD(以及后续发布的 SQuAD 2.0)仍然是衡量机器阅读理解模型的重要标准。

借助 Wiki 构建的数据集。图片出处:数据实战派

当然,这类数据集促进机器的阅读理解能力,也相应 “吸收” 了一些失误,包括失实信息以及偏见等等。

尤其被广为诟病已久的,是维基百科作者的多样性。有研究发现,在维基百科上撰写内容的人,大部分是居住在北半球发达国家、擅长科技产品的男性白领。他们所撰写的往往是自己感兴趣的信息。这变相造成了一种 “幸存者偏差”:在维基百科中,关于《指环王》中角色的条目就有超过 150 条,而关于越南战争的内容却少于 10 条。

因此,如何修正这类基于维基百科的数据集的偏差,正在成为 AI 伦理领域的一个重要方向。

走向何方?

亚马逊和苹果训练 Alexa 和 Siri 根据维基百科回答事实问题;谷歌用它来填充 “fact boxes(事实框)”,应用到有关事实问题的搜索场景;说不定,你每天用的最多的语音助手,也是用基于维基百科的数据集所训练出来的。

即便是这些商业公司以这种方式受益于它,维基百科也没有做什么特殊处理。它依然没有所谓的商业模式。这也是为何在一些人眼中,它是一个奇葩的、不可复制的存在。

当代科技媒体的版面,已处处充斥着科技巨头为了追求规模及流量、烧掉了大量投资者的钱的故事。但维基百科与这一切相悖。

维基百科拥有如此流量,并没有上演创始人的发家事迹而落入俗套之中。它没有股东,也不卖广告,所以,它的创始团队中也没有走出亿万富翁。有报道称,吉米・威尔士个人身家只有 100 万美元,与其他日进斗金的互联网巨头相距甚远。

它是 20 世纪末互联网的技术乐观主义、草根专业主义的遗珠,收入来自慈善拨款和用户的捐赠,称它为 “用爱发电” 的奇迹并不为过。

如今,维基百科由属于非营利组织的维基媒体基金会负责托管与资助,维基媒体基金会则主要依赖公众或者企业的捐赠和补助金。过去几年来,其中重要的捐助者包括有美国投资家华伦・巴菲特、前美国总统吉米・卡特、维珍集团首席执行官理查德・布兰逊、Amazon.com 创办人杰夫・贝佐斯、Craigslist 创办人 Craig Newmark 等。

最近几年,几乎每过一次 “生日”,都会有疑问的声音表示,这样下去,维基百科还能活多久?比如说,如今各种信息平台都表现出由人工转向算法驱动的趋势之时,维基百科仍在让人而非算法来运营管理。这究竟会是好事还是坏事?

这种压力不是没有。维基媒体基金会的执行董事兼首席执行官Katherine Maher 曾言,如果不是维基百科早已存在,恐怕在今天这个碎片化、商业化的互联网世界,它根本无法诞生。

但鉴于它已经存在,Katherine 看好它的生存前景。她认为,维基百科的存在迎合了这部分人性:“人们喜欢正确,并且热爱证明自己的能力。”

而且,即使是错误也并非一无收获。根据坎宁安定律 Cunningham’s Law,在互联网上获得正确答案的最好方法,就是发布错误的答案。


图片出处:unsplash.com

References:
1、 https://rrchnm.org/essay/can-history-be-open-source-wikipedia-and-the-future-of-the-past/
2、https://www.cs.mcgill.ca/~rwest/wikispeedia/wpcd/wp/h/History_of_Wikipedia.htm
3、https://www.wired.com/story/wikipedia-online-encyclopedia-best-place-internet/
4、https://www.technologyreview.com/2013/10/22/175674/the-decline-of-wikipedia/

公众号:数据实战派
转载请后台联系小编~

维基百科,20岁生日快乐相关推荐

  1. .NET 再出发 20岁生日快乐

    2022年是 .NET 20周年纪念,一个技术能经历20个年头,也说明了它的成功.想起和 .NET 刚接触的时候,我还是一个大一的学生,现在也已经步入中年.作为一名80后开发者,我相信很多同龄人和我一 ...

  2. .NET再出发!20岁生日快乐

    .NET 20周年纪念 2022年是.NET20周年纪念,一个技术能经历20个年头,也说明了它的成功.想起和 .NET刚接触的时候,我还是一个大一的学生,现在也已经步入中年.作为一名80后开发者,我相 ...

  3. “全人类的知识宝藏”维基百科迎来了20岁的生日!

    维基百科从一个伟大的想法开始,与无数的像你像我一样的阅读者,创作者,捐赠者和粉丝经历了互联网的20年,今天让我们一起为这个属于所有互联网人的成果庆祝一次生日. 值此20周年特地为它做了一个主页: ht ...

  4. Google 20岁了 你还记得它当初的模样吗?

    20 年前的今天,谷歌递交了成立公司的申请书.那时候它还不知道,自己将会影响这么多人的生活. 这可能是和中国人民有过最多牵绊的一个企业:退出中国的时候让无数中国人痛心疾首痛骂百度:每年固定会有那么几次 ...

  5. 数学家的亿万商业王国:先后创建“验证码”和“多邻国”,20岁就被盖茨亲自挖去微软!...

    来源:大数据文摘 本文约2600字,建议阅读6分钟. 本文为你介绍一位才华横溢的数学教授 Luis Von Ahn . Luis Von Ahn是一位才华横溢的数学教授,我们登录新网站或APP时经常用 ...

  6. 数学家的亿万商业王国:创建“验证码”和“多邻国”,20岁就被盖茨挖去微软...

    Luis Von Ahn是一位才华横溢的数学教授,我们登录新网站或APP时经常用到的验证码(CAPTCHA),还有一款语言学习软件"多邻国"(Duolingo),都是他创建的. & ...

  7. 维基百科:人人都能改写的网络百科全书

    维基百科:人人都能改写的网络"百科全书" --------------------------------------------------------------------- ...

  8. 163给雅虎发邮件收不到_雅虎! 给维基百科第8个生日礼物

    163给雅虎发邮件收不到 On Wikipedia's 8th birthday, Yahoo! announced that it would be adding a Wikipedia Searc ...

  9. 维基百科联手谷歌翻译,结果“惨不忍睹”!

    作者 | 琥珀 出品 | AI科技大本营 作为前沿科技新闻报道的一线工作者,我们经常会碰到各种陌生难懂.语言不通的词句. 这直接导致我们在引用和查找信息时,往往辅助以维基百科和谷歌翻译为代表的两大信息 ...

最新文章

  1. 异步复位和同步释放电路的详细解释
  2. Oracle ROWNUM的陷阱
  3. java实现人脸识别源码【含测试效果图】——DaoImpl层(BaseDaoUtilImpl)
  4. python 项目环境包的名称和版本导出和导入
  5. (转)超全面设计指南:如何做大屏数据可视化设计?
  6. redis的bitmap操作
  7. 几种特种印花方式简介
  8. 计算机ck,[计算机]ck编程速成.doc
  9. java8 function 多线程安全_Java8新特性_传统时间格式化的线程安全问题
  10. 关于网络流算法(3)
  11. 梦殇 chapter three
  12. 二、JavaWeb动态网页基础
  13. Rust - 常用的三方库集合
  14. C# 实现定时/循环任务
  15. 古典问题(兔子生崽):有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?(输出前40个月即可)
  16. 如何更好的做线上引流
  17. 1微秒等于多少皮秒_秒的换算:ms(毫秒),μs(微秒),ns(纳秒),ps(皮秒)
  18. 突破性进展什么意思_宣布突破性发展2011
  19. 学计算机的大学计划书,计算机系大学计划书
  20. day19 part1:网络安全态势感知

热门文章

  1. Ubuntu18.04有线网络连接不上
  2. 五分钟讲透开关电源buck降压基本原理
  3. 前端框架综述(8)前端
  4. vscode配置备忘录
  5. Delphi FMX正确设计和加载图片满足分布式跨平台App的性能需求-分布式跨平台App中美工图片的处理、上传下载、并发及客户端显示技术架构
  6. 罗马数字转换成阿拉伯数字
  7. matlab演奏,matlab演奏canon(代码版)
  8. NVIDIA GPU虚拟化七版迭代,如今再秀一波!
  9. 【网络安全】登录问题(一)Session/Cookie源码分析
  10. 工业智能网关BL110应用之64:如何实现智能楼宇控制BACnet 接入金鸽MQTT云平台