MiningZhiDaoQACorpus

580万百度知道问答数据挖掘项目
ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘。

项目介绍

知道类问答社区,是目前社会知识传播和交流的重要场所之一,有问题找百度,有问题,更找百度知道,这句话鲜明的点出了作为国内最大的全民问答社区,百度知道所占据的地位。 本项目以百度问答数据位试点进行挖掘,目标有二,其一是开源数据,其二是基于该数据集做知识挖掘。

知道类问答数据的特点

1, 规模之大。截止到我敲下这个现在这个字时,百度知道已经积累了549,406,017个问题,这个问题数量无时不刻在增长,并且已经达到了5亿的级别,这个数量隐藏着百度知道这一社区的知识财富。
2, 质量之伤。既然是众包之下的一个产物,准确性和规范性容易被人诟病,我们必须承认很多答非所问,乱说一通现象的存在。但好的占多数(这个数字可以参考相关论文,已有论文做过研究)。
3, 范围之广。百度问答社区所涉及到的问题有很多,有专业领域的问题,也有吃喝拉撒睡之类的生活问题,也有小学生问作业怎么做,这与人们的生活息息相关。
5, 价值之大。一问一答,往往是以解决问题为目的而产生的,这种解决问题的行为是一种潜在的因果逻辑所在,这种逻辑又包括多种领域。

知道类问答数据的应用

因此,知道类问答社区,可以支持以下应用:
1, 问答QA。问答语料库目前不少,加上这个百度问答语料能够有一定程度的扩充,用作算法学习也好,用作闲聊或者领域问答也好,都能发挥出其价值。
2, 数据挖掘。社区问答是社会语言生活最为直接的一种反映途径,基于百万级的问答对,可以支持多方面的分析,如问题画像等。
3, 语言挖掘。语言挖掘,指的是基于问答语料做诸如百度社区问句风格上,词语使用情况等的分析工作,借此来考察语言生活上的特点,也可以用该特定语料进行领域模型的训练。
4, 知识挖掘。百度问答对是非结构化的知识库,里面隐藏着大量的逻辑知识,实体知识和关系知识,如果对其进行结构化,那将能够挖掘出大量的实体性,事件性的逻辑知识出来。(这也是本项目的一个目标)。

知道类问答数据的概况

因此,考虑到百度知道的四个数据特点以及4个应用点,本项目通过采集百度知道,形成了百万级别的问答数据库规模。其中:
1, 问题个数583万个。
2, 问答对983万个。
3, 每个问题的答案个数1.7个。
4, 问题标签个数5824个。

数据介绍

1, 文件路径:已经上传至网盘,网盘地址为: 链接:https://pan.baidu.com/s/1Eesx24tAbfJ3Mch-6OeGrA 密码:oin3
2, 文件名称:zhidao_qa。json, json文件的内容样式为:

    {"_id" : ObjectId("5d36e599bc54f451543da02b"),"url" : "http://zhidao.baidu.com/question/2207667243516878988.html","answers" : ["这与当时的历史背景有关。卡萨布兰卡属于法国的殖民地,而当时的法国是与纳粹德国合作的。但在法国人中又分为合作和抵抗两派。警长的立场早先是在双方之间摇摆不定。后来与Rick站在了一起。拿酒瓶又扔掉象征其抛弃过去,走上了义无反顾的抵抗道路。----------------------------------------------------------------------------------------卡萨布兰卡的剧情简介   · · · · · · 二战期间,卡萨布兰卡是欧洲逃往美国的必经之地,那里鱼龙混杂,局势紧张。里克(亨佛莱?鲍嘉 Humphrey Bogart 饰)是一个神秘的商人,他在卡萨布兰卡开了一家人气很旺的夜总会,并拥有两张宝贵的通行证。一天,反纳粹人士维克多和妻子伊尔莎(英格丽?褒曼 Ingrid Bergman 饰)来到夜总会,原来他们正在逃避纳粹的追捕。碰巧的是,里克发现,伊尔莎竟然是他的旧日情人。那段爱曾经刻骨铭心,却因为一个误会而终止。而当误会消解时,伊尔莎和里克的感情还是不可避免的重燃了。里克手上的两张通行证能帮助维克多度过难关,但这样一来,伊尔莎是决定留下,还是离去,他们的爱情在政治和伦理的推波逐流中走向何方。"],"question" : "卡萨布兰卡为什么是欧洲逃往美国的必经之地","tags" : ["美国"]}{"_id" : ObjectId("5d36e599bc54f451543da02c"),"url" : "http://zhidao.baidu.com/question/1929874578384929307。html","answers" : ["你好是的!现在办理的身份证都是2代身份证!都是有磁性的"],"question" : "2017年办的身份证是二代身份证吗","tags" : ["公务办理"]}{"_id" : ObjectId("5d36e599bc54f451543da02d"),"url" : "http://zhidao.baidu.com/question/941683273505984492.html","answers" : ["龙凤汤是一道色香味俱全的传统名肴,属于闽系。此菜汤色微红,清澈见底,是一道上等滋补药膳。此菜由泰西宾馆一级厨师孙业富创作,被泰安市地方名吃评审会评为一等奖,受到海内外宾客的好评。龙凤汤主要食材:鲤鱼 ,口    味:鲜香 ,辅    料:香菇主料鲤鱼1条﹐鸡(大雏鸡)1/2只﹐香菇5个﹐大枣﹑栗子各10个﹐切好的葱2大勺﹐蒜1头﹐香油﹐胡椒粉鸡肉佐料切好的葱1大勺﹐捣好的蒜1大勺﹐胡椒面1/4小勺﹐香油1小勺调料鸡蛋﹐辣椒丝做法(1) 鸡要准备大雏鸡﹐去掉头和瓜﹐除去内脏洗净。(2) 要准备活鲤鱼﹐去尾放血后刮鳞﹐并切成块洗净。(3) 把香菇泡在水里除去香菇柱﹐大枣去核﹐栗子去皮。(4) 鸡蛋煎出来﹐切成丝。(5) 往平锅里倒水﹐开锅时放鸡﹑香菇﹑栗子﹑大枣﹑蒜煮熟。营养价值编辑鸡完全煮熟时﹐捞取撕肉与葱﹑蒜﹑香油﹑胡椒粉一起拌。在煮鸡的汤里放鲤鱼块儿﹐重煮一遍。有龙凤汤的真味儿出来时﹐盛在碗里﹐并在上面放拌的鸡肉和辣椒丝。","因为香菇具有特殊的香味,会相互影响口味,所以不适合放。"],"question" : "为什么炖龙凤汤不能放香菇呢","tags" : ["美食","花鸟鱼虫","香菇"]}

其中,url表示该问句所在百度百科的网址;question表示问题描述,answer是一个答案列表,列表中的顺序为百度知道问答中的排序,一般是越靠前,置信度越高;tags是问题的标签列表。

3, 文件的说明:
1, len_distribution.txt,问题答案个数分布
2, tag_distribution.txt,问题的标签分布

问答对数据概况

问题答案个数 频次
1 3524209
2 1315246
3 554687
4 229455
5 186532
6 25256
7 629
8 9
9 2
11 1

问题标签概况

问题标签 频次 问题标签 频次
学习 405608 感情 218283
理工学科 344649 汽车 213075
手机 338319 硬件 212689
游戏 319145 商业 206260
保健养生 267062 网络游戏 193532
烦恼 264315 法律 191664
交通 261084 医疗 177384
生活 253055 人体常识 175527
生活常识 243856 教育 172151
恋爱 236902 软件 169979

下一步的工作

1, 基于问答对, 进行逻辑关系挖掘,具体实施后续开源

总结

1, 本项目开源了一个问题个数583万个, 问答对数目达到983万的问答数据集。
2, 本项目对问答数据集的概况进行了介绍, 请用于学习交流使用, 若有侵权,请联系我删除。
3, 欢迎大家使用该数据集进行知识挖掘,语言挖掘,数据挖掘等方面的学习和研究工作。
4, 本项目后续将尝试基于该数据集进行逻辑事理的挖掘工作,目标是建成百科社区的逻辑知识库。

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、得语言者分天下,得知识逻辑者,游得天下。

MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目相关推荐

  1. 公链生态周报:BI指数周涨幅为9.4%,B1账户现已解锁980万EOS | 链塔智库

    01市场行情 链塔BI指数,由80个具有代表性的加密货币组成,用以反映加密货币市场整体表现. 5月26日,BI指数报收1237.39点,周内上涨106点,涨幅为9.4%.本期(5月20日至5月26日) ...

  2. 万达牵手IBM:万达进军企业级云业务,IBM Watson进入中国

    云计算市场来了新玩家,他是王健林.3月19日,万达集团董事长王健林与IBM董事长兼首席执行官罗睿兰(GinniRometty)在北京见面.握手.当日,万达集团旗下的万达网络科技集团与IBM(NYSE: ...

  3. 模拟“12306”服务端架构:100万人同时抢1万张火车票

    ▼数据猿年度征集评选正在进行中▼ 大数据产业创新服务媒体-聚焦数据·改变商业 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看 ...

  4. 12306系统的秒杀“艺术”:如何抗住100万人同时抢1万张票?

    作者 | IT牧场 编辑 | 阿秃 每到节假日期间,一二线城市返乡.外出游玩的人们几乎都面临着一个问题--抢火车票.虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景,相信大家都深有体会. 尤其 ...

  5. 100万人同时抢1万张火车票,极限并发带来的思考

    欢迎关注方志朋的博客,回复"666"获面试宝典 每到节假日期间,一二线城市返乡.外出游玩的人们几乎都面临着一个问题:抢火车票!虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场 ...

  6. 某34岁程序员哀叹:北京有一套房和160万现金,但500万的股票缩水到70万,上周刚失业,今天跟女友分手,心态崩了!...

    在如今的互联网寒冬里,身处其中的打工人是什么处境呢? 来看看一个中年互联网人的故事:34岁,北京一套房,160万现金,原本500万的中概股现在缩水到70万.谈了一个90年的女友今天分手了,上周又刚失业 ...

  7. 程序员因中年危机从北京回老家事业单位:工资从60万爆降到6万

    中年危机成了最近讨论的话题,作为中年危机的典型代表人群,许多程序员也在为自己的未来担忧着,一方面是高额年薪,一方面是不确定的未来,时间久了就有些煎熬.我们可以从下面这名大龄程序员的感慨中窥之一二. 今 ...

  8. 阿里、腾讯基本薪资曝光,资深算法工程师24万美元,高级研究员26万美元

    整理 | 于轩 出品 | 程序人生 (ID:coder _life) 提到互联网巨头企业,阿里和腾讯是绕不开的话题.作为常年霸榜中国互联网百强企业前两名的两家公司,他们在海外市场的业务发展也是大家一直 ...

  9. 阿里、腾讯美国员工基本年薪曝光,资深算法工程师24万美元,高级研究员26万美元

    提到互联网巨头企业,阿里和腾讯是绕不开的话题.作为常年霸榜中国互联网百强企业前两名的两家公司,他们在海外市场的业务发展也是大家一直关注的焦点. 在阿里.腾讯的美国分公司工作,员工每年能赚多少钱呢?为了 ...

最新文章

  1. 南开校长曹雪涛团队12篇论文被调查“可信性”,此前被举报实验图片有PS痕迹...
  2. 2008年12月13日上海USB驱动开发深度解析讲座PPT
  3. STM32之ADC实例(基于DMA方式)
  4. springboot 配置DRUID数据源
  5. spring知识概要
  6. NLP、CV、ML全覆盖,这份私藏论文清单你一定要看看
  7. 算法竞赛入门与进阶 (一)枚举
  8. 中美共建大数据创新研究中心
  9. Cinematic Tracking Title for fcpx(电影自适应伸展效果文字标题)
  10. 如何使用泛型在新的可空上下文中启动健壮的C#项目?
  11. 断点续传、秒传究竟是如何实现的?
  12. 【Shell】for循环
  13. iOS端给unity发送消息,实现两者交互。
  14. 体验迟到:果然是魔鬼定律,一路上多种障碍
  15. 由入门C语言题目浅析gets()函数的用法
  16. 阿里云产品分析(1):阿里云安全性分析与案例
  17. 华硕2020年显卡_显卡涨价?2020年12月不溢价电脑装机配置推荐——华硕3070 DUAL雪豹篇...
  18. 深入浅出TCP三次握手 (多图详解)
  19. 正则表达式(regex)入门
  20. 使用blender和mmd模型进行3D辅助绘图

热门文章

  1. 华为宣布:免费培养8000名嵌入式开发者!学习免费!实践免费!辅导免费!
  2. gcc和g++有什么区别?
  3. STM32 ADC 单次模式、连续模式、扫描模式(转载)
  4. 进程间的通信——无名管道
  5. linux里没有grub文件,linux – 安装Ubuntu后没有grub菜单,直接启动...
  6. 威纶触摸屏与电脑连接_PLC与这7种设备的连接方式,一看就懂!
  7. 要多大内存才满足_佛龛的尺寸要多大?
  8. 就业阶段-java语言进价_day06
  9. python tkinter 输入数字 小数_Python3 tkinter基础 Entry validate isdigit 只能输入数字的输入框...
  10. sql 关联使用id还是code_R语言实例:用glue批量生成SQL语句