MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目
MiningZhiDaoQACorpus
580万百度知道问答数据挖掘项目
ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘。
项目介绍
知道类问答社区,是目前社会知识传播和交流的重要场所之一,有问题找百度,有问题,更找百度知道,这句话鲜明的点出了作为国内最大的全民问答社区,百度知道所占据的地位。 本项目以百度问答数据位试点进行挖掘,目标有二,其一是开源数据,其二是基于该数据集做知识挖掘。
知道类问答数据的特点
1, 规模之大。截止到我敲下这个现在这个字时,百度知道已经积累了549,406,017个问题,这个问题数量无时不刻在增长,并且已经达到了5亿的级别,这个数量隐藏着百度知道这一社区的知识财富。
2, 质量之伤。既然是众包之下的一个产物,准确性和规范性容易被人诟病,我们必须承认很多答非所问,乱说一通现象的存在。但好的占多数(这个数字可以参考相关论文,已有论文做过研究)。
3, 范围之广。百度问答社区所涉及到的问题有很多,有专业领域的问题,也有吃喝拉撒睡之类的生活问题,也有小学生问作业怎么做,这与人们的生活息息相关。
5, 价值之大。一问一答,往往是以解决问题为目的而产生的,这种解决问题的行为是一种潜在的因果逻辑所在,这种逻辑又包括多种领域。
知道类问答数据的应用
因此,知道类问答社区,可以支持以下应用:
1, 问答QA。问答语料库目前不少,加上这个百度问答语料能够有一定程度的扩充,用作算法学习也好,用作闲聊或者领域问答也好,都能发挥出其价值。
2, 数据挖掘。社区问答是社会语言生活最为直接的一种反映途径,基于百万级的问答对,可以支持多方面的分析,如问题画像等。
3, 语言挖掘。语言挖掘,指的是基于问答语料做诸如百度社区问句风格上,词语使用情况等的分析工作,借此来考察语言生活上的特点,也可以用该特定语料进行领域模型的训练。
4, 知识挖掘。百度问答对是非结构化的知识库,里面隐藏着大量的逻辑知识,实体知识和关系知识,如果对其进行结构化,那将能够挖掘出大量的实体性,事件性的逻辑知识出来。(这也是本项目的一个目标)。
知道类问答数据的概况
因此,考虑到百度知道的四个数据特点以及4个应用点,本项目通过采集百度知道,形成了百万级别的问答数据库规模。其中:
1, 问题个数583万个。
2, 问答对983万个。
3, 每个问题的答案个数1.7个。
4, 问题标签个数5824个。
数据介绍
1, 文件路径:已经上传至网盘,网盘地址为: 链接:https://pan.baidu.com/s/1Eesx24tAbfJ3Mch-6OeGrA 密码:oin3
2, 文件名称:zhidao_qa。json, json文件的内容样式为:
{"_id" : ObjectId("5d36e599bc54f451543da02b"),"url" : "http://zhidao.baidu.com/question/2207667243516878988.html","answers" : ["这与当时的历史背景有关。卡萨布兰卡属于法国的殖民地,而当时的法国是与纳粹德国合作的。但在法国人中又分为合作和抵抗两派。警长的立场早先是在双方之间摇摆不定。后来与Rick站在了一起。拿酒瓶又扔掉象征其抛弃过去,走上了义无反顾的抵抗道路。----------------------------------------------------------------------------------------卡萨布兰卡的剧情简介 · · · · · · 二战期间,卡萨布兰卡是欧洲逃往美国的必经之地,那里鱼龙混杂,局势紧张。里克(亨佛莱?鲍嘉 Humphrey Bogart 饰)是一个神秘的商人,他在卡萨布兰卡开了一家人气很旺的夜总会,并拥有两张宝贵的通行证。一天,反纳粹人士维克多和妻子伊尔莎(英格丽?褒曼 Ingrid Bergman 饰)来到夜总会,原来他们正在逃避纳粹的追捕。碰巧的是,里克发现,伊尔莎竟然是他的旧日情人。那段爱曾经刻骨铭心,却因为一个误会而终止。而当误会消解时,伊尔莎和里克的感情还是不可避免的重燃了。里克手上的两张通行证能帮助维克多度过难关,但这样一来,伊尔莎是决定留下,还是离去,他们的爱情在政治和伦理的推波逐流中走向何方。"],"question" : "卡萨布兰卡为什么是欧洲逃往美国的必经之地","tags" : ["美国"]}{"_id" : ObjectId("5d36e599bc54f451543da02c"),"url" : "http://zhidao.baidu.com/question/1929874578384929307。html","answers" : ["你好是的!现在办理的身份证都是2代身份证!都是有磁性的"],"question" : "2017年办的身份证是二代身份证吗","tags" : ["公务办理"]}{"_id" : ObjectId("5d36e599bc54f451543da02d"),"url" : "http://zhidao.baidu.com/question/941683273505984492.html","answers" : ["龙凤汤是一道色香味俱全的传统名肴,属于闽系。此菜汤色微红,清澈见底,是一道上等滋补药膳。此菜由泰西宾馆一级厨师孙业富创作,被泰安市地方名吃评审会评为一等奖,受到海内外宾客的好评。龙凤汤主要食材:鲤鱼 ,口 味:鲜香 ,辅 料:香菇主料鲤鱼1条﹐鸡(大雏鸡)1/2只﹐香菇5个﹐大枣﹑栗子各10个﹐切好的葱2大勺﹐蒜1头﹐香油﹐胡椒粉鸡肉佐料切好的葱1大勺﹐捣好的蒜1大勺﹐胡椒面1/4小勺﹐香油1小勺调料鸡蛋﹐辣椒丝做法(1) 鸡要准备大雏鸡﹐去掉头和瓜﹐除去内脏洗净。(2) 要准备活鲤鱼﹐去尾放血后刮鳞﹐并切成块洗净。(3) 把香菇泡在水里除去香菇柱﹐大枣去核﹐栗子去皮。(4) 鸡蛋煎出来﹐切成丝。(5) 往平锅里倒水﹐开锅时放鸡﹑香菇﹑栗子﹑大枣﹑蒜煮熟。营养价值编辑鸡完全煮熟时﹐捞取撕肉与葱﹑蒜﹑香油﹑胡椒粉一起拌。在煮鸡的汤里放鲤鱼块儿﹐重煮一遍。有龙凤汤的真味儿出来时﹐盛在碗里﹐并在上面放拌的鸡肉和辣椒丝。","因为香菇具有特殊的香味,会相互影响口味,所以不适合放。"],"question" : "为什么炖龙凤汤不能放香菇呢","tags" : ["美食","花鸟鱼虫","香菇"]}
其中,url表示该问句所在百度百科的网址;question表示问题描述,answer是一个答案列表,列表中的顺序为百度知道问答中的排序,一般是越靠前,置信度越高;tags是问题的标签列表。
3, 文件的说明:
1, len_distribution.txt,问题答案个数分布
2, tag_distribution.txt,问题的标签分布
问答对数据概况
问题答案个数 | 频次 |
---|---|
1 | 3524209 |
2 | 1315246 |
3 | 554687 |
4 | 229455 |
5 | 186532 |
6 | 25256 |
7 | 629 |
8 | 9 |
9 | 2 |
11 | 1 |
问题标签概况
问题标签 | 频次 | 问题标签 | 频次 |
---|---|---|---|
学习 | 405608 | 感情 | 218283 |
理工学科 | 344649 | 汽车 | 213075 |
手机 | 338319 | 硬件 | 212689 |
游戏 | 319145 | 商业 | 206260 |
保健养生 | 267062 | 网络游戏 | 193532 |
烦恼 | 264315 | 法律 | 191664 |
交通 | 261084 | 医疗 | 177384 |
生活 | 253055 | 人体常识 | 175527 |
生活常识 | 243856 | 教育 | 172151 |
恋爱 | 236902 | 软件 | 169979 |
下一步的工作
1, 基于问答对, 进行逻辑关系挖掘,具体实施后续开源
总结
1, 本项目开源了一个问题个数583万个, 问答对数目达到983万的问答数据集。
2, 本项目对问答数据集的概况进行了介绍, 请用于学习交流使用, 若有侵权,请联系我删除。
3, 欢迎大家使用该数据集进行知识挖掘,语言挖掘,数据挖掘等方面的学习和研究工作。
4, 本项目后续将尝试基于该数据集进行逻辑事理的挖掘工作,目标是建成百科社区的逻辑知识库。
If any question about the project or me ,see https://liuhuanyong.github.io/
如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、得语言者分天下,得知识逻辑者,游得天下。
MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目相关推荐
- 公链生态周报:BI指数周涨幅为9.4%,B1账户现已解锁980万EOS | 链塔智库
01市场行情 链塔BI指数,由80个具有代表性的加密货币组成,用以反映加密货币市场整体表现. 5月26日,BI指数报收1237.39点,周内上涨106点,涨幅为9.4%.本期(5月20日至5月26日) ...
- 万达牵手IBM:万达进军企业级云业务,IBM Watson进入中国
云计算市场来了新玩家,他是王健林.3月19日,万达集团董事长王健林与IBM董事长兼首席执行官罗睿兰(GinniRometty)在北京见面.握手.当日,万达集团旗下的万达网络科技集团与IBM(NYSE: ...
- 模拟“12306”服务端架构:100万人同时抢1万张火车票
▼数据猿年度征集评选正在进行中▼ 大数据产业创新服务媒体-聚焦数据·改变商业 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看 ...
- 12306系统的秒杀“艺术”:如何抗住100万人同时抢1万张票?
作者 | IT牧场 编辑 | 阿秃 每到节假日期间,一二线城市返乡.外出游玩的人们几乎都面临着一个问题--抢火车票.虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景,相信大家都深有体会. 尤其 ...
- 100万人同时抢1万张火车票,极限并发带来的思考
欢迎关注方志朋的博客,回复"666"获面试宝典 每到节假日期间,一二线城市返乡.外出游玩的人们几乎都面临着一个问题:抢火车票!虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场 ...
- 某34岁程序员哀叹:北京有一套房和160万现金,但500万的股票缩水到70万,上周刚失业,今天跟女友分手,心态崩了!...
在如今的互联网寒冬里,身处其中的打工人是什么处境呢? 来看看一个中年互联网人的故事:34岁,北京一套房,160万现金,原本500万的中概股现在缩水到70万.谈了一个90年的女友今天分手了,上周又刚失业 ...
- 程序员因中年危机从北京回老家事业单位:工资从60万爆降到6万
中年危机成了最近讨论的话题,作为中年危机的典型代表人群,许多程序员也在为自己的未来担忧着,一方面是高额年薪,一方面是不确定的未来,时间久了就有些煎熬.我们可以从下面这名大龄程序员的感慨中窥之一二. 今 ...
- 阿里、腾讯基本薪资曝光,资深算法工程师24万美元,高级研究员26万美元
整理 | 于轩 出品 | 程序人生 (ID:coder _life) 提到互联网巨头企业,阿里和腾讯是绕不开的话题.作为常年霸榜中国互联网百强企业前两名的两家公司,他们在海外市场的业务发展也是大家一直 ...
- 阿里、腾讯美国员工基本年薪曝光,资深算法工程师24万美元,高级研究员26万美元
提到互联网巨头企业,阿里和腾讯是绕不开的话题.作为常年霸榜中国互联网百强企业前两名的两家公司,他们在海外市场的业务发展也是大家一直关注的焦点. 在阿里.腾讯的美国分公司工作,员工每年能赚多少钱呢?为了 ...
最新文章
- 南开校长曹雪涛团队12篇论文被调查“可信性”,此前被举报实验图片有PS痕迹...
- 2008年12月13日上海USB驱动开发深度解析讲座PPT
- STM32之ADC实例(基于DMA方式)
- springboot 配置DRUID数据源
- spring知识概要
- NLP、CV、ML全覆盖,这份私藏论文清单你一定要看看
- 算法竞赛入门与进阶 (一)枚举
- 中美共建大数据创新研究中心
- Cinematic Tracking Title for fcpx(电影自适应伸展效果文字标题)
- 如何使用泛型在新的可空上下文中启动健壮的C#项目?
- 断点续传、秒传究竟是如何实现的?
- 【Shell】for循环
- iOS端给unity发送消息,实现两者交互。
- 体验迟到:果然是魔鬼定律,一路上多种障碍
- 由入门C语言题目浅析gets()函数的用法
- 阿里云产品分析(1):阿里云安全性分析与案例
- 华硕2020年显卡_显卡涨价?2020年12月不溢价电脑装机配置推荐——华硕3070 DUAL雪豹篇...
- 深入浅出TCP三次握手 (多图详解)
- 正则表达式(regex)入门
- 使用blender和mmd模型进行3D辅助绘图
热门文章
- 华为宣布:免费培养8000名嵌入式开发者!学习免费!实践免费!辅导免费!
- gcc和g++有什么区别?
- STM32 ADC 单次模式、连续模式、扫描模式(转载)
- 进程间的通信——无名管道
- linux里没有grub文件,linux – 安装Ubuntu后没有grub菜单,直接启动...
- 威纶触摸屏与电脑连接_PLC与这7种设备的连接方式,一看就懂!
- 要多大内存才满足_佛龛的尺寸要多大?
- 就业阶段-java语言进价_day06
- python tkinter 输入数字 小数_Python3 tkinter基础 Entry validate isdigit 只能输入数字的输入框...
- sql 关联使用id还是code_R语言实例:用glue批量生成SQL语句