Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引...
作者 | 刘焕勇
责编 | 李雪敬
出品 | CSDN博客
CognitiveInference
Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。
项目地址 :https://github.com/liuhuanyong/CognitiveInference/
项目介绍
常识推理是人工智能的高级阶段,基于已有知识,运用知识推理机技术,完成限定领域决策行为,能够在充分减少人为劳动的同时,产生经济效益。例如,基于已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够辅助于业务的推理和辅助决策,在智能投研进行未知风险预警、在舆情分析中对公司进行舆论控制和监控。
“逻辑知识库”+"逻辑推理机"的混合协作模式,是目前实现以上目的的重要方式。
"逻辑知识库"作为描述现实社会事件之间传导关联的库,需要在规模、质量,领域针对性三个方面入手进行解决。具体地,作者通过对自己所涉及的推理项目进行系统回顾,认为,推理类常识知识库,应该从纵向和横向两个维度出发进行构建。
一、纵向常识逻辑
纵项常识逻辑需要考虑的是类人的抽象和概括能力,这个需要抽象、概念性、上下位知识的构建,可以让机器模仿人类的举一反三和概括总结的技能。例如,作者对纵向常识逻辑,形成了以下工作:
1、上下位关系图谱项目:HyponymyExtraction.
上下位这种语义关系是整个词汇语义关系中的一个重要内容,通过上下位关系,可以将世间万物进行组织和练联系起来,对于增进人们对某一实体或概念的认知上具有重要帮助,自然语言文本中存储着大量的上下位关系知识,如经过语言专家编辑整理形成的概念语义词典,如同义词词林,中文主题概念词典,hownet等,也存在开放百科知识平台当中,有效地利用这些信息,能够支持多项应用基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取。项目实现为用户输入一个需要了解的词语,后台通过查询既定知识库,从百科知识库,在线非结构化文本中进行抽取,形成关于该词语的上下位词语网络,并以图谱这一清晰明了的方式展示出来。
2、电商商品概念与销售知识图谱项目:GoodsKG.
项目以京东电商为实验数据来源,采集京东商品目录树,并获取其对应的底层商品概念信息,组织形成商品知识图谱。目前,该图谱包括有概念的上下位is a关系以及商品品牌与商品之间的销售sale关系共两类关系,涉及商品概念数目1300+,商品品牌数目约10万+,属性数目几千种,关系数目65万规模。该项目可以进一步增强商品领域概念体系的应用,对自然语言处理处理的几个下游应用带来帮助,如商品品牌识别,商品对象及属性级别情感分析,商品评价短语库构建,商品品牌竞争关系梳理等提供基础性的概念服务。
3、抽象知识图谱项目:AbstractKnowledgeGraph.
项目提出了一个抽象知识图谱的项目,目的是对知识抽象与泛化提供一个思路并初步实践,介绍了抽象知识图谱,对抽象图谱的现实需求进行论述。介绍了中文抽象图谱的相关工作。包括 CN-Probase,Hownet,大词林,百度百科Schema等,并给出了之前关联的项目地址。本项目提出了一个可用的抽象知识图谱构建路线,提出抽象知识图谱的实施路线并给出抽象接口实践。建成抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象,可完成抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是保持一致。
二、横向常识逻辑
横向上,需要挖掘顺承、因果、反转等多个方向的逻辑演化关系。例如,作者对横向常识逻辑,形成了以下工作:
4、顺承事件图谱项目:SequentialEventExtration.
以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用。本项目基于50W文章领域语料,运用简单提取方式形成的顺承关系图谱demo,形成了事件节点为326781个, 顺承事件对为543580条,分别为30W和50W的图谱规模。
5、因果事件图谱项目:CausalityEventExtraction.
项目以构造和总结因果模板,结合中文语言特点,构建因果语言知识库的方式,对因果事件抽取以及因果知识图谱构建进行尝试。罗列出了9类显式因果逻辑抽取模式,通过使用因果连词库,结果词库、因果模式库等,完成因果抽取、对文本进行噪声移除,非关键信息去除等进行文本预处理;基于因果模式库,完成因果对抽取,选择短语、短句、句子主干等方式进行事件表示;使用知识图谱中的实体对齐技术进行事件融合,基于业务需求,可以用相应的数据库进行存储,比如图数据库等完成事件存储。
6、复合事件图谱项目:ComplexEventExtraction.
项目对中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件事件图谱的类型、表现形式进行了归纳,并结合复合事件模式与语料进行了实验。实验表明,反转事件,其实在某种程度上可以用来构造反义词词典,例如"不是A而是B"这种模式,可以得到很多反义的词或短语,可以用wordvector找相近词,可以靠这种方式收集反义词。汉语显示标记其实在中文文本当中还是用的很普遍,在1000W文本中,有超过半数的文本中包含以上模式。能够把显示事件图谱做好,感觉用处还是很多的。
三、常识逻辑推理
"逻辑推理机"是支配逻辑知识库的重要运算机器,通过对现有逻辑知识库,通过推理规则传导、知识关联路径匹配,完成对现有逻辑知识库的游走,最终实现单跳或多跳等后续事件的推理和预测,在这个方面,需要使用owl本体推理机、图数据库匹配、图数据库路径查找、推理规则配置、图结构预测等多种不同形式。与此同时,与逻辑推理关联的推理能力评估,也是检验常识推理智能的必要手段。例如,作者对常识逻辑推理,形成了一下工作:
7、基于问答社区的逻辑知识问答项目:ZhidaoChatbot.
本项目完成了一个基于线上问答社区的常识逻辑性问答机器人接口demo,本项目的问答机器人接口可以满足原因逻辑,结果逻辑,可以回答为什么,有了会怎么样等问题,也可以推荐相似性的问题,可以作为基于逻辑事理知识的一种补充,问答机器人接口可以作为开源实体性问答机器人的逻辑性问答补充,也可以为逻辑性知识库的构建提供帮助。
8、基于事理图谱的未来事件预测项目:EventPredictBasedOnEG.
基于海量数据进行因果挖掘,可以得到大量的因果知识,基于因果逻辑库,即历史因果,通过计算当前事件与历史事件的相似性,可以在定性的方式上做出一些方向性的预测,方向上包括两种,一种是积极信号,另一种是消极信号,项目介绍了一个基于因果图谱的既定事件未来预测的接口预测demo。
9、学迹事理实时知识库终身学习项目:EventKGNELL.
事理图谱版Magi,EventKGNELL, eventuality knowlege graph never end learning system,一个7*24小时不断学习的实时事理学习与搜索平台,力图紧跟实时网络信息,面向公众提供以“事件”为核心的实时结构化知识搜索服务的实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目,项目实现了包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。
开放常识知识库与常识推理评测项目
本项目对现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,形成已有常识知识库资源集合、常识推理评测项目集合两个组成部分。
一、已有常识知识库资源集合
大类 |
小类 |
名称 |
语言学知识库 |
语言标注语料库 |
Penn Treebank |
语言学知识库 |
语言标注语料库 |
The Penn Discourse Tree- bank (PDTB) |
语言学知识库 |
语言标注语料库 |
The Abstract Meaning Representation (AMR) corpus |
语言学知识库 |
词汇知识库 |
WordNet |
语言学知识库 |
词汇知识库 |
VerbNet |
语言学知识库 |
词汇知识库 |
VerbOcean |
语言学知识库 |
词汇知识库 |
VerbCorner |
语言学知识库 |
框架语义知识库 |
FrameNet |
语言学知识库 |
框架语义知识库 |
PropBank |
语言学知识库 |
预训练语义向量 |
GloVe |
语言学知识库 |
预训练语义向量 |
FastText |
语言学知识库 |
预训练语义向量 |
wordpiece embeddings |
常识库 |
常识库 |
YAGO |
常识库 |
常识库 |
DBpedia |
常识库 |
常识库 |
WikiTaxonomy |
常识库 |
常识库 |
Freebase |
常识库 |
常识库 |
NELL |
常识库 |
常识库 |
Probase |
常识库 |
常识库 |
Wikidata |
常识知识库 |
常识知识库 |
Cyc |
常识知识库 |
常识知识库 |
ConceptNet |
常识知识库 |
常识知识库 |
SenticNet |
常识知识库 |
常识知识库 |
Isanette and IsaCore |
常识知识库 |
常识知识库 |
COGBASE |
常识知识库 |
常识知识库 |
WebChild. |
常识知识库 |
常识知识库 |
LocatedNear |
常识知识库 |
常识知识库 |
ATOMIC |
常识知识库 |
常识知识库 |
ASER |
常识知识库 |
常识知识库 |
学迹实时事理系统 |
如需查看对应地址,请在文末的原文链接进入
二、常识推理评测项目资源
大类 |
名称 |
作者 |
规模 |
Reference Resolution |
Winograd Schema Challenge |
Morgenstern et al., 2016 |
60 |
Reference Resolution |
WinoGrande |
Sakaguchi et al., 2019 |
44.0K |
Question Answering |
MCTest. |
Richardson et al., 2013 |
2.00K |
Question Answering |
RACE. |
Lai et al., 2017 |
97.7K |
Question Answering |
NarrativeQA. |
Kocˇiský et al., 2018 |
46.8K |
Question Answering |
ARC |
Clark et al., 2018 |
7.79K |
Question Answering |
MCScript |
Ostermann et al., 2018 |
13.9K |
Question Answering |
ProPara |
Mishra et al., 2018 |
488 |
Question Answering |
MultiRC. |
Khashabi et al., 2018 |
9.87K |
Question Answering |
ARCT |
Habernal et al., 2018 |
2.45K |
Question Answering |
SQuAD. |
Rajpurkar et al., 2018 |
151K |
Question Answering |
CoQA. |
Reddy et al., 2018 |
8.40K |
Question Answering |
QuAC. |
Choi et al., 2018 |
98.4K |
Question Answering |
OpenBookQA. |
Mihaylov et al., 2018 |
5.96K |
Question Answering |
CommonsenseQA |
Talmor et al., 2019 |
9.40K |
Question Answering |
DREAM. |
Sun et al., 2019 |
10.2K |
Question Answering |
DROP. |
Dua et al., 2019 |
96.6K |
Question Answering |
Cosmos QA. |
Huang et al., 2019 |
35.6K |
Question Answering |
MC-TACO. |
Zhou et al., 2019 |
1.89K |
Textual Enatailment |
RTE Challenges. |
Bentivogli et al., 2011 |
48.8K |
Textual Enatailment |
Conversational Entailment. |
Zhang & Chai, 2009 |
875 |
Textual Enatailment |
SICK. |
Marelli et al., 2014a |
9.84K |
Textual Enatailment |
SNLI. |
Bowman et al., 2015 |
570K |
Textual Enatailment |
SciTail. |
Khot et al., 2018 |
27.0K |
Textual Enatailment |
SherLIiC. |
Schmitt & Schütze, 2019 |
3.99K |
Plausible Inference |
COPA. |
Roemmele et al., 2011 |
1.00K |
Plausible Inference |
CBT. |
Hill et al., 2015 |
687K |
Plausible Inference |
ROCStories. |
Mostafazadeh et al., 2016 |
98.2K |
Plausible Inference |
LAMBADA. |
Paperno et al., 2016 |
10.0K |
Plausible Inference |
JOCI. |
hang et al., 2017 |
39.1K |
Plausible Inference |
CLOTH. |
Xie et al., 2017 |
99.4K |
Plausible Inference |
SWAG. |
Zellers et al., 2018 |
114K |
Plausible Inference |
ReCoRD. |
Zhang et al., 2018 |
121K |
Plausible Inference |
HellaSWAG. |
Zellers et al., 2019a |
70.0K |
Plausible Inference |
AlphaNLI. |
Bhagavatula et al., 2019 |
171K |
Intuitive Psychology |
Triangle-COPA. |
Gordon, 2016 |
100 |
Intuitive Psychology |
Story Commonsense. |
Rashkin et al., 2018a |
161k |
Intuitive Psychology |
Event2Mind. |
Rashkin et al., 2018b |
57.1K |
Intuitive Psychology |
SocialIQA. |
Sap et al., 2019b |
44.8K |
Multple Tasks |
bAbI. |
Weston et al., 2016 |
40.0K |
Multple Tasks |
Inference is Everything. |
- |
- |
Multple Tasks |
GLUE. |
- |
- |
Multple Tasks |
DNC. |
Poliak et al., 2018a |
570K |
Multple Tasks |
SuperGLUE. |
- |
- |
如需查看对应地址,请在文末的原文链接进入
关于作者
刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监。专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。
原文链接:https://blog.csdn.net/lhy2014/article/details/108315274
本文来源于CSDN博客,如需转载请联系原作者。
更多精彩推荐
滴滴AI Labs负责人叶杰平离职!CTO 张博接任
5年5亿美金,华为昇腾如何构建全行业AI生态?
GitHub 标星 20000+,国产 AI 开源从算法开始突破 | 专访商汤联合创始人林达华
字节跳动斩获支付牌照欲建金融帝国,技术实力配得上野心吗?
腾讯微博即将关停,十年了,你用过吗?
Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引...相关推荐
- Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引
CognitiveInference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识 ...
- 认知推理下的常识知识库资源、常识测试评估与中文实践项目索引
作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 Cognitive Inference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现 ...
- 清华唐杰教授:人工智能的下一个十年,认知推理是重点(附PPT下载)
来源:学术头条 本文约4400字,建议阅读5分钟 本文为大家带来<人工智能下一个十年>的主题报告. 标签:人工智能 2020 年 3 月 25 日,智源研究院学术副院长.清华大学计算机系唐 ...
- 【论文速读】自动解题+认知推理+常识发现
序言 赶忙,不能写得很详细,所以把两篇类似的合并发在一篇paper里了,第一篇难度较低,是基于模板的做法,但是其中的概率模型方法值得借鉴,第二篇难度很大,想要彻底搞明白需要时间.第三篇很快的过了一遍, ...
- 认知推理:从图表示学习和图神经网络的最新理论看AI的未来
2020年3月29日,中国中文信息学会·社会媒体处理专委会和北京智源人工智能研究院联合主办的"图神经网络在线研讨会2020"成功召开,超过5000人报名参加本次活动.会上,四位国内 ...
- 基于知识图谱、认知推理、逻辑表达的认知图谱,则被越来越多的国内外学者和产业领袖认为是 “目前可以突破这一技术瓶颈的可行解决方案之一
当前的 AI 缺少信息进入 "大脑" 后的加工.理解和思考等,做的只是相对简单的比对和识别,仅仅停留在 "感知" 阶段,而非 "认知",以感 ...
- “神经+符号”:从知识图谱角度看认知推理的发展
2020-09-18 21:41:33 作者 | 王昊奋.王萌 编辑 | 陈彩娴 在过去十年的人工智能浪潮中,以深度学习为代表的人工智能技术已基本实现了视觉.听觉等感知智能,但依然无法很好地做到思考. ...
- [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 干货!基于部分-整体关系的概念、关系和物理场景认知推理
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 人类视觉感知的一个关键方面是能够将视觉场景解析为单个对象并进一步分解为对象部分,形成部分-整体层次结构.这种复合结构可以产生丰富的语义概 ...
最新文章
- LR分析法从理解到运用
- [转] Nodejs 进阶:Express 常用中间件 body-parser 实现解析
- Node入门--6--文件系统-创建删除
- 图解用tree命令研究Windows目录、.net目录、项目目录、JDK目录
- java不抛出方法异常,java – 重写方法不会抛出异常
- Memcached简介
- 火柴人_火柴人 x THANKSGIVING
- Objective-C中,ARC下的 strong和weak指针原理解释
- *多叉树的树形背包常见建模方法
- ES6学习(新增字符串方法)
- mysql任务计划怎么定制_mysql计划任务
- 【渝粤教育】国家开放大学2018年春季 3717-22T天然气管道长输技术 参考试题
- 数据资产管理:大数据时代的新风口
- oracle单行函数有哪些,oracle篇 之 单行函数
- 素材解析程序源代码,用thinkphp开发的 支持12大网站,其他需要定制
- 用MySQL判断一个数为素数_判断一个数是否是素数
- 梨花风起正清明,清明习俗知多少?
- 构建线上线下一体化解决方案,旺小宝以AI赋能房企数智化营销|爱分析访谈
- 炎颂科技管理系统软件——助力商协会“互联网+”之路
- 图像形态学处理(击中击不中变换 ) 终于搞懂了
热门文章
- 前端工程师成长之多读好书
- ImageMagick简单记录
- 微软重新释出MS10-015 解决蓝屏问题
- installshield 2009实现安装包自动编译
- How to never give up
- 16.matlab并行处理,调用CPU得多核
- Boring counting HDU - 3518 (后缀数组)
- Python:线程之定位与销毁
- Java Socket编程 - 基于TCP方式的二进制文件传输【转】http://blog.csdn.net/jia20003/article/details/8248221...
- Windows Phone 7 Tip (4) -- User Agent