ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

项目地址

https://github.com/liuhuanyong/ChineseSemanticKB

项目介绍

语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:
1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动;
2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑;
3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强;
4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径;
5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合;
因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。

项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。

词库的类别

词库类型 词库规模 词库举例 词库应用
抽象关系库 346,048 座椅,抽象,家具 事件抽象与泛化,人民币贬值到货币贬值,再到美元贬值,可支持查询扩展、推荐等任务
反义关系库 34,380 开心@苦恼 可用于句子改写,开心改苦恼,支持数据增强,句子生成
同义关系库 424,826 开心@高兴 可用于查询扩展、数据增强,也可结合抽象关系库完成推荐等任务
简称关系库 136,081 北京大学@北大 可用于句子标准化、句子改写、实体消歧等任务
程度副词 222 极其,2.0 可用于情感强度计算,带情感色彩的句子生成
否定词 586 不,无,没有 可用于情感计算等任务
节日时间词 54 春节、五四节 可用于时间词识别等任务
量比词 7 占比、环比、同比 可用于金融领域指标类数据提取任务
数量介词 24 大约、达到、超过 可用于金融事件抽象或主干化的搭配词处理任务
停用词 3,861 ?、的、着 常规的文本特征提取等任务
修饰副词 222 所、有所 可结合程度副词完成情感强度计算等任务
情态词 77 肯定、应该、大概 可用于句子主观性计算、舆情与可信度计算

总结

1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万; https://github.com/liuhuanyong/ChineseSemanticKB
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正;
4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn

ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存相关推荐

  1. 面向中文自然语言处理的60余类系统开源实践项目与工业探索索引

    项目介绍 面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建.社会计算.自然语言处理组件.知识图谱.事理图谱.知识抽取.情感分析.深度学习等几个学习主题.包括作者个人简介.学习心得.语 ...

  2. 创新杯论文——面向中文专利信息的关系数据库检索优化策略研究及应用

    面向中文专利信息的关系数据库检索优化策略研究及应用 目 录 1     引言... 3 2     中文专利信息检索优化概述... 4 2.1      中文信息检索的概念... 4 2.2      ...

  3. 面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享

    ©PaperWeekly 原创 · 作者|罗志鹏 学校|深兰北京AI研发中心 研究方向|物体检测 全国知识图谱与语义计算大会(CCKS 2020)11 月 12 日至 15 日在江西南昌举行,CCKS ...

  4. 介绍几个专门面向中文的命名实体识别和关系抽取工具

    知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...

  5. 小布助手在面向中文短文本的实体链指比赛中的实践应用

    背景介绍 实体链指是指对于给定的一个文本(如搜索Query.微博.对话内容.文章.视频.图片的标题等),将其中的实体与给定知识库中对应的实体进行关联.实体链指一般有两种任务设计方式:Pipeline式 ...

  6. 技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

    作者:东北大学-知识图谱研究组  任飞亮 TechKG 是一个面向中文.面向学术.多领域的大型知识图谱知识库,知识库由"东北大学-知识图谱研究组"开发完成.和已有知识图谱如 Fre ...

  7. NLP实战:面向中文电子病历的命名实体识别

    一.前言 本篇文章是关于NLP中的中文命名实体识别(Named Entity Recognition,NER)的实战项目,该项目利用了大型预训练语言模型BERT和BiLSTM神经网络结构来进行NER任 ...

  8. 面向计算机的问题分析,计算机论文:面向中文问答系统问题分析与答案抽取方法之计算机研究.docx...

    计算机论文:面向中文问答系统问题分析与答案抽取方法之计算机研究 本文是一篇计算机论文,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term MemoryN ...

  9. 施路平教授:面向人工通用智能的类脑计算

    在2019年10月31日的北京智源大会"智能体系架构与芯片专题论坛"中,清华大学类脑计算研究中心主任施路平教授为我们分享了题为<面向人工通用智能的类脑计算>的主题演讲. ...

最新文章

  1. c++ primer plus 学习笔记
  2. python官网支持货到付款吗_官网购买的iPhone12pro还没发货?试着用Python快速入手...
  3. 浅谈安卓线程池相关问题
  4. Docker Compose部署项目到容器-基于Tomcat和mysql的项目yml配置文件代码
  5. MyBatis DAO层开发——Mapper动态代理方式
  6. OSError: Could not find kaggle.json
  7. centos路由查看命令_CentOS下使用Route命令添加路由
  8. 小程序 省市区县三级联动选择器(caseCade)
  9. camera中文版软件 ip_ip camera网络摄像机
  10. hibernate学习——Set集合配置
  11. vue-drag-resize实线页面的拖拽与缩放
  12. linux-shell-变量参数
  13. Leetcode 刷题笔记(十三) —— 二叉树篇之二叉树的层序遍历及相关题目
  14. 常见的web前端性能优化方法总结
  15. excel 将两列数据合并,以逗号分隔
  16. html二级页面怎么设置,网页中的二级页面和三级页面是什么啊?怎么做?
  17. LSUN数据集读取和解压,mdb格式转换为jpg格式(保姆教程)
  18. Gazebo手册:【1】gazebo基本操作案例
  19. 东南大学提出条件自监督小样本学习方法,显著提升小样本分类准确率
  20. 如何让手机 1 秒打开健康码,任何机型!

热门文章

  1. 熬夜给这个C语言游戏项目找了几个bug
  2. C++ —— C++程序编译的四个过程
  3. android 4.4 下拉菜单 透明,4.2状态栏,下拉,全局透明教程
  4. asp删除mysql_asp php 清空access mysql mssql数据库的代码
  5. JS高级——Proxy、Reflect
  6. 1+X web中级 Laravel学习笔记——Eloquent ORM查询、更新、删除、新增
  7. Chapter7-4_來自獵人暗黑大陸的模型 GPT-3
  8. LeetCode 1660. 纠正二叉树(BFS)
  9. LeetCode 1093. 大样本统计
  10. 动态规划应用--找零钱