中文自然语言处理,目前在AI泡沫之下,真假难辨,实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理,做的人与讲的人往往是两回事。
1、深度学习在自然语言处理当中,除了在分类问题上能够取得较好效果外(如单选问题:情感分类、文本分类、正确答案分类问题等),在信息抽取上,尤其是在元组抽取上基本上是一塌糊涂,在工业场景下很难达到实用水准。
2、目前各种评测集大多是人为标注的,人为标注的大多为干净环境下的较为规范的文本,而且省略了真实生产环节中的多个环节。在评测环节中达到的诸多state-of-art方法,在真实应用场景下泛化能力很差,大多仅仅是为了刷榜而刷榜。
3、目前关于知识图谱的构建环节中,数据大多数都还是来自于结构化数据,半结构化信息抽取次之,非结构化数据抽取最少。半结构化信息抽取,即表格信息抽取最为危险,一个单元格错误很有可能导致所有数据都出现错误。非结构化抽取中,实体识别和实体关系识别难度相当大。
4、工业场景下命名实体识别,标配的BILSTM+CRF实际上只是辅助手段,工业界还是以领域实体字典匹配为主,大厂中往往在后者有很大的用户日志,这种日志包括大量的实体信息。因此,生产环节中的实体识别工作中,基础性词性的构建和扩展工作显得尤为重要。
5、目前关于知识图谱推理问题,严格意义上不属于推理的范畴,最多只能相当于是知识补全问题,如评测中的知识推理任务,是三元组补全问题。
6、目前舆情分析还是处于初级阶段。目前舆情分析还停留在以表层计量为主,配以浅层句子级情感分析和主题挖掘技术的分析。对于深层次事件演化以及对象级情感分析依旧还处于初级阶段。
7、Bert本质上仅仅是个编码器,是word2vec的升级版而已,不是无所不能,仅仅是编码能力强,向量表示上语义更为丰富,然而大多人都装糊涂。
8、学界和业界最大的区别在于,学界以探索前沿为目的,提新概念,然后搭个草图就结束,目光并不长远,打完这一战就不知道下一战打什么,下一战该去哪里打,什么时候打,或者打一枪换个阵地再打。而业界,往往面临着生存问题,需要考虑实际问题,还是以解决实际问题为主,因此没必要把学界的那一套理念融入到生产环节中,要根据实际情况制定自己的方法。
9、利用结构化数据,尤其是百科类infobox数据,采集下来,存入到Neo4j图数据库中,就称自己建立了知识图谱的做法是伪知识图谱做法。 基于这类知识图谱,再搞个简单的问答系统,就标榜自己是基于知识图谱的智能问答,实际上很肤浅。
10、知识图谱不是结构化知识的可视化(不是两个点几条边)那么简单,那叫知识的可视化,不是知识图谱。知识图谱的核心在于知识的图谱化,特点在于知识的表示方法和图谱存储结构,前者决定了知识的抽象表示维度,后者决定了知识运行的可行性,图算法(图遍历、联通图、最短路径)。基于图谱存储结构,进行知识的游走,进行知识表征和未知知识的预测。
11、物以希为贵,大家都能获取到的知识,往往价值都很低。知识图谱也是这样,只有做专门性的具有数据壁垒的知识图谱,才能带来商业价值。
12、目前智能问答,大多都是人工智障,通用型的闲聊型问答大多是个智障,多轮对话缺失,答非所问等问题层出不穷。垂直性的问答才是出路,但真正用心做的太少,大多都是处于demo级别。
13、大多数微信自然语言处理软文实际上都不可不看,纯属浪费时间。尤其是在对内容的分析上,大多是抓语料,调包统计词频,提取关键词,调包情感分析,做柱状图,做折线图,做主题词云,分析方法上千篇一律。应该从根本上去做方法上的创新,这样才能有营养,从根本上来说才能有营养可言。文本分析应该从浅层分析走向深层分析,更好地挖掘文本的语义信息。
14、目前百科类知识图谱的构建工作有很多,重复性的工作不少。基于开放类百科知识图谱的数据获取接口有复旦等开放出来,可以应用到基本的概念下实体查询,实体属性查询等,但目前仅仅只能做到一度。
15、基于知识图谱的问答目前的难点在于两个方面,1)多度也称为多跳问题,如姚明的老婆是谁,可以走14条回答,但姚明的老婆的女儿是谁则回答不出来,这种本质上是实体与属性以及实体与实体关系的分类问题。2)多轮问答问题。多轮分成两种,一种是指代补全问答, 如前一句问北京的天气,后者省略“的天气”这一词,而只说“北京”,这个需要进行意图判定并准确加载相应的问答槽。另一种是追问式多轮问答,典型的在天气查询或者酒店预订等垂直性问答任务上。大家要抓住这两个方面去做。
16、关系挖掘是信息抽取的重要里程碑,理解了实体与实体、实体与属性、属性与属性、实体与事件、事件与事件的关系是解决真正语义理解的基础,但目前,这方面,在工业界实际运用中,特定领域中模板的性能要比深度学习多得多,学界大多采用端到端模型进行实验,在这方面还难以超越模版性能。

说实话:中文自然语言处理(知识图谱)的N个真实情况相关推荐

  1. 中文通用百科知识图谱(CN-DBpedia)

    http://www.openkg.cn/dataset/cndbpedia 原始数据采用了中文通用百科知识图谱(CN-DBpedia)公开的部分数据, 包含900万+的百科实体以及6600万+的三元 ...

  2. dbpedia知识图谱java_中文通用百科知识图谱(CN-DBpedia)

    介绍 CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,其前身是复旦GDM中文知识图谱. CN-DBpedia主要从中文百科类网站(如百度百科.互动百科.中文维基百科 ...

  3. 生物医学知识库/知识图谱(英文+中文)盘点

    因为硕士研究方向是基于知识图谱的中文医学问答系统,所以调研了下现有的生物医学(BioMedical)和医学(Medical)知识库. 首先需要对上述两个概念做个区分,从我的理解来看,生物医学更加微观, ...

  4. 容联云AI科学院研发先进KBQA能力,问鼎大规模中文知识图谱问答权威性测评

    容联云AI科学院研发的KBQA算法,凭借其对中文语言及知识图谱的精准语义解析和推理能力,夺得权威中文语言评测CLUE中的大规模中文知识图谱问答KgCLUE榜单的第一名. KgCLUE是中文语言理解领域 ...

  5. 中文知识图谱CN-DBpedia构建的关键技术

    这篇博客是根据学习查看复旦大学知识工厂实验室的徐波老师报告整合资料后的笔记,报告内容详略得当,结构清晰,干货满满,于是便自己整理并记下来,方便以后深度学习. 什么是知识图谱? 知识图谱本质上是一种语义 ...

  6. 自然语言处理(NLP)之五:知识图谱

    0. 引言 现在的很多数据是互相连接的,如果想分析这些链接的价值,知识图谱可以是一种有效的工具.而且随着万物互联时代的到来,链接中所包含的信息必然会发挥更大的价值,这也是为什么知识图谱在最近几年发展这 ...

  7. 转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

    https://blog.csdn.net/guleileo/article/details/81140179 干货 | 陪伴我学习NLP.知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说 ...

  8. 干货 | NLP、知识图谱教程、书籍、网站、工具...(附资源链接)

    来源:人工智能头条 本文多资源,建议阅读收藏. 本文整理了关于 NLP 与知识图谱的众多参考资源,涵盖内容与形式非常丰富. [ 导读 ]本文作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖 ...

  9. 技术实践:大规模知识图谱预训练及电商应用

    本文作者: 张文(浙江大学).黄志文(阿里巴巴).叶橄强(浙江大学).文博(浙江大学).张伟(阿里巴巴),陈华钧*(浙江大学) 接收会议: ICDE 2021 1. 文章导读 本文介绍了浙江大学阿里巴 ...

最新文章

  1. SQL连接查询和嵌套查询详解
  2. 读书笔记6pandas简单使用
  3. python 给word添加背景图片_Python如何使用word文档插入图片和表格
  4. linux错误代码0x8008005,利用Windows10自带Linux学习(附带:0x8007019e错误解决方法)...
  5. 一步步编写操作系统 18 操作显卡,显存,显示器 下
  6. android jni arm x86,使用houdini(Android模拟器)在基于x86的AVD上运行ARM库
  7. Product user profile information 没有导入
  8. 自学python需要安装什么-学习python需要什么基础吗?老男孩Python
  9. 【洛谷P2279】[HNOI2003]消防局的设立
  10. Gradle依赖的统一管理
  11. 括号匹配算法Java实现
  12. IncDec Sequence(差分)
  13. python相比于c语言更静态_Python的几种实现
  14. c语言程序 题库管理,C语言程序设计题库管理系统-20210412073918.docx-原创力文档
  15. 知识图谱构建流程原型、工具、数据、表示、推理以及可视化
  16. WEB UI设计规范
  17. 毕业设计 基于51单片机老人防跌倒GSM短信报警系统
  18. element-ui message 显示重叠问题
  19. 企业为什么要选择人力外包?好处与坏处
  20. 北大肖臻老师《区块链技术与应用》系列课程学习笔记[1]Bitcoin中用到的密码学原理和数据结构

热门文章

  1. 回答嵌入式初学者的一些问题
  2. Vim安装插件在命令行下看代码
  3. c语言 从文件读入数组,C++ 将一个文件读入数组再读出数组的方法
  4. c++ doxygen 注释规范_利用Doxygen给C程序生成注释文档
  5. STM32——GPIO(2)
  6. 手机java软件_浅谈软件开发就业前景
  7. deepin tim(wine)无法安装_浅析国产操作系统深度deepin
  8. 基于JWT的身份认证学习笔记
  9. Express 结合 multer 上传图片
  10. LeetCode 2207. 字符串中最多数目的子字符串(前缀和)