深度学习-自然语言处理:概述【NLP技术的四个维度:声音、单词、句子结构、语义】

  • 一、NLP的主要问题
  • 二、NLP技术的四个维度
    • 1、声音
    • 2、单词/Morphology层面的技术
      • 2.1 Word Segmentation(分词)
      • 2.2 Part-Of-Speech(POS/词性标注)
      • 2.3 Named Entity Recognition(NER/命名实体识别)
    • 3、句子结构/Syntax层面的技术
      • 3.1 句法分析
      • 3.2 依存分析
    • 4、语义/Semantic层面的技术
      • 4.1 机器学习算法
      • 4.2 情感分析
  • 三、练手|常见30种NLP任务的练手项目
  • 四、自然语言处理相关项目列表(2018/02/05更新)
  • 五、What are the major open problems in natural language understanding?
    • 1、Easy or mostly solved(简单的)
      • 1.1 Spam detection(垃圾邮件检测)
      • 1.2 Word Segmentation(分词)
      • 1.3 Part of Speech Tagging(词性标注)
      • 1.4 Named Entity Recognition(命名实体识别)
    • 2、Intermediate or making good progress(中等难度)
      • 2.1 Sentiment analysis(情感分析)
      • 2.2 Coreference resolution (指代消解)
      • 2.3 Word sense disambiguation(词义消歧)
      • 2.4 Parsing(解析)
      • 2.5 Machine Translation(机器翻译)
      • 2.6 Information Translation(信息翻译)
    • 3、Hard or still need lot of work(很难)
      • 3.1 Text Summarization(自动摘要)
      • 3.2 Machine dialog system(机器对话系统)
  • 六、最有影响力的自然语言处理论文

自然语言处理:也称为NLP (Natural Language Processing),是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

一、NLP的主要问题

  • 中文自动分词(Chinese word segmentation)
  • 词性标注(Part-of-speech tagging)
  • 自然语言生成(Natural language generation)
  • 文本分类(Text categorization)
  • 信息检索(Information retrieval)
  • 信息抽取(Information extraction)
  • 问答系统(Question answering)
  • 机器翻译(Machine translation)
  • 自动摘要(Automatic summarization)


二、NLP技术的四个维度

1、声音

2、单词/Morphology层面的技术

2.1 Word Segmentation(分词)


分词后的预处理:

  • spell correction
  • 同义词
  • stop-words
  • words-filtering

2.2 Part-Of-Speech(POS/词性标注)

2.3 Named Entity Recognition(NER/命名实体识别)

3、句子结构/Syntax层面的技术

3.1 句法分析


CYK算法(基于动态规划)

3.2 依存分析


4、语义/Semantic层面的技术

4.1 机器学习算法

4.2 情感分析

三、练手|常见30种NLP任务的练手项目

这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。

1.分词 Word Segmentation

chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。

对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.

2.词预测 Word Prediction

Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。

3. 文本蕴涵 Textual Entailment

Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。

4. 语音识别 Automatic Speech Recognition

buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。

5. 自动摘要 Automatic Summarisation

PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。

6. 文本纠错 Text Correct

atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。

7.字音转换 Grapheme to Phoneme

cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。

8. 复述检测 Paraphrase Detection 和 问答 Question Answering

Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。

9. 音汉互译 Pinyin-To-Chinese

Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。

10. 情感分析 Sentiment Analysis

情感分析包括的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,sentic.net/about/

11. 手语识别 Sign Language Recognition

Home - SignAll, 该项目在手语识别做的非常成熟。

12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。

HIT-SCIR/ltp, 包括代码、模型、数据,还有详细的文档,而且效果还很好。

13. 词干 Word Stemming

snowballstem/snowball, 实现的词干效果还不错。

14. 语言识别 Language Identification

github.com/saffsd/langi,语言识别比较好的开源工具。

15. 机器翻译 Machine Translation

OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。

16. 复述生成 Paraphrase Generation

vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。

17. 关系抽取 Relationship Extraction

ankitp94/relationship-extraction,基于核方法的关系抽取。

18. 句子边界消歧 Sentence Boundary Disambiguation

github.com/Orekhov/Sent,很有意思。

19.事件抽取 Event Extraction

liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

20. 词义消歧 Word Sense Disambiguation

alvations/pywsd,代码不多,方法简单,适合练手。

21. 命名实体消歧 Named Entity Disambiguation

dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。

22. 幽默检测 Humor Detection

pln-fing-udelar/pghumor

23. 讽刺检测 Sarcasm Detection

AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。

24. 实体链接 Entity Linking

hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。

25. 指代消歧 Coreference Resolution

huggingface/neuralcoref,基于神经网络的指代消歧。

26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion

thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。

四、自然语言处理相关项目列表(2018/02/05更新)

https://www.cnblogs.com/d0main/p/8176825.html

五、What are the major open problems in natural language understanding?

1、Easy or mostly solved(简单的)

1.1 Spam detection(垃圾邮件检测)

1.2 Word Segmentation(分词)

1.3 Part of Speech Tagging(词性标注)

Example
INPUT:
Profits soared at Boeing Co., easily topping forecasts on Wall Street, as
their CEO Alan Mulally announced first quarter results.
OUTPUT:
Profits/N soared/V at/P Boeing/N Co./N ,/, easily/ADV topping/V forecasts/
N on/P Wall/N Street/N ,/, as/P their/POSS CEO/N Alan/N Mulally/
N announced/V first/ADJ quarter/N results/N ./.
KEY: N = Noun, V = Verb, P = Preposition, Adv = Adverb

1.4 Named Entity Recognition(命名实体识别)

Example
INPUT:
Profits soared at Boeing Co., easily topping forecasts on Wall Street, as
their CEO Alan Mulally announced first quarter results.
OUTPUT:
Profits/NA soared/NA at/NA Boeing/SC Co./CC ,/NA easily/NA topping/
NA forecasts/NA on/NA Wall/SL Street/CL ,/NA as/NA their/NA CEO/NA
Alan/SP Mulally/CP announced/NA first/NA quarter/NA results/NA ./NA
KEY: NA = No entity, SC = Start Company, CC = Continue Company, SL = Start Location, CL = Continue Location

2、Intermediate or making good progress(中等难度)

2.1 Sentiment analysis(情感分析)

Example:
Best roast chicken in San Francisco! – Positive
The waiter ignored us for 20 minutes. – Negative

2.2 Coreference resolution (指代消解)

Example: “Carter told Mubarak he shouldn’t run again.” To solve whether “he” is related to “Carter” or “Mubarak”.

2.3 Word sense disambiguation(词义消歧)

Example :
I need new batteries for my mouse. - “mouse” is ambiguous here.

2.4 Parsing(解析)

the basic problem of parsing sentences.

2.5 Machine Translation(机器翻译)

translating sentences from one language to another, best example would be Google translate.

2.6 Information Translation(信息翻译)

to take a text as input and represent it in a structured form like a database entries.

3、Hard or still need lot of work(很难)

3.1 Text Summarization(自动摘要)

to take input as text document(s) and try to condense them into a summary.

3.2 Machine dialog system(机器对话系统)

Example:
User - I need a flight from New York to London, arriving at 10 pm ?
System - What day are you leaving?
User - Tomorrow.

System detects the missing information in your sentences.

六、最有影响力的自然语言处理论文

最近有时间我会从前往后阅读nlper这个博客,发现“Most Influential NLP Papers”这篇文章比较有参考价值,不过写于06年初,稍早一些,但是真金不怕火炼,就放在这里供大家参考了!
  “I conducted a mini survey recently, asking people I knew what they thought were the most influential papers in NLP from the past two decades. Here are the wholly unscientific results, sorted from most votes and subsorted by author. Note that I only got responses from 7 people. I’ve not listed papers that got only one vote and have not included my personal votes.”
  按照作者的说法,他是做了一个小型的调查,通过询问他所了解的自然语言处理的研究者“过去20年他们所认为的最有影响力的自然语言处理论文”得到这个调查结果的。事实上,作者仅仅得到七个人的回应,并且其中六个人是南加州大学(作者所工作的单位)和宾州大学的。以下是调查的最终结果,按照得票数进行排序,如果票数相同,则按论文作者的姓名进行排序,注意其中并不包括只得到一票的论文和作者自己的投票:
  (7 votes): Brown et al., 1993; The Mathematics of Statistical Machine Translation(统计机器翻译)
  (5 votes): Collins, 1997; Three Generative, Lexicalised Models for Statistical Parsing(统计句法分析)
  (4 votes): Marcus, 1993 Building a large annotated corpus of English: the Penn Treebank(语料库)
  (3 votes): Berger et al., 1996; A maximum entropy approach to natural language processing(最大熵)
  (2 votes): Bikel et al., 1997; An Algorithm that Learns What’s in a Name
  (2 votes): Collins, 2002; Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms
  (2 votes): Lafferty et al., 2001; Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(条件随机场)
  (2 votes): Och, 2003; Minimum Error Rate Training for Statistical Machine Translation(统计机器翻译)
  (2 votes): Papineni et al., 2001; Bleu: a method for automatic evaluation of machine translation(机器翻译自动评测)
  (2 votes): Ratnaparkhi, 1999; Learning to Parse Natural Language with Maximum Entropy Models
  (2 votes): Yarowsky, 1995; Unsupervised Word Sense Disambiguation Rivaling Supervised Methods(词义消歧)
  括号中是我注释的所属领域,机器翻译之所以占了三个,估计与南加州大学的投票有关。
  不知道这里是否也可以做个这样的调查?毕竟个人的能力有限,而大家的力量是无穷的,如果我们这些nlpers一起行动,也许会有一个不错的调查结果,对大家以及后来者多少都会有些参考。
  初步的想法是:读者如果熟悉自然语言处理或者计算语言学某个领域,可以列出自己认可的比较有影响力的几篇自然语言处理论文,如果能得到足够的回复,我最后统一汇总一下这些结果,做个类似nlper的调查结论。
  52nlp还远没有nlper那么大的影响力,我也不知道这个调查是否能最终成功,但是希望亲爱的nlper们能行动起来,无论是一篇还是两篇!




参考资料:
NLP算法岗一年半的工作总结–聊聊什么才是NLP算法工程师的核心竞争力
NLP常见任务
What are the major open problems in natural language understanding?
练手|常见30种NLP任务的练手项目
自然语言处理(NLP)知识结构总结
https://github.com/msgi/nlp-journey.git
链接:https://pan.baidu.com/s/1Rj_AoxZyrQItZg78iqFAAg 提取码:izej
最有影响力的自然语言处理论文
自然语言处理(NLP)论文资料

自然语言处理(NLP):概述【NLP技术的四个维度:声音、单词、句子结构、语义】相关推荐

  1. 测试语义理解技术的四个维度

    我们氖星智能提出了语义理解的四个维度:差异性.同一性.模糊性.一致性. 差异性就是理解句子之间的细微差异.比如"这是我""这是我的",差了个"的&qu ...

  2. 入坑NLP - 自然语言处理领域概述

    自然语言处理研究的内容包括但不限于如下分支领域:文本分类.信息抽取.自动摘要.智能问答.话题推荐.机器翻译.主题词识别.知识库构建.深度文本表示.命名实体识别.文本生成.文本分析(词法.句法.语法). ...

  3. 技术人文丨他们“说”的每一句话,都有ASR、NLP、TTS技术

    还记得前一段时间我们为言语障碍用户阿卷定制了"属于"他的声音吗?如果遗忘了,不妨回顾下<小米自研语音合成声音定制技术:让世界听见你的声音!> 在此之中,我们一直重复提到 ...

  4. 中文自然语言处理可能是 NLP 中最难的?

    现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢? 在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受 ...

  5. AI开发者大会之语音语义技术实践与应用:2020年7月3日《NLP在教育行业的应用》、《AI防疫-语音语义技术在政务联络场景中的应用》、《智能客服机器人在售前导购场景中的应用实践》

    AI开发者大会之语音语义技术实践与应用:2020年7月3日<NLP在教育行业的应用>.<AI防疫-语音语义技术在政务联络场景中的应用>.<智能客服机器人在售前导购场景中的 ...

  6. 深度学习与自然语言处理教程(8) - NLP中的卷积神经网络(NLP通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...

  7. 北京内推 | 百度自然语言处理部招聘NLP算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 百度 百度自然语言处理部(NLP)是百度历史最悠久的基础技术部门之一,以& ...

  8. 集合啦,NLP数据增强技术!超全资源汇总

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI 数据增强技术已经是CV领 ...

  9. 训练softmax分类器实例_CS224N NLP with Deep Learning(四):Window分类器与神经网络

    Softmax分类器 我们来回顾一下机器学习中的分类问题.首先定义一些符号,假设我们有训练集 ,其中 为输入, 为标签,共包括 个样本: 表示第 个样本,是一个 维的向量: 表示第 个样本的标签,它的 ...

最新文章

  1. 找出两个字符串中最大子字符串,如abractyeyt,dgdsaeactyey的最大子串为actyet
  2. 聊聊EIGRP的自动汇总与手工汇总
  3. 深度学习手势识别带你玩转神庙逃亡
  4. 微软 CTO 韦青:“程序员 35 岁就被淘汰”是个伪概念 | 人物志
  5. 使用STAD研究product搜索和保存的性能
  6. 安卓androidstudio访问本地接口_安卓开发之数据存储在本地的四种方式
  7. C BackgroundWorker类详细说明
  8. html5 datalist 选中option选项后的触发事件
  9. python极客项目编程 豆瓣_《Python极客项目编程》
  10. 操作系统中的fork()函数对应的进程创建过程
  11. 《C++ 沉思录》阅读笔记——句柄类
  12. 关于光学软件设计衍射透镜的一点总结
  13. cachecloud:安装部署(一)
  14. [转]中国青岛发布新一代CPU桥片“星光青桥一号”
  15. 没有用递归,写了一个文本转成树的小程序,代码凑和看吧
  16. 乾天驭爪——智能空中作业机器人
  17. 【JAVA EE#6】【传智书城·源码阅读】后台管理模块:权限控制+页面分析+商品管理+销售榜单+订单管理+公告管理+项目结构思维导图
  18. 什么是服务端与客户端详解
  19. 练习8 利用有限状态机进行时序逻辑设计
  20. matlab2012仿真电路图,MATLAB电路仿真搭建教程

热门文章

  1. python:统计数字字符个数
  2. 【SystemVerilog基础】基于覆盖率驱动(CDV)的验证方法快速上手指南
  3. 知识产权大数据平台_数据科学家的知识产权
  4. NFC手机模拟各种卡,让您出门只需带一部手机
  5. Qt TextEdit 使用
  6. VTM配置并使用VTM对YUV视频帧进行编解码(基于windows系统)
  7. µC/OS-II 系统空闲任务,统计任务和应用任务
  8. WPS文档如何设置或取消自动生成序号
  9. VC添加ESXi异常datacenter.queryconnectioninfo
  10. AI是通往元宇宙的关键变量