点击上方,选择星标置顶,每天给你送干货

阅读大概需要7分钟

跟随小博主,每天进步一丢丢

来自:AI部落联盟

zenRRan有改动

导读

经常有人问我:老大让我完成xxx,我不会,他也不会,但是很着急。这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,而且很多时候问得问题跟具体需要简直是驴唇不对马嘴。所以今天整理了常见的近30种NLP任务非常适合练手的Project,我觉得有俩作用:研究+练手,加深理解,做到更专业;收藏起来,以备不时之需,不敢保证涵盖工业界所有NLP业务场景,但是涵盖95+%以上是完全没问题的。

还有一个原因,周末了,我发现大部分人周五晚上开始到周一上午都不看技术相关的内容,那就发点不用过多思考的实践类的吧。如果精力充沛或是单身,最好周末还是保持学习状态,毕竟技术是无止境的,真的需要积累。

首先声明下,今天发的这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。

30种NLP任务

1.分词 Word Segmentation

chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。

对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.

2.词预测 Word Prediction

Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。

3. 文本蕴涵 Textual Entailment

Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。

4. 语音识别 Automatic Speech Recognition

buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。

5. 自动摘要 Automatic Summarisation

PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。

6. 文本纠错 Text Correct

atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。

7.字音转换 Grapheme to Phoneme

cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。

8. 复述检测 Paraphrase Detection 和 问答 Question Answering

Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。

9. 音汉互译 Pinyin-To-Chinese

Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。

10.  情感分析 Sentiment Analysis

情感分析保护的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。

11. 手语识别 Sign Language Recognition

Home - SignAll, 该项目在手语识别做的非常成熟。

12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。

HIT-SCIR/ltp, 保护代码、模型、数据,还有详细的文档,而且效果还很好。

13. 词干 Word Stemming

snowballstem/snowball, 实现的词干效果还不错。

14. 语言识别 Language Identification

https://github.com/saffsd/langid.py,语言识别比较好的开源工具。

15. 机器翻译 Machine Translation

OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。

16. 复述生成 Paraphrase Generation

vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。

17. 关系抽取 Relationship Extraction

ankitp94/relationship-extraction,基于核方法的关系抽取。

18. 句子边界消歧 Sentence Boundary Disambiguation

https://github.com/Orekhov/SentenceBreaking,很有意思。

19.事件抽取 Event Extraction

liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

20. 词义消歧 Word Sense Disambiguation

alvations/pywsd,代码不多,方法简单,适合练手。

21. 命名实体消歧 Named Entity Disambiguation

dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。

22. 幽默检测 Humor Detection

pln-fing-udelar/pghumor

23. 讽刺检测 Sarcasm Detection

AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。

24. 实体链接 Entity Linking

hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。

25. 指代消歧 Coreference Resolution

huggingface/neuralcoref,基于神经网络的指代消歧。

26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion

thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。

推荐阅读:

一大批历史精彩文章啦

详解文本分类之多通道CNN的理论与实践

详解文本分类之DeepCNN的理论与实践

介绍4个大神常用而你不常用的python函数

资源 | 邓力、刘洋等合著的这本NLP经典书籍之情感分析中文版

资源 | 有没有必要把机器学习算法自己实现一遍?

谈谈我在自然语言处理进阶上的一些个人拙见

从Word Embedding到Bert模型——自然语言处理预训练技术发展史


好文!必须点赞

练手|常见近30种NLP任务的练手项目相关推荐

  1. 练手|常见26种NLP任务的练手项目

    经常有人问我:老大让我完成xxx,我不会,他也不会,但是很着急.这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,而且很多时候问得问题跟具体需要的技术简直是驴唇不对马嘴.所以今 ...

  2. php 中文朗读,能说会道 学生版 官方网站 | 功能最强大的语音朗读软件,支持全世界近30种语言...

    [概括介绍] "能说会道"学生版 完美支持 Windows XP/Windows Vista/Windows 7/Windows 8/Windows 10 操作系统,是一款面向学生 ...

  3. 常见26种NLP任务的练手项目

    文章目录 1.分词 Word Segmentation 2.词预测 Word Prediction 3. 文本蕴涵 Textual Entailment 4. 语音识别 Automatic Speec ...

  4. 异常检测:PyOD工具库(含SUOD库)【包括近30种常见的异常检测算法:ABOD、HBOS、IForest、KNN、LOF、OCSVM、PCA等】【Outlier detection (OD) 】

    pyod(Python Outlier Detection)是一个集成了30余种异常检测方法和模型的Python工具箱.从经典的 LOF (SIGMOD 2000) 到近两年的 COPOD (ICDM ...

  5. 程序员遇到bug时常见的30种反应

    开发应用程序是一项压力很大的工作,人无完人,工作中遇到bug是很正常的事,有些程序员会生气,沮丧,郁闷,甚至泄气,也有一些程序员则会比较淡定.如何进行修复bug的过程,是值得我们好好推敲的. 我想分享 ...

  6. css3绘制常见的30种形状(心形,五角星,六边形,钻石,对话框,阴阳鱼图等)

    CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等 新出的html5新增了不少标签,性能更强,原来的很繁琐的功能几个标签就能实现,同时CSS3也推出,更是一大亮点, ...

  7. 英文手绘字体_40种免费的高质量手绘字体

    与衬线字体家族不同,这些手绘字体看起来不太严重,但是无论在何处使用它们,都倾向于给人以强烈的人文感. 手绘字体很难单独使用,但在以下情况下它们是最完美的: 如果您受到启发使您的新网页设计具有草图或手绘 ...

  8. 车架识别手机端只是一种?

    车架识别手机端只是一种? 您在购车时最关注的的是什么?性能.外观.内饰.或者看看发动机,助力油什么的. 其实您错了,当然以上也是不可忽略的,只是有一个关注点比这些更重要,就是VIN码. 如下图这串由数 ...

  9. 一看“左程云:200道算法与数据结构”,二刷“阿里云:70+算法题、30种大厂笔试高频知识点”,3月过去终于挺进我梦中的字节!

    不管是学生还是已经工作的人,我想彼此都有一个相同的梦想:进大厂! 眼看着2020年还有个三十来天就要完美收尾了,那么如何才能在未来三个月弯道超车赶上"金三银四的春招",进入梦寐以求 ...

  10. 契约锁集成近20种人事软件,助力HR网上签署“入转调离”文件

    近年,电子签章在人事工作中的应用逐步深化,从"人事证明自主盖章"到"电子劳动合同普及应用".目前,围绕企业员工"招聘.入职.在职.调岗.离职" ...

最新文章

  1. 胡玮炜卸任摩拜CEO,或将成为美团大裁员的开端
  2. Cannot load 32-bit SWT libraries on 64-bit JVM
  3. PHP_SELF、 SCRIPT_NAME、 REQUEST_URI区别
  4. 百度UEditor控件中的map组件不支持https使用的问题解决
  5. java编写一个整钱换零_Java编写钱币转换为大写程序
  6. 笔记本显示服务器,如何将笔记本电脑用作无头服务器的键盘,显示器和鼠标
  7. SAP ECC6安装系列二:安装前的准备工作
  8. 这位程序员就这样被征服了......
  9. 【优化分类】基于matlab粒子群算法优化支持向量机分类(多输入多分类)【含Matlab源码 1559期】
  10. 电商项目分析用户购买行为案例一
  11. stm32定时器引脚分布,定时器2~7、9~14基本配置
  12. python 根据条件输出_python数据类型、输入输出、运算符、条件判断、循环
  13. 工业大数据白皮书(2019版)
  14. 兼容性最好的android模拟器,哪个安卓模拟器好用,性能最好,兼容性最强
  15. 《连线》杂志:Web已死 Internet永生(全文),互联网营销
  16. 爬虫|巨潮资讯网上市公司年报爬取
  17. Analyzing Neural Time Series Data 读书笔记6
  18. 反编译系列教程(上)
  19. 辐射强度 BRDF概念定义明晰
  20. 六轴系统中陀螺仪输出的角速度的一些问题

热门文章

  1. (转) 如何在JavaScript与ActiveX之间传递数据1
  2. java设计模式(四)--单例模式
  3. Windows 10下使用Xshell5连接虚拟机的ubuntu18系统
  4. 左连接与右连接的区别
  5. C#获取当前路径的七种方法
  6. 一个精心制作的页眉样式
  7. linux 文件系统简介
  8. HTML中行内元素与块级元素的区别:
  9. Mysql分页之limit用法与limit优化
  10. PaddlePaddle(2)——数据获取与处理(以CV任务为主)