练手|常见近30种NLP任务的练手项目
点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要7分钟
跟随小博主,每天进步一丢丢
来自:AI部落联盟
zenRRan有改动
导读
经常有人问我:老大让我完成xxx,我不会,他也不会,但是很着急。这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,而且很多时候问得问题跟具体需要简直是驴唇不对马嘴。所以今天整理了常见的近30种NLP任务非常适合练手的Project,我觉得有俩作用:研究+练手,加深理解,做到更专业;收藏起来,以备不时之需,不敢保证涵盖工业界所有NLP业务场景,但是涵盖95+%以上是完全没问题的。
还有一个原因,周末了,我发现大部分人周五晚上开始到周一上午都不看技术相关的内容,那就发点不用过多思考的实践类的吧。如果精力充沛或是单身,最好周末还是保持学习状态,毕竟技术是无止境的,真的需要积累。
首先声明下,今天发的这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。
30种NLP任务
1.分词 Word Segmentation
chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。
对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.
2.词预测 Word Prediction
Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。
3. 文本蕴涵 Textual Entailment
Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。
4. 语音识别 Automatic Speech Recognition
buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。
5. 自动摘要 Automatic Summarisation
PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。
6. 文本纠错 Text Correct
atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。
7.字音转换 Grapheme to Phoneme
cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。
8. 复述检测 Paraphrase Detection 和 问答 Question Answering
Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。
9. 音汉互译 Pinyin-To-Chinese
Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。
10. 情感分析 Sentiment Analysis
情感分析保护的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。
11. 手语识别 Sign Language Recognition
Home - SignAll, 该项目在手语识别做的非常成熟。
12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。
HIT-SCIR/ltp, 保护代码、模型、数据,还有详细的文档,而且效果还很好。
13. 词干 Word Stemming
snowballstem/snowball, 实现的词干效果还不错。
14. 语言识别 Language Identification
https://github.com/saffsd/langid.py,语言识别比较好的开源工具。
15. 机器翻译 Machine Translation
OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。
16. 复述生成 Paraphrase Generation
vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。
17. 关系抽取 Relationship Extraction
ankitp94/relationship-extraction,基于核方法的关系抽取。
18. 句子边界消歧 Sentence Boundary Disambiguation
https://github.com/Orekhov/SentenceBreaking,很有意思。
19.事件抽取 Event Extraction
liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
20. 词义消歧 Word Sense Disambiguation
alvations/pywsd,代码不多,方法简单,适合练手。
21. 命名实体消歧 Named Entity Disambiguation
dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。
22. 幽默检测 Humor Detection
pln-fing-udelar/pghumor
23. 讽刺检测 Sarcasm Detection
AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。
24. 实体链接 Entity Linking
hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。
25. 指代消歧 Coreference Resolution
huggingface/neuralcoref,基于神经网络的指代消歧。
26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion
thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。
推荐阅读:
一大批历史精彩文章啦
详解文本分类之多通道CNN的理论与实践
详解文本分类之DeepCNN的理论与实践
介绍4个大神常用而你不常用的python函数
资源 | 邓力、刘洋等合著的这本NLP经典书籍之情感分析中文版
资源 | 有没有必要把机器学习算法自己实现一遍?
谈谈我在自然语言处理进阶上的一些个人拙见
从Word Embedding到Bert模型——自然语言处理预训练技术发展史
好文!必须点赞
练手|常见近30种NLP任务的练手项目相关推荐
- 练手|常见26种NLP任务的练手项目
经常有人问我:老大让我完成xxx,我不会,他也不会,但是很着急.这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,而且很多时候问得问题跟具体需要的技术简直是驴唇不对马嘴.所以今 ...
- php 中文朗读,能说会道 学生版 官方网站 | 功能最强大的语音朗读软件,支持全世界近30种语言...
[概括介绍] "能说会道"学生版 完美支持 Windows XP/Windows Vista/Windows 7/Windows 8/Windows 10 操作系统,是一款面向学生 ...
- 常见26种NLP任务的练手项目
文章目录 1.分词 Word Segmentation 2.词预测 Word Prediction 3. 文本蕴涵 Textual Entailment 4. 语音识别 Automatic Speec ...
- 异常检测:PyOD工具库(含SUOD库)【包括近30种常见的异常检测算法:ABOD、HBOS、IForest、KNN、LOF、OCSVM、PCA等】【Outlier detection (OD) 】
pyod(Python Outlier Detection)是一个集成了30余种异常检测方法和模型的Python工具箱.从经典的 LOF (SIGMOD 2000) 到近两年的 COPOD (ICDM ...
- 程序员遇到bug时常见的30种反应
开发应用程序是一项压力很大的工作,人无完人,工作中遇到bug是很正常的事,有些程序员会生气,沮丧,郁闷,甚至泄气,也有一些程序员则会比较淡定.如何进行修复bug的过程,是值得我们好好推敲的. 我想分享 ...
- css3绘制常见的30种形状(心形,五角星,六边形,钻石,对话框,阴阳鱼图等)
CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等 新出的html5新增了不少标签,性能更强,原来的很繁琐的功能几个标签就能实现,同时CSS3也推出,更是一大亮点, ...
- 英文手绘字体_40种免费的高质量手绘字体
与衬线字体家族不同,这些手绘字体看起来不太严重,但是无论在何处使用它们,都倾向于给人以强烈的人文感. 手绘字体很难单独使用,但在以下情况下它们是最完美的: 如果您受到启发使您的新网页设计具有草图或手绘 ...
- 车架识别手机端只是一种?
车架识别手机端只是一种? 您在购车时最关注的的是什么?性能.外观.内饰.或者看看发动机,助力油什么的. 其实您错了,当然以上也是不可忽略的,只是有一个关注点比这些更重要,就是VIN码. 如下图这串由数 ...
- 一看“左程云:200道算法与数据结构”,二刷“阿里云:70+算法题、30种大厂笔试高频知识点”,3月过去终于挺进我梦中的字节!
不管是学生还是已经工作的人,我想彼此都有一个相同的梦想:进大厂! 眼看着2020年还有个三十来天就要完美收尾了,那么如何才能在未来三个月弯道超车赶上"金三银四的春招",进入梦寐以求 ...
- 契约锁集成近20种人事软件,助力HR网上签署“入转调离”文件
近年,电子签章在人事工作中的应用逐步深化,从"人事证明自主盖章"到"电子劳动合同普及应用".目前,围绕企业员工"招聘.入职.在职.调岗.离职" ...
最新文章
- 胡玮炜卸任摩拜CEO,或将成为美团大裁员的开端
- Cannot load 32-bit SWT libraries on 64-bit JVM
- PHP_SELF、 SCRIPT_NAME、 REQUEST_URI区别
- 百度UEditor控件中的map组件不支持https使用的问题解决
- java编写一个整钱换零_Java编写钱币转换为大写程序
- 笔记本显示服务器,如何将笔记本电脑用作无头服务器的键盘,显示器和鼠标
- SAP ECC6安装系列二:安装前的准备工作
- 这位程序员就这样被征服了......
- 【优化分类】基于matlab粒子群算法优化支持向量机分类(多输入多分类)【含Matlab源码 1559期】
- 电商项目分析用户购买行为案例一
- stm32定时器引脚分布,定时器2~7、9~14基本配置
- python 根据条件输出_python数据类型、输入输出、运算符、条件判断、循环
- 工业大数据白皮书(2019版)
- 兼容性最好的android模拟器,哪个安卓模拟器好用,性能最好,兼容性最强
- 《连线》杂志:Web已死 Internet永生(全文),互联网营销
- 爬虫|巨潮资讯网上市公司年报爬取
- Analyzing Neural Time Series Data 读书笔记6
- 反编译系列教程(上)
- 辐射强度 BRDF概念定义明晰
- 六轴系统中陀螺仪输出的角速度的一些问题