NLP的强大工具——AllenNLP
学习NLP,推荐一下AllenNLP这个工具。
从学习pytorch到学习处理NLP问题,中间有很长的路要走,其中有很多坑。NLP数据的预处理要比CV的麻烦很多,比如去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(文本预处理方法小记),在很多技术点上都可以拓展出很多。其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。在用到RNN时,还要经过pad,pack,pad的处理过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。此外还有数据集的读取,tensorboardX的使用。。。。茫茫多的技术点需要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。
第一次知道allennlp这个工具,是在看了师兄给我的第一篇论文ELMo后大概了解的,后来学习pytorch才发现路途漫长,而这与两周一次的汇报进度相矛盾,于是计划在寒假学习一下allennlp,不仅要学习AllenNLP的使用,更要阅读AllenNLP的源码,可以学习到很多算法的实现。
AllenNLP是在pytorch基础上的封装,封装程度挺合理(后来发现了Gluonnlp,Gluonnlp在一些处理更方便,但缺乏灵活,功能更少),它的目标是处理NLP任务,可以减少很多额外的学习。比如,分词,帮你用spacy,NLTK,或者简单的按空格分词处理。数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。
入门学习的网站:
AllenNLP tutorials
github AllenNLP源码
简书中的一篇教程
realworldnlp系列教程(导出,用在生产中,有一篇文章可以参考,allennlp直接用pytorch的jit导出会有问题)
知乎中对realworldnlp的一篇翻译文章
NLP的强大工具——AllenNLP相关推荐
- Java 8系列之Stream的强大工具Collector
Stream系列: Java 8系列之Stream的基本语法详解 Java 8系列之Stream的强大工具Collector Java 8系列之重构和定制收集器 Java 8系列之Stream中万能的 ...
- 适合pythonpandas的软件_适合 Python 入门的 8 款强大工具!
原标题:适合 Python 入门的 8 款强大工具! 作者 | codeavail.com 译者 | 弯月,责编 | 屠敏 以下为译文: Python是一种开源的编程语言,可用于Web编程.数据科学. ...
- CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...
一.第一次编译并调整代码 二.修正泛型无法生成CodeDOM代码 后期我会用到这个工具, 如果有需要修改, 会及时修改和改进, 有兴趣的可以参与进来. http://codedomassistant. ...
- 26个适用于VMware管理员的强大工具,收藏了!
26个适用于VMware管理员的强大工具,收藏了! https://www.sohu.com/a/314628633_100159565 VMware的产品为用户提供云计算和平台虚拟化服务,并支持使用 ...
- 19秋计算机应用基础在线作业2,计算机应用基础19秋在线作业2 Windows 下能浏览并管理文件 驱动器及网络连接的强大工具是...
1.Evaluation Warning: The document was created with Spire.Doc for .NET.计算机应用基础19秋在线作业21 单选题1 Windows ...
- 【NLP】pyltp工具介绍、安装和使用代码+示例
[NLP]pyltp工具介绍.安装和使用pyltp 文章目录 [NLP]pyltp工具介绍.安装和使用pyltp 1. 介绍 2. 使用 2.1 分句 2.2 分词 2.3 词性标注 2.4 命名实体 ...
- 创作课程和SCORM的强大工具iSpring Suite详细介绍
iSpring Learn是简化员工培训和发展的在线学习系统,具有员工入职.培训.评估等功能.iSpring Suite是一个新兴的创作工具包,也许您不太了解iSpring Suite,那您就可以看看 ...
- NLP自然语言处理工具小结
20220331 https://zhuanlan.zhihu.com/p/79202151 BM25 https://github.com/v1shwa/document-similarity wo ...
- NLP文本标注工具与平台(数据标注公司)
最近在做NLP相关项目,包括句法分析.情感分析等,有大量数据需要标注.我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 文本标注平台(标注外包公司) 数据标注公司的工作 ...
最新文章
- opencv python 多帧降噪算法_防抖技术 | OpenCV实现视频稳流
- 一文详解科研中的Paper阅读方法!!!
- Java虚拟机详解(八)------虚拟机监控和分析工具(2)——可视化
- 王者荣耀中有哪些获胜率高的玩法?
- 《MacTalk•人生元编程》导读
- vscode解决java无法输入(scanner)问题
- Linux操作系统下实现远程开机
- mongodb-查询
- 读书笔记——思维导图带你看《哲学起步》
- JavaScript GET 和 POST 请求的区别详解
- python seaborn 散点图矩阵_Kaggle、Python数据可视化seaborn(四):散点图
- 知了课堂 python_知了课堂 Python Flask零基础 笔记整理
- Hyperledger Fabric 开发环境安装
- Activiti工作流表之间的关系
- Spring Boot 学习之路 使用JPA对Girl 操作
- steam无法连接到更新服务器的问题
- python获取网络数据失败_0.人脸识别网络不行下载失败
- CTF之旅WEB篇(4)--NewStarCTF 公开赛IncludeOne详解
- 笔试、面试题收集(主要是Python Web开发)编辑中。。。
- Windows系统diskpart删除U盘分区
热门文章
- md5sum 命令 – 计算文件内容的 md5 值
- 修复重新启动 Windows 时桌面图标布局未保存的问题
- 机器学习(一):模型的参数估计方法
- ubuntu 终端常用命令大全
- win7锁定计算机快捷键6,win7锁定计算机快捷键_win10 锁定计算机
- driver nvidia web_nvidiawebdriver驱动
- rosnode not fount 报错解决
- tensorflow函数 tf.nn.xw_plus_b
- SYDZ 辗转相除法的原理与实现
- E. Permutation Game