学习NLP,推荐一下AllenNLP这个工具。

从学习pytorch到学习处理NLP问题,中间有很长的路要走,其中有很多坑。NLP数据的预处理要比CV的麻烦很多,比如去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(文本预处理方法小记),在很多技术点上都可以拓展出很多。其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。在用到RNN时,还要经过pad,pack,pad的处理过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。此外还有数据集的读取,tensorboardX的使用。。。。茫茫多的技术点需要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。

第一次知道allennlp这个工具,是在看了师兄给我的第一篇论文ELMo后大概了解的,后来学习pytorch才发现路途漫长,而这与两周一次的汇报进度相矛盾,于是计划在寒假学习一下allennlp,不仅要学习AllenNLP的使用,更要阅读AllenNLP的源码,可以学习到很多算法的实现。

AllenNLP是在pytorch基础上的封装,封装程度挺合理(后来发现了Gluonnlp,Gluonnlp在一些处理更方便,但缺乏灵活,功能更少),它的目标是处理NLP任务,可以减少很多额外的学习。比如,分词,帮你用spacy,NLTK,或者简单的按空格分词处理。数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。

入门学习的网站:
AllenNLP tutorials
github AllenNLP源码
简书中的一篇教程
realworldnlp系列教程(导出,用在生产中,有一篇文章可以参考,allennlp直接用pytorch的jit导出会有问题)
知乎中对realworldnlp的一篇翻译文章

NLP的强大工具——AllenNLP相关推荐

  1. Java 8系列之Stream的强大工具Collector

    Stream系列: Java 8系列之Stream的基本语法详解 Java 8系列之Stream的强大工具Collector Java 8系列之重构和定制收集器 Java 8系列之Stream中万能的 ...

  2. 适合pythonpandas的软件_适合 Python 入门的 8 款强大工具!

    原标题:适合 Python 入门的 8 款强大工具! 作者 | codeavail.com 译者 | 弯月,责编 | 屠敏 以下为译文: Python是一种开源的编程语言,可用于Web编程.数据科学. ...

  3. CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...

    一.第一次编译并调整代码 二.修正泛型无法生成CodeDOM代码 后期我会用到这个工具, 如果有需要修改, 会及时修改和改进, 有兴趣的可以参与进来. http://codedomassistant. ...

  4. 26个适用于VMware管理员的强大工具,收藏了!

    26个适用于VMware管理员的强大工具,收藏了! https://www.sohu.com/a/314628633_100159565 VMware的产品为用户提供云计算和平台虚拟化服务,并支持使用 ...

  5. 19秋计算机应用基础在线作业2,计算机应用基础19秋在线作业2 Windows 下能浏览并管理文件 驱动器及网络连接的强大工具是...

    1.Evaluation Warning: The document was created with Spire.Doc for .NET.计算机应用基础19秋在线作业21 单选题1 Windows ...

  6. 【NLP】pyltp工具介绍、安装和使用代码+示例

    [NLP]pyltp工具介绍.安装和使用pyltp 文章目录 [NLP]pyltp工具介绍.安装和使用pyltp 1. 介绍 2. 使用 2.1 分句 2.2 分词 2.3 词性标注 2.4 命名实体 ...

  7. 创作课程和SCORM的强大工具iSpring Suite详细介绍

    iSpring Learn是简化员工培训和发展的在线学习系统,具有员工入职.培训.评估等功能.iSpring Suite是一个新兴的创作工具包,也许您不太了解iSpring Suite,那您就可以看看 ...

  8. NLP自然语言处理工具小结

    20220331 https://zhuanlan.zhihu.com/p/79202151 BM25 https://github.com/v1shwa/document-similarity wo ...

  9. NLP文本标注工具与平台(数据标注公司)

    最近在做NLP相关项目,包括句法分析.情感分析等,有大量数据需要标注.我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 文本标注平台(标注外包公司) 数据标注公司的工作 ...

最新文章

  1. opencv python 多帧降噪算法_防抖技术 | OpenCV实现视频稳流
  2. 一文详解科研中的Paper阅读方法!!!
  3. Java虚拟机详解(八)------虚拟机监控和分析工具(2)——可视化
  4. 王者荣耀中有哪些获胜率高的玩法?
  5. 《MacTalk•人生元编程》导读
  6. vscode解决java无法输入(scanner)问题
  7. Linux操作系统下实现远程开机
  8. mongodb-查询
  9. 读书笔记——思维导图带你看《哲学起步》
  10. JavaScript GET 和 POST 请求的区别详解
  11. python seaborn 散点图矩阵_Kaggle、Python数据可视化seaborn(四):散点图
  12. 知了课堂 python_知了课堂 Python Flask零基础 笔记整理
  13. Hyperledger Fabric 开发环境安装
  14. Activiti工作流表之间的关系
  15. Spring Boot 学习之路 使用JPA对Girl 操作
  16. steam无法连接到更新服务器的问题
  17. python获取网络数据失败_0.人脸识别网络不行下载失败
  18. CTF之旅WEB篇(4)--NewStarCTF 公开赛IncludeOne详解
  19. 笔试、面试题收集(主要是Python Web开发)编辑中。。。
  20. Windows系统diskpart删除U盘分区

热门文章

  1. md5sum 命令 – 计算文件内容的 md5 值
  2. 修复重新启动 Windows 时桌面图标布局未保存的问题
  3. 机器学习(一):模型的参数估计方法
  4. ubuntu 终端常用命令大全
  5. win7锁定计算机快捷键6,win7锁定计算机快捷键_win10 锁定计算机
  6. driver nvidia web_nvidiawebdriver驱动
  7. rosnode not fount 报错解决
  8. tensorflow函数 tf.nn.xw_plus_b
  9. SYDZ 辗转相除法的原理与实现
  10. E. Permutation Game