自然语言处理(NLP)在现代深度学习生态中越来越常见。从流行的深度学习框架到云端API的支持,例如Google云、Azure、AWS或Bluemix,NLP是深度学习平台不可或缺的部分。尽管已经取得了令人难以置信的进步,但构建大规模的NLP应用依然还有极大的挑战,在学习研究和生产部署之间还存在很多摩擦。作为当前市场上最大的会话环境之一,Facebook已经面对构建大规模NLP应用的挑战有一些年头了,最近,Facebook的工程团队开源了第一个版本的Pytext,一个基于PyTorch的NLP框架,可以用来构建高效的NLP解决方案。

PyText的最终目标是简化端对端的NLP工作流实现。为了实现这一目标,PyText需要解决当前NLP流程中的一些问题,其中最令人头疼的就是NLP应用在实验环境和生产环境的不匹配问题。

更好地平衡NLP实验和生产部署

现代NLP解决方案通常包含非常重的实验环节,在这个阶段数据科学家们将借鉴研究文件快速测试新的想法和模型,以便达成一定的性能指标。在实验阶段,数据科学家倾向于使用容易上手、界面简单的框架,以便快速实现高级、动态的模型,例如PyTorch或TensorFlow Eager。当需要部署到生产环境时,动态图模型的固有局限性就带了新的挑战,这一阶段的深度学习技术需要使用静态计算图,并且需要为大规模计算进行优化。TensorFlow、Caffe2或MxNet都属于这一类型的技术栈。结果是大型数据科学团队不得不为实验和生产部署使用不同的技术栈。

PyTorch是最早解决了快速实验与规模化部署之间冲突的深度学习框架之一。基于PyTorch构建的PyText为NLP领域应用了这些解决实验环境与生产部署之间冲突的优化原则。

理解PyText

从概念角度触发,PyText被设计为实现以下四个基本目标:

  1. 尽可能简单、快速的实现新模型

  2. 简化将预构建模型应用于新数据的工作量

  3. 同时为研究者和工程师定义清晰的工作流,以便构建和评估模型,并以最小的代价上线模型

  4. 确保部署的模型在推理时具有高性能:低延迟、高吞吐量

PyText的处理容量最终打造的建模框架,可供研究者和工程师构建端到端的训练或推理流水线。当前的PyText实现涵盖了NLP工作流声明周期中的基本环节,为快速实验、原始数据处理、指标统计、训练和模型推理提供了必要的接口。一个高层级的PyText架构图可以清晰地展示这些环节如何封装了框架的原生组件:

如上图所示,PyText的架构包含以下组成部分:

  • Task:将多个用于训练或推理的组件拼装为一个流水线
  • Data Handler:处理原始输入数据,贮备张量批数据,以便送入模型
  • Model:定义神经网络的架构
  • Optimizer:封装模型参数优化过程,基于模型的前馈损失进行优化
  • Metric Reporter:实现模型相关指标的计算和报表提供
  • Trainer: 使用数据处理器、模型、损失和优化器来训练和筛选模型
  • Predictor:使用数据处理器和模型对给定的数据集进行推理
  • Exporter: ONNX8导出训练好的PyTorch模型到Caffe2图

你可以看到,PyText利用ONNX(Open Neural Network Exchange Format)将模型从实验环境的PyTorch格式转换为生产环境的Caffe2运行模型。

PyText预置了众多NLP任务组件,例如文本分类、单词标注、语义分析和语言模型等,可以快速实现NLP工作流。类似的,PyText使用上下文模型介入语言理解领域,例如使用SeqNN模型用于意图标注任务,或者使用一个上下文相关的意图槽模型用于多个任务的联合训练。

从NLP工作流的角度来说,PyText可以快速将一个思路从实验阶段转换为生产阶段。一个PyText应用的典型工作流包含如下的步骤:

  1. 用PyText实现模型,确保测试集上的离线指标正确
  2. 将模型发布到打包的基于PyTorch的推理服务,在实时样本上执行小规模评估
  3. 自动导出到Caffe2网络,不过在有些情况下,例如当使用复杂的流程控制逻辑时,或者使用自定义数据结构式,PyTorch 1.0还不支持
  4. 如果第3步不支持,那么使用Py-Torch C++ API9重写模型,并封装为一个Caffe2操作符
  5. 将模型发布为生产就绪的Caffe2预测服务并启动

使用PyText

上手PyText非常简单,按标准python包的方法安装框架:

$ pip install pytext-nlp

然后,我们就可以使用一个任务配置来训练NLP模型了:

(pytext) $ cat demo/configs/docnn.json
{"task": {"DocClassificationTask": {"data_handler": {"train_path": "tests/data/train_data_tiny.tsv","eval_path": "tests/data/test_data_tiny.tsv","test_path": "tests/data/test_data_tiny.tsv"}}}
}$ pytext train < demo/configs/docnn.json

Task是PyText应用中的用来定义模型的核心部件。每一个任务都有一个嵌入的配置,它定义了不同组件之间的关系,如下面代码所示:

from word_tagging import ModelInputConfig, TargetConfigclass WordTaggingTask(Task):class Config(Task.Config):features: ModelInputConfig = ModelInputConfig()targets: TargetConfig = TargetConfig()data_handler: WordTaggingDataHandler.Config = WordTaggingDataHandler.Config()model: WordTaggingModel.Config = WordTaggingModel.Config()trainer: Trainer.Config = Trainer.Config()optimizer: OptimizerParams = OptimizerParams()scheduler: Optional[SchedulerParams] = SchedulerParams()metric_reporter: WordTaggingMetricReporter.Config = WordTaggingMetricReporter.Config()exporter: Optional[TextModelExporter.Config] = TextModelExporter.Config()

一旦模型训练完毕,我们就可以对模型进行评估,也可以导出为Caffe2格式:

(pytext) $ pytext test < "$CONFIG"(pytext) $ pytext export --output-path exported_model.c2 < "$CONFIG"

需要指出的是,PyText提供了可扩展的架构,可以定制、扩展其中任何一个构建模块。

PyText代表了NLP开发的一个重要里程碑,它是最早解决实验与生产匹配问题的框架之一。基于Facebook和PyTorch社区的支持,PyText可能有机会称为深度学习生态中最重要的NLP技术栈之一。

转载:Pytext简介

Pytext简介:facebook的基于PyTorch的NLP框架相关推荐

  1. Pytext支持分布式训练,Facebook AI基于PyTorch的NLP框架,简化部署流程

    向AI转型的程序员都关注了这个号

  2. [深度学习工具]基于PyTorch的NLP框架Flair

    一个非常简单的框架,用于最先进的NLP.由Zalando Research开发. Flair简介: 一个功能强大的NLP库.Flair允许您将最先进的自然语言处理(NLP)模型应用于您的文本,例如命名 ...

  3. 基于Pytorch的NLP入门任务思想及代码实现:判断文本中是否出现指定字

    今天学了第一个基于Pytorch框架的NLP任务: 判断文本中是否出现指定字 思路:(注意:这是基于字的算法) 任务:判断文本中是否出现"xyz",出现其中之一即可 训练部分: 一 ...

  4. 基于PyTorch的GAN框架TorchGAN:用架构级API轻松定制GAN项目

    机器之心报道 参与:刘晓坤 TorchGAN 是基于 PyTorch 的 GAN 设计开发框架.该框架旨在为流行的 GAN 提供构造模块,且允许为前沿研究进行定制化. 使用 TorchGAN 的模块化 ...

  5. 【深度学习】基于PyTorch深度学习框架的序列图像数据装载器

    作者 | Harsh Maheshwari 编译 | VK 来源 | Towards Data Science 如今,深度学习和机器学习算法正在统治世界.PyTorch是最常用的深度学习框架之一,用于 ...

  6. 基于PyTorch的CV框架,北大学生出品TorchCV

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心整理 参与:张倩.泽南 在机器学习带来的所有颠覆性技术中, ...

  7. 开源基于PyTorch深度学习框架实现图卷积

    开源代码参考:学习与优化 Graph Convolutional Networks paper -> paper link -> github Distilling Knowledge F ...

  8. 简单易用NLP框架Flair发布新版本!(附教程)

    机器之心编辑,参与:路. Flair 是 Zalando Research 开发的一款简单易用的 Python NLP 库,近日,Flair 0.4 版发布! Flair 具备以下特征: 强大的 NL ...

  9. 艾伦人工智能研究院开源AllenNLP,基于PyTorch轻松构建NLP模型

    艾伦人工智能研究院(AI2)开源AllenNLP,它是一个基于PyTorch的NLP研究库,利用深度学习来进行自然语言理解,通过处理低层次的细节.提供高质量的参考实现,能轻松快速地帮助研究员构建新的语 ...

最新文章

  1. MyBatis的插入后获得主键的方式
  2. mysql时间相减得到毫秒值_Mysql 字符串、时间、时间戳相互转换,相减获取秒数...
  3. 【Flutter】Flutter 混合开发 ( 简介 | Flutter 混合开发集成步骤 | 创建 Flutter Module )
  4. 《Python数据可视化编程实战》—— 1.6 安装图像处理工具:Python图像库(PIL)...
  5. 数据结构之直接插入排序图文详解及代码(C++实现)
  6. Airtable(数据管理)
  7. mysql 备份库的shell_MySQL数据库的shell脚本自动备份
  8. 笔记-项目范围管理-项目范围管理计划和需求管理计划
  9. layui 刷新页面_layuimini简洁、清爽、易用的layui后台框架模板
  10. Scikit-Learn 机器学习笔记 -- 模型训练
  11. 趣谈设计模式 | 桥接模式(Bridge):将抽象与实现分离
  12. 带货造假,买完不能换货?李佳琦、汪涵、李雪琴直播被中消协点名后这样回应...
  13. Unity3D开发游戏世界天空盒
  14. 回转体怎么划分六面体网格_一文了解ANSYS Meshing 高级网格划分技术
  15. HDU-3401 Trade 单调队列优化DP
  16. 计算机文件的存储单位是什么,了解计算机的朋友请看看
  17. 第四届江西省高校网络安全技能大赛初赛WebMisc—Writeup
  18. 局域网传文件_Mac下最好用的跨平台文件传输工具
  19. 木马病毒能损害计算机硬盘么,电脑病毒危害有哪些【图文】
  20. 谷歌浏览器Chrome播放rtsp视频流解决方案

热门文章

  1. 2012、12、17
  2. 【Linux】部署memcache
  3. 《卷积神经网络》学习笔记
  4. 鼠标移到图片上,图片放大
  5. apache java cache-control,Tomcat: Cache-Control
  6. java 打包 根目录_java打包
  7. 青岛大学计算机科学与技术类专业,青岛大学2017年大类招生专业类代码及所含专业说明...
  8. linux未找到make命令,linux中无make命令的问题(make: *** 没有指明目标并且找不到 makefile及make命令安装方法)...
  9. android recyclerview添加头部,Android RecyclerView添加Header头部
  10. codeforces-constructive algorithms(构造算法.)