作者 | Veysel Kocaman, Data Scientist & ML Researcher ANKIT CHOUDHARY

翻译 | 赵春光

校对 | 申利彬

来源 | 数据派THU

(*点击阅读原文,查看作者更多精彩文章)

【导读】Pipeline具体来说是一个多阶段的序列,每个阶段由一个Transformer或者Estimator组成。各个阶段按顺序执行,并将输入的DataFrame转换和传递给下一个阶段。数据如此按序的在pipeline中传递。我们现在再来看看Spark NLP是如何使用Annotator和Transformer的。

本文是Spark NLP Library中各annotator系列中的第2篇文章,介绍Spark NLP中是如何使用Annotator和Transformer。如果你想更多的学习Spark NLP及对应的概念,请先阅读下述文章:
Introduction to Spark NLP: Foundations and Basic Components (Part-I)https://medium.com/spark-nlp/introduction-to-spark-nlp-foundations-and-basic-components-part-i-c83b7629ed59

本文主要是作为上篇文章的延续。

在机器学习中,常见的一种做法是运行一系列的算法来处理和学习数据。这种算法序列常被称作做Pipeline。

Pipeline具体来说是一个多阶段的序列,每个阶段由一个Transformer或者Estimator组成。各个阶段按顺序执行,并将输入的DataFrame转换和传递给下一个阶段,数据如此按序的在pipeline中传递。每个阶段的transform()方法函数更新这组数据集并传递到下一阶段。因为有了pipeline,训练数据和测试数据会通过确保一致的特征处理环节。

每个使用的annotator 会在pipeline中的这个data frame新添一列。

我们现在来看一下Spark NLP是如果使用Annotator和Transformer完成上述过程。假如我们需要将如下几个环节逐一施加在data frame上:

  • 文本分离成语句

  • 分词

  • 正交化

  • 得到词嵌入向量

下面是通过Spark NLP实现这个pipeline的代码:

 1from pyspark.ml import Pipeline23document_assembler = DocumentAssembler()\ .setInputCol(“text”)\ .setOutputCol(“document”)45sentenceDetector = SentenceDetector()\ .setInputCols([“document”])\ .setOutputCol(“sentences”)67tokenizer = Tokenizer() \ .setInputCols([“sentences”]) \ .setOutputCol(“token”)89normalizer = Normalizer()\ .setInputCols([“token”])\ .setOutputCol(“normal”)
10
11word_embeddings=WordEmbeddingsModel.pretrained()\ .setInputCols([“document”,”normal”])\ .setOutputCol(“embeddings”)
12
13nlpPipeline = Pipeline(stages=[ document_assembler,  sentenceDetector, tokenizer, normalizer, word_embeddings, ])
14
15pipelineModel = nlpPipeline.fit(df)

接下来我们加载了一组数据到这个pipeline中,看一下模型如何工作。

Dataframe样本(5452行)

然后运行上述pipeline,我们会得到一个训练好的模型。之后我们用它转换整个DataFrame。

1result = pipelineModel.transform(df)
2result.show()

转换前20行数据用了501毫秒;转换整个data frame共用了11秒。

1%%timeresult = pipelineModel.transform(df).collect()
2>>>CPU times: user 2.01 s, sys: 425 ms, total: 2.43 s
3Wall time: 11 s

如果我们想把这个pipeline保存到硬盘,然后调用它转换一行文字,在线转换时间会多长呢?

1from pyspark.sql import Row
2text = "How did serfdom develop in and then leave Russia ?"
3line_df = spark.createDataFrame(list(map(lambda x: Row(text=x), [text])), ["text"])
4%time result = pipelineModel.transform(line_df).collect()
5
6>>>CPU times: user 31.1 ms, sys: 7.73 ms, total: 38.9 msWall time: 515 ms

转换一行短文字的时间也是515毫秒!几乎是和之前转换20行的时间一致。所以说,效果太好。实际上,类似的情况也发生在使用分布式处理小数据的时候。分布式处理和云计算主要是用来处理大数据,而使用Spark来处理小型数据其实是杀鸡用牛刀。

实际上,由于它内部的机制和优化后的构架,Spark仍适用于中等大小单机可处理的数据。但不建议使用Spark来处理仅仅是几行的数据, 除非使用Spark NLP。

打个比方,Spark 好像一个火车和一个自行车赛跑。自行车会在轻载的时候占上风,因为它更敏捷、提速更快,而重载的火车可能需要一段时间提速,但最终还是会速度更快。

所以,如果我们想要预测的时间更快该怎么办呢?使用LightPipeline。

LightPipeline

LightPipelines 是Spark NLP对应的Pipeline, 等同于Spark ML Pipeline, 但是用于处理更小的数据。它们适用于小数据集、调试结果,或者是对一次性服务API请求的训练或预测。

Spark NLP LightPipelines 是将Spark ML Pipelines 转换成了一个单机但多线程的任务,对于小型数据(不大于5万个句子)速度会提升10倍。

这些Pipeline的使用方法是插入已训练(已拟合)的模型,然后会标注纯文本。我们都不需要把输入文字转换成Dataframe就可以输入pipeline,虽然pipeline当初是使用Dataframe作为输入。这个便捷的功能适用于使用已训练的模型对少数几行文字进行预测。

1from sparknlp.base import LightPipeline
2LightPipeline(someTrainedPipeline).annotate(someStringOrArray)

下面是一些LightPipelines可用的方法函数。我们还可以用字符列表作为输入文字。

https://nlp.johnsnowlabs.com/api/#com.johnsnowlabs.nlp.LightPipeline

我们可以很方便的创建LightPipelines,也不需要处理Spark Datasets。LightPipelines运行的也很快,而且在驱动节点工作时可执行并行运算。下面是一个应用的例子:

 1from sparknlp.base import LightPipeline2lightModel = LightPipeline(pipelineModel, parse_embeddings=True)3%time lightModel.annotate("How did serfdom develop in and then leave Russia ?")4>>>5CPU times: user 12.4 ms, sys: 3.81 ms, total: 16.3 ms6Wall time: 28.3 ms7{'sentences': ['How did serfdom develop in and then leave Russia ?'],8 'document': ['How did serfdom develop in and then leave Russia ?'],9 'normal': ['How',
10  'did',
11  'serfdom',
12  'develop',
13  'in',
14  'and',
15  'then',
16  'leave',
17  'Russia'],
18 'token': ['How',
19  'did',
20  'serfdom',
21  'develop',
22  'in',
23  'and',
24  'then',
25  'leave',
26  'Russia',
27  '?'],
28 'embeddings': ['-0.23769 0.59392 0.58697 -0.041788 -0.86803 -0.0051122 -0.4493 -0.027985, ...]}
29

这个代码用了28毫秒!几乎是使用Spark ML Pipeline时的20倍速度。

上面可以看出,annotate只返回了result的属性。既然这个嵌入向量数组储存在embedding属性的WordEmbeddingModel标注器下,我们可以设置parse_embedding = True 来分析嵌入向量数据。否则,我们可能在输出中只能获得嵌入向量的分词属性。关于上述属性的更多信息见以下连接:

https://medium.com/spark-nlp/spark-nlp-101-document-assembler-500018f5f6b5

如果我们想获取标注的全部信息,我们还可以使用fullAnnotate()来返回整个标注内容的字典列表。

 1result = lightModel.fullAnnotate("How did serfdom develop in and then leave Russia ?")2>>>3[{'sentences': [<sparknlp.base.Annotation at 0x139d685c0>],4  'document': [<sparknlp.base.Annotation at 0x149b5a320>],5  'normal': [<sparknlp.base.Annotation at 0x139d9e940>,6   <sparknlp.base.Annotation at 0x139d64860>,7   <sparknlp.base.Annotation at 0x139d689b0>,8   <sparknlp.base.Annotation at 0x139dd16d8>,9   <sparknlp.base.Annotation at 0x139dd1c88>,
10   <sparknlp.base.Annotation at 0x139d681d0>,
11   <sparknlp.base.Annotation at 0x139d89128>,
12   <sparknlp.base.Annotation at 0x139da44a8>,
13   <sparknlp.base.Annotation at 0x139da4f98>],
14  'token': [<sparknlp.base.Annotation at 0x149b55400>,
15   <sparknlp.base.Annotation at 0x139dd1668>,
16   <sparknlp.base.Annotation at 0x139dad358>,
17   <sparknlp.base.Annotation at 0x139d8dba8>,
18   <sparknlp.base.Annotation at 0x139d89710>,
19   <sparknlp.base.Annotation at 0x139da4208>,
20   <sparknlp.base.Annotation at 0x139db2f98>,
21   <sparknlp.base.Annotation at 0x139da4240>,
22   <sparknlp.base.Annotation at 0x149b55470>,
23   <sparknlp.base.Annotation at 0x139dad198>],
24  'embeddings': [<sparknlp.base.Annotation at 0x139dad208>,
25   <sparknlp.base.Annotation at 0x139d89898>,
26   <sparknlp.base.Annotation at 0x139db2860>,
27   <sparknlp.base.Annotation at 0x139dbbf28>,
28   <sparknlp.base.Annotation at 0x139dbb3c8>,
29   <sparknlp.base.Annotation at 0x139db2208>,
30   <sparknlp.base.Annotation at 0x139da4668>,
31   <sparknlp.base.Annotation at 0x139dd1ba8>,
32   <sparknlp.base.Annotation at 0x139d9e400>]}]

fullAnnotate()返回标注类型中的内容和元数据。根据参考文档,这个标定类型有如下属性:

参考文档:https://nlp.johnsnowlabs.com/api/#com.johnsnowlabs.nlp.Annotation

1annotatorType: String,
2begin: Int,
3end: Int,
4result: String, (this is what annotate returns)
5metadata: Map[String, String],
6embeddings: Array[Float]

所以,下面的代码可以返回一个句子的起始或者结束:

1result[0]['sentences'][0].begin
2>> 0
3result[0]['sentences'][0].end
4>> 49
5result[0]['sentences'][0].result
6>> 'How did serfdom develop in and then leave Russia ?'

嵌入向量每个分词的的元数据也可以得到:

1result[0]['embeddings'][2].metadata
2>> {'isOOV': 'false',
3 'pieceId': '-1',
4 'isWordStart': 'true',
5 'token': 'serfdom',
6 'sentence': '0'}

不过我们还没能从LightPipeline得到non-Spark NLP标注器的信息。例如当需要在pipeline中同时使用Spark ML 的功能(如work2vec)和Spark NLP时, LightPipeline只返回Spark NLP annotations 的结果,但不会有没有任何Spark ML models的域输出。所以可以说LightPipeline不会返回Spark NLP标注器以外的任何结果,至少当前如此。

我们计划近期给Spark NLP写一个wrapper,用于兼容的 Spark ML 的所有ML模型。此后大家就可以使用LightPipeline来完成机器学习的案例,来在Spark NLP中训练模型,然后部署实现更快的在线预测。

结语

Spark NLP LightPipelines 是把 Spark ML pipelines转换成了一个单机但多线程的任务,在少量的数据上速度提升可达到10倍。本文讨论了如何将Spark Pipelines转换成Spark NLP Light Pipelines,以便在小数据上获得更快的响应。这也是Spark NLP的最酷的特征之一。我们可以享受Spark强大的数据处理和训练功能,然而在单机运行时使用Light Pipelines来获得更快的预测速度。

希望大家已经渡过上一篇关于official Medium page的文章了,并开始用到Spark NLP。下面是一些相关文章的连接,不要忘记关注我们的主页!

Introduction to Spark NLP: Foundations and Basic Components (Part-I)
https://medium.com/spark-nlp/introduction-to-spark-nlp-foundations-and-basic-components-part-i-c83b7629ed59
Introduction to: Spark NLP: Installation and Getting Started (Part-II)
https://medium.com/spark-nlp/introduction-to-spark-nlp-installation-and-getting-started-part-ii-d009f7a177f3?source=collection_home---6------0-----------------------
Spark NLP 101 : Document Assembler
https://medium.com/spark-nlp/spark-nlp-101-document-assembler-500018f5f6b5

原文标题:
Spark NLP 101: LightPipeline
原文链接:
https://www.kdnuggets.com/2019/11/spark-nlp-101-lightpipeline.html

编辑 | 黄继彦
校对 | 林亦霖

技术的道路一个人走着极为艰难?

一身的本领得不施展?

优质的文章得不到曝光?

别担心,

即刻起,CSDN 将为你带来创新创造创变展现的大舞台,

扫描下方二维码,欢迎加入 CSDN 「原力计划」!

(*本文为AI科技大本营转载文章,转载请联系原作者)

精彩推荐

点击阅读原文,或扫描文首贴片二维码

所有CSDN 用户都可参与投票和抽奖活动

加入福利群,每周还有精选学习资料、技术图书等福利发送

推荐阅读

  • “一百万行Python代码对任何人都足够了”

  • GitHub标星1.5w+,从此我只用这款全能高速下载工具

  • 中国工程师在美遭抢劫电脑遇害,数百人悼念

  • 跟风 Google 只是东施效颦?!

  • 召回→排序→重排:技术演进趋势的深度之旅,2020 必备!

  • 如何写出让同事膜拜的漂亮代码?

  • 同样是写代码,你和大神究竟差在哪里?

  • 互联网公司=21世纪的国营大厂

  • 详解CPU几个重点基础知识

  • DeFi行业2019全年呈爆炸式增长,8.5亿美元资产锁定在DeFi生态中;行业市值主要由头部项目瓜分 | 报告

  • 你点的每个“在看”,我都认真当成了AI

关于Spark NLP学习,你需要掌握的LightPipeline(附代码)| CSDN博文精选相关推荐

  1. 为什么虚拟机上一运行就显示程序停止_五分钟学Java:如何学习Java面试必考的JVM虚拟机||CSDN博文精选...

    作者:黄小斜 原创声明 本文作者:黄小斜 转载请务必在文章开头注明出处和作者. 本文思维导图 为什么要学习JVM虚拟机 最近的你有没有参加Java面试呢?你有没有发现,Java面试中总是爱考一类问题, ...

  2. 【AI超级美发师】深度学习算法打造染发特效(附代码)

    [新智元导读]如今,在类似天天P图.美图秀秀等手机APP中,给指定照片或视频中的人物更换头发颜色已经是再正常不过的事情了.那么本文便介绍了该功能背后如AI头发分割模块.头发换色.颜色增强与修正模块等技 ...

  3. SLAM学习 | 单目相机标定(附代码实测可用)

    SLAM学习 | 单目相机标定(附代码实测可用) 1 针孔相机模型 2 张正友标定法 3 VS2013下配置openCV 4 标定过程与结果 5 经验总结与注意事项 概要: 这篇文章介绍如何解决做SL ...

  4. 独家 | 关于Spark NLP学习,你需要掌握的 LightPipeline(附代码链接)

    作者:Veysel Kocaman, Data Scientist & ML Researcher ANKIT CHOUDHARY 翻译:赵春光 校对:申利彬 本文约2800字,建议阅读9分钟 ...

  5. 换发型算法_【AI超级美发师】深度学习算法打造染发特效(附代码)

    原标题:[AI超级美发师]深度学习算法打造染发特效(附代码) 来源:OpenCV学堂 作者:胡耀武 [新智元导读]如今,在类似天天P图.美图秀秀等手机APP中,给指定照片或视频中的人物更换头发颜色已经 ...

  6. 最新NLP架构的直观解释:多任务学习– ERNIE 2.0(附链接)| CSDN博文精选

    作者 | Michael Ye 翻译 | 陈雨琳,校对 | 吴金笛 来源 | 数据派THU(ID:DatapiTHU) 百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准测试 ...

  7. 【大数据】Spark面试100问 | CSDN博文精选

    戳蓝字"CSDN云计算"关注我们哦! 作者 |  游骑小兵 责编 | 阿秃 Q:什么是Spark? A:简单理解,Spark是在Hadoop基础上的改进,是UC Berkeley ...

  8. 知识图谱构建技术一览 #CSDN博文精选# #高效学习法# #系统化学习# #IT技术学习#

    大家好~我是小C,又见面啦!"文章过滤器"精选大咖干货.助力学习之路. <5天20篇CSDN精选博文带你掌握系统化学习方法>专栏将挑选有关"系统化学习方法&q ...

  9. 改善深度学习训练的trick总结 | CSDN博文精选

    扫码参与CSDN"原力计划" 作者 | ZesenChen 来源 | CSDN博客精选 在深度学习中,同样一个模型用不同的初始化,数据处理,batch size,学习率,优化器都能 ...

最新文章

  1. cap mysql_.NetCore关于Cap(RabbitMQ)结合MySql使用出现MySql相关类冲突问题解决办法
  2. 32位汇编语言条件伪指令和win32汇编关于windows.inc的error A2004
  3. 无人机导航定位系统Java_无人机高精度室内定位导航的技术方案
  4. How do I select an ITEM from a combobox?
  5. php with openssl directory,为php打扩展openssl 详细步骤
  6. [Z]在线版本控制之SubVersion与MyEclipse整合
  7. 手把手教你实现机器学习SVM算法
  8. 三.rocketmq-console
  9. 思科交换机2950 强制恢复出厂设置(清密码)
  10. java堆排序图解_108-堆排序的思路图解_清华毕业老程序员亲授通俗易懂的Java数据结构和算法​​​​教程_Java视频-51CTO学院...
  11. 设备和驱动器中删除空白图标
  12. 入侵mssql2000
  13. java8 update 91 有什么用_为什么java8还在被大量使用?
  14. Java服务器处理图片上传
  15. MySQL数据库怎么进行分库分表?
  16. 「PS-CC2019新版教程」套索工具-基础篇
  17. python中的取整
  18. c语言二级编程实例,二级C语言编程_-实例.doc
  19. 2022近视矫正展,护眼产品展,中国爱眼教育大会,验光设备展
  20. 移动硬盘插到电脑上忽然不显示的解决办法(不一定有用,仅我个人的解决方法)

热门文章

  1. sql server mvp 發糞塗牆
  2. [ASP.NET]状态管理[摘自C#入门经典]
  3. 轻松掌控全链路服务监控:方案概述与对比 | 真的很干!
  4. Java获取文件的目录_Java实现读取某个路径下的文件目录
  5. 《数据科学家养成手册》第五章---矛盾的世界笔记
  6. 2018-4-7 差分进化算法
  7. 【转】ASP.NET Page事件的执行顺序
  8. cmake, This may result in binaries being created in the wrong place
  9. shell 中长命令的换行处理
  10. Hadoop的存储架构介绍