spaCy简介

spaCy号称工业级Python自然语言处理(NLP)软件包,可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画,以及词嵌入向量的计算和可视化等。

spaCy模块有4个非常重要的类:

Doc:Doc对象由Tokenizer构造,然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释(Annotation);
Span:Span对象是Doc对象的一个切片;
Token:在自然语言处理中,把一个单词、一个标点符号、一个空格等叫做一个token;
Vocab(vocabulary):存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。
具体参考:https://www.cnblogs.com/ljhdo/p/10777246.html

spaCy工作处理流程(spaCy的处理管道)

使用spaCy时,文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道(什么是Pipeline),输入文本字符串必须通过这些操作。当你在一个文本上调用nlp时,spaCy首先通过Tokenizer(分词器)进行分词并生成一个doc对象,然后doc会经过几个不同的步骤进行处理。Pipeline通常包括一个标记器(tagger)、一个词法器(lemmatizer)、一个解析器(parser)和一个实体识别器(entity recognizer)。每个流水线组件都会返回经过处理的doc,然后将其传递给下一个组件,最后形成最终doc。

创建nlp对象:

import spacy
nlp = spacy.load('en_core_web_sm')# 创建nlp对象
doc = nlp("he eat an apple.")

spaCy实践

前面说了,spaCy是Python自然语言处理(NLP)软件包,下面进行几个流行的NLP任务,包括词性标记、依存分析和命名实体识别。

(一)词性标记

词性标记小示例

(二)依存分析

详情见:什么是依存句法分析?

(三)命名实体识别

命名实体识别小示例及相关说明

其余待补充>>>

参考:
《数亦有道:python数据科学指南》
https://www.cnblogs.com/panchuangai/p/13695902.html
https://zhuanlan.zhihu.com/p/405071894
https://www.cnblogs.com/ljhdo/p/10777246.html

python自然语言处理之spacy详解相关推荐

  1. python编程语法大全-Python编程入门——基础语法详解

    今天小编给大家带来Python编程入门--基础语法详解. 关于怎么快速学python,可以加下小编的python学习群:611+530+101,不管你是小白还是大牛,小编我都欢迎,不定期分享干货 每天 ...

  2. python编程语法-Python编程入门——基础语法详解

    今天小编给大家带来Python编程入门--基础语法详解. 一.基本概念 1.内置的变量类型: Python是有变量类型的,而且会强制检查变量类型.内置的变量类型有如下几种: #浮点 float_num ...

  3. python编程if语法-Python编程入门基础语法详解经典

    原标题:Python编程入门基础语法详解经典 一.基本概念 1.内置的变量类型: Python是有变量类型的,而且会强制检查变量类型.内置的变量类型有如下几种: #浮点 float_number = ...

  4. python编程语法-Python编程入门——基础语法详解(经典)

    今天小编给大家带来Python编程入门--基础语法详解.温馨提示: 亮点在最后! 在这里还是要推荐下我自己建的Python开发学习群:301056051,群里都是学Python开发的,如果你正在学习P ...

  5. 用python绘制漂亮的图形-用python绘制图形的实例详解

    1.环境系统:windows10 python版本:python3.6.1 使用的库:matplotlib,numpy 2.numpy库产生随机数几种方法import numpy as npnumpy ...

  6. python怎么导入文件-Python文件如何引入?详解引入Python文件步骤

    python基本语法--引入Python文件 1.新建python文件 :在同目录lib下创建mylib.py和loadlib.py两个文件 2.在mylib.py文件中创建一个Hello的类 并且给 ...

  7. python怎么画条形图-python绘制条形图方法代码详解

    1.首先要绘制一个简单的条形图 import numpy as np import matplotlib.pyplot as plt from matplotlib import mlab from ...

  8. python画直方图成绩分析-python plotly绘制直方图实例详解

    计算数值出现的次数 import cufflinks as cf cf.go_offline() import numpy as np import pandas as pd set_slippage ...

  9. python利器怎么编程-Python任务调度利器之APScheduler详解

    任务调度应用场景 所谓的任务调度是指安排任务的执行计划,即何时执行,怎么执行等.在现实项目中经常出现它们的身影:特别是数据类项目,比如实时统计每5分钟网站的访问量,就需要每5分钟定时从日志数据分析访问 ...

最新文章

  1. 【软件-软件设计师】操作系统知识架构图
  2. 计算机组成原理 第四版 总线的主模块 总线的从模块,唐朔飞计算机组成原理课件3.ppt...
  3. 实用教程:如何制作学术会议Oral/Spotlight Video?
  4. html语言中div怎么起名,css如何命名?
  5. 高可用架构设计之道,实战案例直面流量洪峰
  6. CuteEditor6.0使用配置心得体会(转)
  7. 复杂sql优化步骤与技巧
  8. 做个插件MaterialSpinner笔记
  9. [delphi]窗口最大化时怎么才能不要把任务栏盖住
  10. ES6 深拷贝_JS基本数据类型和引用数据类型的区别及深浅拷贝
  11. 第一部分 1.2 定义OC的类和创建OC的对象
  12. Partition List 将链表分成两部分
  13. 卷积神经网络之OverFeat(2014)
  14. 追梦App系列博客——后端架构篇
  15. 云计算基础:云计算运用越来越广泛,我们应该如何去学习云计算
  16. Pintia(拼题A)刷题插件 on VS Code
  17. include在HTML中的用法
  18. 大数据与云计算技术---(一)hadoop大数据平台
  19. CRF原理介绍(以BILSTM-CRF模型为例)
  20. @Aspect aop切面获取请求接口类名、方法名、及参数

热门文章

  1. 矩阵可逆的条件以及特征值、特征向量与可对角化条件
  2. 关于t00ls的挂机脚本
  3. android版本兼容API24,Android 7.0 (API 24) 适配
  4. python热搜排行功能_手把手教你用Python+Pyecharts让微博热搜榜动起来
  5. NGFW防火墙的ASPF实现原理
  6. 面试之NGFW 性能测试
  7. 研发团队专业能力提升
  8. 树突细胞会降解肿瘤抗原,阻断这一过程
  9. BilSTM 实体识别_肿瘤新抗原(neoantigen)专题八:新抗原识别策略使难治性实体瘤的个体化免疫治疗成为可能...
  10. app推广运营大神干货9问答::iOS渠道不知道去哪里挖掘等