python自然语言处理之spacy详解
spaCy简介
spaCy号称工业级Python自然语言处理(NLP)软件包,可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画,以及词嵌入向量的计算和可视化等。
spaCy模块有4个非常重要的类:
Doc:Doc对象由Tokenizer构造,然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释(Annotation);
Span:Span对象是Doc对象的一个切片;
Token:在自然语言处理中,把一个单词、一个标点符号、一个空格等叫做一个token;
Vocab(vocabulary):存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。
具体参考:https://www.cnblogs.com/ljhdo/p/10777246.html
spaCy工作处理流程(spaCy的处理管道)
使用spaCy时,文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道(什么是Pipeline),输入文本字符串必须通过这些操作。当你在一个文本上调用nlp时,spaCy首先通过Tokenizer(分词器)进行分词并生成一个doc对象,然后doc会经过几个不同的步骤进行处理。Pipeline通常包括一个标记器(tagger)、一个词法器(lemmatizer)、一个解析器(parser)和一个实体识别器(entity recognizer)。每个流水线组件都会返回经过处理的doc,然后将其传递给下一个组件,最后形成最终doc。
创建nlp对象:
import spacy
nlp = spacy.load('en_core_web_sm')# 创建nlp对象
doc = nlp("he eat an apple.")
spaCy实践
前面说了,spaCy是Python自然语言处理(NLP)软件包,下面进行几个流行的NLP任务,包括词性标记、依存分析和命名实体识别。
(一)词性标记
词性标记小示例
(二)依存分析
详情见:什么是依存句法分析?
(三)命名实体识别
命名实体识别小示例及相关说明
其余待补充>>>
参考:
《数亦有道:python数据科学指南》
https://www.cnblogs.com/panchuangai/p/13695902.html
https://zhuanlan.zhihu.com/p/405071894
https://www.cnblogs.com/ljhdo/p/10777246.html
python自然语言处理之spacy详解相关推荐
- python编程语法大全-Python编程入门——基础语法详解
今天小编给大家带来Python编程入门--基础语法详解. 关于怎么快速学python,可以加下小编的python学习群:611+530+101,不管你是小白还是大牛,小编我都欢迎,不定期分享干货 每天 ...
- python编程语法-Python编程入门——基础语法详解
今天小编给大家带来Python编程入门--基础语法详解. 一.基本概念 1.内置的变量类型: Python是有变量类型的,而且会强制检查变量类型.内置的变量类型有如下几种: #浮点 float_num ...
- python编程if语法-Python编程入门基础语法详解经典
原标题:Python编程入门基础语法详解经典 一.基本概念 1.内置的变量类型: Python是有变量类型的,而且会强制检查变量类型.内置的变量类型有如下几种: #浮点 float_number = ...
- python编程语法-Python编程入门——基础语法详解(经典)
今天小编给大家带来Python编程入门--基础语法详解.温馨提示: 亮点在最后! 在这里还是要推荐下我自己建的Python开发学习群:301056051,群里都是学Python开发的,如果你正在学习P ...
- 用python绘制漂亮的图形-用python绘制图形的实例详解
1.环境系统:windows10 python版本:python3.6.1 使用的库:matplotlib,numpy 2.numpy库产生随机数几种方法import numpy as npnumpy ...
- python怎么导入文件-Python文件如何引入?详解引入Python文件步骤
python基本语法--引入Python文件 1.新建python文件 :在同目录lib下创建mylib.py和loadlib.py两个文件 2.在mylib.py文件中创建一个Hello的类 并且给 ...
- python怎么画条形图-python绘制条形图方法代码详解
1.首先要绘制一个简单的条形图 import numpy as np import matplotlib.pyplot as plt from matplotlib import mlab from ...
- python画直方图成绩分析-python plotly绘制直方图实例详解
计算数值出现的次数 import cufflinks as cf cf.go_offline() import numpy as np import pandas as pd set_slippage ...
- python利器怎么编程-Python任务调度利器之APScheduler详解
任务调度应用场景 所谓的任务调度是指安排任务的执行计划,即何时执行,怎么执行等.在现实项目中经常出现它们的身影:特别是数据类项目,比如实时统计每5分钟网站的访问量,就需要每5分钟定时从日志数据分析访问 ...
最新文章
- 【软件-软件设计师】操作系统知识架构图
- 计算机组成原理 第四版 总线的主模块 总线的从模块,唐朔飞计算机组成原理课件3.ppt...
- 实用教程:如何制作学术会议Oral/Spotlight Video?
- html语言中div怎么起名,css如何命名?
- 高可用架构设计之道,实战案例直面流量洪峰
- CuteEditor6.0使用配置心得体会(转)
- 复杂sql优化步骤与技巧
- 做个插件MaterialSpinner笔记
- [delphi]窗口最大化时怎么才能不要把任务栏盖住
- ES6 深拷贝_JS基本数据类型和引用数据类型的区别及深浅拷贝
- 第一部分 1.2 定义OC的类和创建OC的对象
- Partition List 将链表分成两部分
- 卷积神经网络之OverFeat(2014)
- 追梦App系列博客——后端架构篇
- 云计算基础:云计算运用越来越广泛,我们应该如何去学习云计算
- Pintia(拼题A)刷题插件 on VS Code
- include在HTML中的用法
- 大数据与云计算技术---(一)hadoop大数据平台
- CRF原理介绍(以BILSTM-CRF模型为例)
- @Aspect aop切面获取请求接口类名、方法名、及参数
热门文章
- 矩阵可逆的条件以及特征值、特征向量与可对角化条件
- 关于t00ls的挂机脚本
- android版本兼容API24,Android 7.0 (API 24) 适配
- python热搜排行功能_手把手教你用Python+Pyecharts让微博热搜榜动起来
- NGFW防火墙的ASPF实现原理
- 面试之NGFW 性能测试
- 研发团队专业能力提升
- 树突细胞会降解肿瘤抗原,阻断这一过程
- BilSTM 实体识别_肿瘤新抗原(neoantigen)专题八:新抗原识别策略使难治性实体瘤的个体化免疫治疗成为可能...
- app推广运营大神干货9问答::iOS渠道不知道去哪里挖掘等