这篇文章的内容是作为所有文本分类技术的基础而写的,也可以把它作为其他自然语言处理技术的基础。pyhanlp的内容很多,这篇文章先介绍分词和词性标注这一部分。顺便写一个简介。

简介

pyhanlp是HanLP的Python接口。因此后续所有关于pyhanlp的文章中也会写成HanLP。HanLP是完全用Java自实现的自然语言处理工具包。特点是完全用Java实现不引入第三方工具包。完全开源。中文的开源工具能做到这么完整的大概只有HanLP。包括了词法分析、句法分析、分类、聚类、关键词抽取等常见NLP应用任务。并且github上问题回答快,作者很是认真的解决大家提出的问题。虽然用Java实现,HanLP也提供了Python接口。

简单的安装过程,请先确保安装了anaconda3

# 安装命令

$ pip install pyhanlp

# 更新到最新代码包和数据包

$ hanlp update

分词与词性标注

示例

In [1]: from pyhanlp import *

In [5]: print(HanLP.segment("你好,欢迎使用HanLP汉语处理包!接下来请从其他Demo中

...: 体验HanLP丰富的功能~"))

[你好/vl, ,/w, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, !/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]

In [11]: for word in word_li:

...: print(word.word, word.nature)

...:

你好 vl

, w

欢迎 v

使用 v

HanLP nx

汉语 gi

处理 vn

包 v

! w

接下来 vl

请 v

从 p

其他 rzv

Demo nx

中 f

体验 v

HanLP nx

丰富 a

的 ude1

功能 n

~ nx

关于HanLP.segment的说明。内存要求:120MB以上,标准数据包(35万核心词库+默认用户词典)。HanLP对词典的数据结构进行了长期的优化,哪怕HanLP的词典上百兆也无需担心。HanLP.segment是一个工厂函数,它是对StandardTokenizer的封装。当前StandardTokenizer使用的是viterbi最短路分词。viterbi分词器是目前效率和效果的最佳平衡。该函数的详细代码在分词大致功能有:首先生成词网和词图即可以得到粗分词网,经维特比算法找最短路径和人工干预分词后即可得到粗分结果。之后根据配置可以进行数字识别,人名识别,译名识别,地名识别,机构名识别,如果是索引分词则进行全切分分词,词性标注。

HanLP的com.hankcs.hanlp.tokenizer包中封装了很多开箱即用的分词器,但是不是所有的分词器都能在Python接口中直接使用。这些分词器有BasicTokenizer这是NGram分词器,不识别命名实体,不能使用用户词典。SpeedTokenizer这是最长匹配分词器。NotionalTokenizer这是实词分词器。StandardTokenizer当前效率和效果最佳的分词器。NLPTokenizer更精确的中文分词器。IndexTokenizer适用于信息检索的分词器。

明天将要介绍的内容是文本的向量表示,这里边有一部分内容是跟特征抽取重合的。好了,今天的内容就到这里,写实际示例的文章就是轻松愉快。

python 分词 词性_pyhanlp——分词与词性标注相关推荐

  1. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解

    本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...

  2. 基于python的几种中文分词-词性获取

    基于python的几种中文分词-词性获取 1.测试环境 2.安装与使用 2.1 jieba分词 2.2 清华大学的THULAC 2.3 HanLP 2.4 pynlpir 基于python的几种中文分 ...

  3. Pytorch:jieba分词、hanlp分词、词性标注、命名实体识别、one-hot、Word2vec(CBOW、skipgram)、Word Embedding词嵌入、fasttext

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 文本预处理及其作用: 文本语料在输送给模型前一般需要一系列的预 ...

  4. 对Python中文分词模块结巴分词算法过程的理解和分析

    结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba 作者的文档写的不是很全, 只写了怎么用, ...

  5. python中文分词库_jieba分词-强大的Python 中文分词库

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  6. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  7. python分词_Python 结巴分词实现关键词抽取分析

    1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键 ...

  8. jieba分词词性说明

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

  9. 正向最大匹配算法 python代码_中文分词算法之最大正向匹配算法(Python版)

    最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的. 正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配. 首先我们可以规定一个词的最大长度,每次扫描的时候 ...

  10. python用jieba进行分词并可视化

    python用jieba进行分词并可视化 import jieba import pandas as pd import matplotlib.pyplot as plt txt = open(&qu ...

最新文章

  1. 大盘点|6D姿态估计算法汇总(下)
  2. Python ConfigParser 模块
  3. Intel x86架构之多处理器与APIC
  4. Android日志系统分析之日志设备驱动程序代码阅读
  5. xxl-job 执行结果是空_空指针,段错误,这场面试我栽倒在这里了!
  6. springcloud微服务总结四 负载均衡
  7. ldifde 神奇功效,对付英文系统下显示中文乱码哦
  8. retrofit2使用详解_秒懂Retrofit2之Converter
  9. python基本知识、数据库、网络、编程等总结
  10. 自定义控件添加属性_|AutoCAD LT 2019 Mac自定义功能区的方法
  11. leetcode 整数反转
  12. elementui表格中tip设置_Element-ui自定义table表头、修改列标题样式、添加tooltip、:render-header使用...
  13. Office办公软件测试题
  14. 『GoLang』错误处理
  15. Java:每日获取稳定可用免费代理ip(仅供日常使用,请勿用作他途)
  16. 寒武纪“失速”,是AI芯片行业的阵痛?
  17. 回首过去,展望未来。
  18. Java大作业之餐厅管理系统
  19. c#往结构体里面读数据_C# 结构体和ListT类型数据转Json数据保存和读取
  20. 苹果以旧换新活动_同是以旧换新,苹果OPPO有哪些差异?懂手机的都知道它更良心...

热门文章

  1. javaweb项目大概轮廓
  2. 计算机表格的条件公式,电脑Excel输出时如何进行多条件判断
  3. 魔兽世界单机(芒果3.3.5a)机器人操作命令大全
  4. 微型计算机存储器cache,微型计算机存储器系统中的Cache是
  5. ThingJS 开发使用感悟
  6. JavaScript-⑤代码
  7. 几何平均数与AG不等式
  8. 感受吴军博士的见识(一)
  9. Cinnamon 任务栏网速绘制内存和CPU使用率竖线
  10. 千呼万唤的线粒体基因组完成图