个人接触的分词器
安装
调用
jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba
清华大学THULAC:一个高效的中文词法分析工具包
https://github.com/thunlp/THULAC-Python
FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词
https://github.com/rockyzhengwu/FoolNLTK
HanLP最高分词速度2,000万字/秒 https://github.com/hankcs/HanLP/wiki/%E8%A7%92%E8%89%B2%E6%A0%87%E6%B3%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93
pip install pyhanlp
Ictclas 分词系统 - NLPIR汉语分词系统 http://ictclas.nlpir.org/
LTP https://www.ltp-cloud.com/

FoolNLTK

安装 pip install foolnltkimport fool
text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']
foolnltk加载字典
import fool
fool.load_userdict(path)
text = ["我在北京天安门看你难受香菇", "我在北京晒太阳你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安门', '看', '你', '难受', '香菇'],
# ['我', '在', '北京', '晒太阳', '你', '在', '非洲', '看', '雪']]
删除词典fool.delete_userdict();

**命令行分词, 可指定-b参数,每次切割的行数能加快分词速度
python -m fool [filename]**
用户自定义词典
词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

词性标注


import fooltext = ["一个傻子在北京"]
print(fool.pos_cut(text))
#[[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]]

实体识别


import fool text = ["一个傻子在北京","你好啊"]
words, ners = fool.analysis(text)
print(ners)
#[[(5, 8, 'location', '北京')]]

HanLP

新词识别

https://github.com/hankcs/HanLP/wiki/%E6%96%B0%E8%AF%8D%E8%AF%86%E5%88%AB
https://github.com/hankcs/HanLP/wiki/%E6%96%B0%E8%AF%8D%E8%AF%86%E5%88%AB

rom pyhanlp import *print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('下雨天地面积水'):print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性
testCases = ["商品和服务","结婚的和尚未结婚的确实在干扰分词啊","买水果然后来世博园最后去世博会","中国的首都是北京","欢迎新老师生前来就餐","工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作","随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \"根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \"有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \"严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))
使用命令hanlp segment进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果:$ hanlp segment
商品和服务
商品/n 和/cc 服务/vn
当下雨天地面积水分外严重
当/p 下雨天/n 地面/n 积水/n 分外/d 严重/a
龚学平等领导说,邓颖超生前杜绝超生
龚学平/nr 等/udeng 领导/n 说/v ,/w 邓颖超/nr 生前/t 杜绝/v 超生/vi

角色标注命名实体

训练命名实体识别模型
https://github.com/hankcs/HanLP/wiki/%E8%A7%92%E8%89%B2%E6%A0%87%E6%B3%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93
目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模型的训练。

python 分词器使用相关推荐

  1. python分词器_python实现TriedTree分词器

    开始写专栏了-- 通过前缀字典树的方式实现添加节点,提取关键词并打标,可以处理部分分词任务,关键词提取任务,应用在搜索场景和文本信息抽取场景. 在专业性较强的文本关键词检测中有比较好的表现,但是在通用 ...

  2. elasticsearch教程--中文分词器作用和使用

    概述   本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...

  3. ansj分词器的简单了解介绍

    java分词器 这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛 今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识, ...

  4. python连接es_Elasticsearch --- 3. ik中文分词器, python操作es

    一.IK中文分词器 1.下载安装 2.测试 #显示结果 {"tokens": [ {"token" : "上海","start_o ...

  5. r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  6. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  7. 基于Python的中英文分词基础:正则表达式和jieba分词器

    基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...

  8. python中文分词器-jieba分词器详解及wordcloud词云生成

    jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...

  9. python函数——Keras分词器Tokenizer

    文章目录 0. 前言 1. 语法 1.1 构造参数 1.2 返回值 1.3 类方法 1.4 属性 2. 简单示例 3. 常用示例 python函数 系列目录:python函数--目录 0. 前言 To ...

  10. 自制基于HMM的python中文分词器

    不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...

最新文章

  1. linux vim6,VIM6:linux终端下的英文字典--SDCV
  2. 图灵奖得主Bengio明星创业公司被「贱卖」| AI日报
  3. IE9开始支持SVG格式(VML终结)
  4. Nmap扫描教程之网络基础服务DHCP服务类
  5. pycharm安装python包_Pycharm使用教程(四)-安装python依赖包(非常详细,非常实用)...
  6. 全志科技公司A83T Qt 支持双屏显示
  7. LeetCode 95. 不同的二叉搜索树 II(递归)
  8. 理论基础 —— 查找
  9. (第九章)多表查询之all,any
  10. Webservice 的安全
  11. [POI2010]Divine Divisor
  12. Atitit 嵌入式tomcat 嵌入式服务器 attilax 你感觉艾提拉 总结 比起嵌入jetty ,文件可以自动刷新貌似还不错。。方便调试debug package com.attilax.
  13. 缉拿IP冲突之后的“真凶”
  14. matplotlib画图教程系列之-堆积柱状图
  15. Java总结一:初窥线程
  16. 根据银行卡号查询银行卡字母及银行卡名称
  17. Jekins配置Publish over SSH详解
  18. android多边形图片,android – 按多边形区域裁剪图像
  19. RPGMV修炼手册2——RPGMV的部分窗口代码学习
  20. 2023年经济危机要来了,如何度过这个难关?

热门文章

  1. CTF-Crypto
  2. 阿里巴巴Java开发手册 PDF
  3. 修改文件 火车票买下铺_12306修改代码买下铺?12306码农太弱了吧 (转载)
  4. 微信API接口(收藏)
  5. USB协议学习笔记 - 引言
  6. Ubuntu过去十年的10个关键时刻
  7. Xshell+Xftp 下载安装步骤
  8. vue实现周日历切换(两种方式)
  9. 学习笔记(03):Qt视频教程-基础实例进阶-多线程下载和断点续传
  10. android 鼠标大小设置,BlueStacks安卓模拟器不能调整屏幕窗口大小用鼠标拖拽也不能...