python 分词字典的词性_NLP注2“自定义词性与词典实现”,笔记,字典,的
NLP笔记2_自定义词性与字典的实现
怎么实现自定义词性,哎呀
愁。看了一篇论文,作者是使用LTP实现的,但是作者没有仔细说明如何实现。在网上也看其他的博客,但是暂时还是找不到相对应较好的解决方法。希望其他博友如果知道,请指点一二。(未来还得继续学习)
LTP没有办法实现,我就转向
简单的jieba
了,想说jieba一点也不结巴
。
Step1:准备自己的字典
为了作业,收集了一些词汇,准备了自己的一小部分字典,当然它还在成长中.....在第一次,我整理了796个词。
下面是部分截图:
字典的格式:词+词频+词性
这里要注意词,词频与词性之间是用一个空格隔开。
Step2:分词与词性标注python实现
# 导入第三方库
import jieba
import jieba.posseg
import jieba.analyse
# 测试的文本
text = "1号楼在的哪里,数学分析的学生是应该在那里报账嘛"
# 导入自定义词典
jieba.load_userdict("dict.txt")
# 进行精确模式分词
data = jieba.cut(text, cut_all=False)
print(u"[原始文本]: ", text)
print(u"[精确模式]: ", " ".join(data))
# 词性标注
sentence_seged = jieba.posseg.cut(text)
outstr = ''
for x in sentence_seged:
outstr += "{}({}) ".format(x.word, x.flag)
print(u'[词性标注]:', outstr)
运行结果
[原始文本]: 1号楼在的哪里,数学分析的学生是应该在那里报账嘛
[精确模式]: 1号楼 在 的 哪里 , 数学分析 的 学生 是 应该 在 那里 报账 嘛
[词性标注]: 1号楼(xd) 在(p) 的(uj) 哪里(yw) ,(x) 数学分析(cs) 的(uj) 学生(n) 是(v) 应该(v) 在(p) 那里(r) 报账(sw) 嘛(yw)
可以看到效果还是很不错的。
python 分词字典的词性_NLP注2“自定义词性与词典实现”,笔记,字典,的相关推荐
- python 分词 jieba
原文链接: python 分词 jieba 上一篇: C++ 构造函数使用场景 下一篇: python worldcloud 悟空传 词云制作 jieba.cut方法接受两个输入参数: 1) 第一个参 ...
- python 分词工具 jieba
全几天看到高手下了个jieba分词快速入门的东西 ,希望关注我博客的人也能看得到 https://github.com/SalutLyndon/hello-world/blob/master ...
- python中字典的键是唯一的吗_python 零散记录(四) 强调字典中的键值唯一性 字典的一些常用方法...
dict中键只有在值和类型完全相同的时候才视为一个键: mydict = {1:1,'':1} #此时mydict[1] 与 mydict['1']是两个不同的键值 dict的一些常用方法: clea ...
- 【Python刷题篇】Python从0到入门3|循环、条件复习、元组入门、字典入门
Python从0到入门3目录 前言 Q1:团队分组 Q2:禁止重复注册 Q3:元组-牛客运动会 Q4:字典-遍历字典 Q5:字典-毕业生就业调查 Q6:姓名与学号 总结 前言 - 本期是Python从 ...
- python字典内存分析_python--序列,字符串,列表,元组,字典,集合内存分析
一,什么是序列. 序列是一种数据存储方式,用来存储一系列的数据,在内存(堆内存)中,序列是一块用来存放多个值的连续的内存空间,其存储的值为所指向对象的地址.比如说a = [ 10 , 20 , 30 ...
- python基础:序列(列表、元组、字符串)、函数、字典、集合
Python语言运行环境: windows linux unix Macos等等 博客记录内容: Python3的所有语法.面向对象思维.运用模块进行编程.游戏编程.计算机仿真. Python是什么类 ...
- 每天一小时python官方文档学习(五)————数据结构之元组、集合与字典
昨天介绍完了最常用的列表,之后就是次常用的元组.集合与字典了. 5.3. 元组和序列 元组和之前讲过的列表有很多共同特性,例如索引和切片操作.实际上,他们是 序列 数据类型(list, tuple, ...
- python 序列化压缩成字符串_Python 将json序列化后的字符串转换成字典(推荐)
一般而言下面的就可以完成需求了. def convertToDic(data): jsonDic=json.loads(data) return dict(jsonDic) 但实际应用中可能会出现一些 ...
- Python中list(列表)、tuple(元组)、dict(字典)的基本操作快速入门
最近看了一下Python,觉得Python中列表.字典以及元组等比较常用,于是顺手简单的总结了一下. 1.列表是Python中比较常用的数据类型,并且列表是可以改变的,使用也非常简单,具体操作如下: ...
- [转载] python json 编码(dump/dumps:字典转化为json)、解码(load/loads:json转化为字典)
参考链接: Python-Json 2 : 使用json.load/loads读取JSON文件/字符串 python json 编码(dump/dumps:字典转化为json).解码(load/loa ...
最新文章
- java购物车简介_Java--购物车
- 墨菲定律:都是温度惹的祸
- python中figsize什么意思_matplotlib 设置图形大小时 figsize 与 dpi 的关系
- CTFshow php特性 web141
- java面向对象的特征 —(13)
- 机器学习笔记(九):应用机器学习的建议
- 吃PHP小孩智力好,这7种鱼千万不能给孩子吃,会影响孩子的智力!
- Linux工作笔记-两Linux系统互传文件(使用SSH)
- Docker环境搭建,K8s
- iTerm2 + oh my zsh +agnoster 打造最强Mac终端
- goolge hacks
- java实现图片base64写入本地
- asp.net打开客户端bartender文件
- 打开组策略 计算机配置,组策略怎么打开? 打开组策略命令与4种方法-电脑教程...
- 简述程序化交易的优缺点都是什么?
- 程序员的app软件开发经验
- java输出执行开始时间,结束时间和运行时间
- Linux 配置关掉虚拟防火墙
- java float四舍五入保留两位小数_java基础入门-float四舍五入保留两位小数注意的地方...
- 三星 S6 屏幕快照