NLP笔记2_自定义词性与字典的实现

怎么实现自定义词性,哎呀

愁。看了一篇论文,作者是使用LTP实现的,但是作者没有仔细说明如何实现。在网上也看其他的博客,但是暂时还是找不到相对应较好的解决方法。希望其他博友如果知道,请指点一二。(未来还得继续学习)

LTP没有办法实现,我就转向

简单的jieba

了,想说jieba一点也不结巴

Step1:准备自己的字典

为了作业,收集了一些词汇,准备了自己的一小部分字典,当然它还在成长中.....在第一次,我整理了796个词。

下面是部分截图:

字典的格式:词+词频+词性

这里要注意词,词频与词性之间是用一个空格隔开。

Step2:分词与词性标注python实现

# 导入第三方库

import jieba

import jieba.posseg

import jieba.analyse

# 测试的文本

text = "1号楼在的哪里,数学分析的学生是应该在那里报账嘛"

# 导入自定义词典

jieba.load_userdict("dict.txt")

# 进行精确模式分词

data = jieba.cut(text, cut_all=False)

print(u"[原始文本]: ", text)

print(u"[精确模式]: ", " ".join(data))

# 词性标注

sentence_seged = jieba.posseg.cut(text)

outstr = ''

for x in sentence_seged:

outstr += "{}({}) ".format(x.word, x.flag)

print(u'[词性标注]:', outstr)

运行结果

[原始文本]: 1号楼在的哪里,数学分析的学生是应该在那里报账嘛

[精确模式]: 1号楼 在 的 哪里 , 数学分析 的 学生 是 应该 在 那里 报账 嘛

[词性标注]: 1号楼(xd) 在(p) 的(uj) 哪里(yw) ,(x) 数学分析(cs) 的(uj) 学生(n) 是(v) 应该(v) 在(p) 那里(r) 报账(sw) 嘛(yw)

可以看到效果还是很不错的。

python 分词字典的词性_NLP注2“自定义词性与词典实现”,笔记,字典,的相关推荐

  1. python 分词 jieba

    原文链接: python 分词 jieba 上一篇: C++ 构造函数使用场景 下一篇: python worldcloud 悟空传 词云制作 jieba.cut方法接受两个输入参数: 1) 第一个参 ...

  2. python 分词工具 jieba

        全几天看到高手下了个jieba分词快速入门的东西  ,希望关注我博客的人也能看得到 https://github.com/SalutLyndon/hello-world/blob/master ...

  3. python中字典的键是唯一的吗_python 零散记录(四) 强调字典中的键值唯一性 字典的一些常用方法...

    dict中键只有在值和类型完全相同的时候才视为一个键: mydict = {1:1,'':1} #此时mydict[1] 与 mydict['1']是两个不同的键值 dict的一些常用方法: clea ...

  4. 【Python刷题篇】Python从0到入门3|循环、条件复习、元组入门、字典入门

    Python从0到入门3目录 前言 Q1:团队分组 Q2:禁止重复注册 Q3:元组-牛客运动会 Q4:字典-遍历字典 Q5:字典-毕业生就业调查 Q6:姓名与学号 总结 前言 - 本期是Python从 ...

  5. python字典内存分析_python--序列,字符串,列表,元组,字典,集合内存分析

    一,什么是序列. 序列是一种数据存储方式,用来存储一系列的数据,在内存(堆内存)中,序列是一块用来存放多个值的连续的内存空间,其存储的值为所指向对象的地址.比如说a = [ 10 , 20 , 30 ...

  6. python基础:序列(列表、元组、字符串)、函数、字典、集合

    Python语言运行环境: windows linux unix Macos等等 博客记录内容: Python3的所有语法.面向对象思维.运用模块进行编程.游戏编程.计算机仿真. Python是什么类 ...

  7. 每天一小时python官方文档学习(五)————数据结构之元组、集合与字典

    昨天介绍完了最常用的列表,之后就是次常用的元组.集合与字典了. 5.3. 元组和序列 元组和之前讲过的列表有很多共同特性,例如索引和切片操作.实际上,他们是 序列 数据类型(list, tuple, ...

  8. python 序列化压缩成字符串_Python 将json序列化后的字符串转换成字典(推荐)

    一般而言下面的就可以完成需求了. def convertToDic(data): jsonDic=json.loads(data) return dict(jsonDic) 但实际应用中可能会出现一些 ...

  9. Python中list(列表)、tuple(元组)、dict(字典)的基本操作快速入门

    最近看了一下Python,觉得Python中列表.字典以及元组等比较常用,于是顺手简单的总结了一下. 1.列表是Python中比较常用的数据类型,并且列表是可以改变的,使用也非常简单,具体操作如下: ...

  10. [转载] python json 编码(dump/dumps:字典转化为json)、解码(load/loads:json转化为字典)

    参考链接: Python-Json 2 : 使用json.load/loads读取JSON文件/字符串 python json 编码(dump/dumps:字典转化为json).解码(load/loa ...

最新文章

  1. java购物车简介_Java--购物车
  2. 墨菲定律:都是温度惹的祸
  3. python中figsize什么意思_matplotlib 设置图形大小时 figsize 与 dpi 的关系
  4. CTFshow php特性 web141
  5. java面向对象的特征 —(13)
  6. 机器学习笔记(九):应用机器学习的建议
  7. 吃PHP小孩智力好,这7种鱼千万不能给孩子吃,会影响孩子的智力!
  8. Linux工作笔记-两Linux系统互传文件(使用SSH)
  9. Docker环境搭建,K8s
  10. iTerm2 + oh my zsh +agnoster 打造最强Mac终端
  11. goolge hacks
  12. java实现图片base64写入本地
  13. asp.net打开客户端bartender文件
  14. 打开组策略 计算机配置,组策略怎么打开? 打开组策略命令与4种方法-电脑教程...
  15. 简述程序化交易的优缺点都是什么?
  16. 程序员的app软件开发经验
  17. java输出执行开始时间,结束时间和运行时间
  18. Linux 配置关掉虚拟防火墙
  19. java float四舍五入保留两位小数_java基础入门-float四舍五入保留两位小数注意的地方...
  20. 三星 S6 屏幕快照

热门文章

  1. fn键台式计算机在哪,电脑键盘上FN键的使用方法【图文】
  2. 澳洲的10种房屋类型
  3. 使用C#更新word中的目录域
  4. 编译原理——设计一个词法分析程序,实现对C程序设计语言的源程序(自定)的词法分析
  5. Linux之DNS域名解析
  6. SQL Server常用函数整理
  7. 菜鸟写Python-Pycharm执行Scrapy项目报:Scrapy-no active project 和(或)Unknown command: crawl错误
  8. 大数据分析案例-用RFM模型对客户价值分析(聚类)
  9. 数据库基础知识七:同义词
  10. 【文本挖掘】关键词提取