【自然语言处理】-jieba库学习笔记(一)
jieba.cut
import jiebaL = list(jieba.cut('大家好,我是勤奋努力的野指针'))
分词效果还是很不错滴
['大家', '好', ',', '我', '是', '勤奋努力', '的', '野', '指针']
把分好的词和字整理到文档里面
(整理了孤勇着里面的一段歌词)
import jiebaL = list(jieba.cut('大家好,我是勤奋努力的野指针'))vocab = {} # 词
cs = {} # 字
text = ''
# 字典:去重功能
with open('gyz歌词.txt', 'r', encoding='utf-8') as file:for line in file:line = line.strip()text += line# 处理字for c in line:cs[c] = 0# 分词for word in jieba.cut(line):vocab[word] = 0with open('cs.txt', 'w') as csf:for c in cs.keys():csf.write(c + '\n')
with open('vocab.txt', 'w') as vf:for w in vocab.keys():vf.write(w + '\n')
jieba.analyse
import jieba.analyseH = jieba.analyse.textrank(text, topK=10, withWeight=False) # 出现频率最高的十个词
这就是频率最高的十个词啦
['英雄', '衣裳', '对峙', '不算', '玩偶', '孤身', '缝好', '黑夜', '就让', '怪兽']
第一次写博客,不算太好,以后会继续努力!
【自然语言处理】-jieba库学习笔记(一)相关推荐
- 【自然语言处理】-nltk库学习笔记(一)
句子切分(Sentence Tokenize) nltk的分词是句子级别的,所以对于一篇文档首先要将文章按句子进行分割,然后句子进行分词 from nltk.tokenize import sent_ ...
- 全国计算机等级考试二级Python精品题库学习笔记1
全国计算机等级考试二级Python精品题库学习笔记1 精品试卷01 精品试卷01程序题 基本操作题 2:随机验证码 基本操作题 3:比赛成绩计算 Turtle 绘图题:同心圆 简单应用题 2:员工工资 ...
- python xlwings 切片_Python xlwings库学习笔记(1)
Python xlwings库学习笔记(1) Python是最近几年很火的编程语言,被办公自动化的宣传吸引入坑,办公自动化必然绕不开Excel的操作,能操作Excel的库有很多,例如: xlrd xl ...
- python标准库学习笔记
原创:python标准库学习笔记 数据结构 bisect 模块里实现了一个向列表插入元素时也会顺便排序的算法. struct - 二进制数据结构:用途:在 Python 基本数据类型和二进制数据之间进 ...
- 深度学习常用python库学习笔记
深度学习常用python库学习笔记 常用的4个库 一.Numpy库 1.数组的创建 (1)np.array() (2)np.zeros() (3)np.ones() (4)np.empty() (5) ...
- Huggingface Transformers库学习笔记(二):使用Transformers(上)(Using Transformers Part 1)
前言 本部分是Transformer库的基础部分的上半部分,主要包括任务汇总.模型汇总和数据预处理三方面内容,由于许多模型我也不太了解,所以多为机器翻译得到,错误再所难免,内容仅供参考. Huggin ...
- STM32 HAL库学习笔记1-HAL库简介
STM32 HAL库学习笔记1-HAL库简介 HAL库 SPL 库 和 HAL 库两者相互独立,互不兼容.几种库的比较如下 目前几种库对不同芯片的支持情况如下 ST 中文官网上有一篇<关于ST库 ...
- STM32 HAL库学习笔记4-SPI
STM32 HAL库学习笔记4-SPI 前言 一.SPI协议简介 SPI物理层 SPI协议层 1.基本通讯过程 2. 通讯的起始和停止信号 3. 数据有效性 4. CPOL/CPHA 及通讯模式 二. ...
- Python_pygame库学习笔记(1):pygame的由来,特点以及模块简介
Python_pygame库学习笔记 1 Pygame库的由来: Python适合用来开发游戏吗? Pygame的安装 Pygame模块简介 Pygame库的由来: 2000年,作者Pete Shin ...
最新文章
- 2021年大数据Spark(十六):Spark Core的RDD算子练习
- 见到了“公司”定义一个Company类,那么见到了“字段”是不是也可定义一个Column类?...
- 社交网络分析与反欺诈
- javascript --- Vue初始化 模板渲染
- linux系统下升级node,linux下安装指定版本的nodejs(升级到指定版本)
- cad细等线体不显示_CAD技法大全,如何在CAD中解决好部分图元无法正常显示的问题 ?...
- 多图片文件上传实现并通过 PostMan 测试
- 配置npm下载依赖位置
- wps中将文档输出为pdf_简单4步通过WPS2013 API将Word,Excel和PPT文件转换成PDF文件
- android int 字节数组,android 将int转byte,byte转int的两种方法
- 海思Hi3516--移动侦测原理与理解
- 用递归法打印九九乘法表c语言,java递归打印九九乘法表
- 知其所以然技术论坛VC++资源下载
- python浪漫代码表白npy_python – Cython使用MemoryView时关于NPY_NO_DEPRECATED_API的Numpy警告...
- dcs常用的冗余方式_冗余技术在DCS平台应用分析
- 深入java8的集合1:ArrayList的实现原理
- FOne easyModelVerifier™ 模型/代码Back-to-Back自动化验证工具
- 手机上有哪些可以记录生日倒计时天数的软件?
- 2020成考C语言答案,2020年成人高考语文题库(含历年真题练习题模拟题)
- hdu 6287 口算训练(二分+质因数分解+思维)