基于 Jieba 的词频统计

  • 什么是词频统计
  • 基于Jieba的词频统计
    • 1、分词器
    • 2、分词后的统计
  • 测试说明
  • demo

什么是词频统计

在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。一个词语出现的次数越多,越表明是该文件的核心词汇,该词语对于快速理解文章具有重要的意义。词频统计是自然语言处理技术中最基础的技术之一,在词频统计中,如何区分词是很关键的一环。

基于Jieba的词频统计

1、分词器

在前面的学习,我们已经介绍过在 Jieba 模块中支持三种分词模式,它们分别为:

  • 精确模式:试图将句子最精确地切开,适合文本分析;
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

在进行词频统计之间,我们可以通过 Jieba 模块对文本进行分词,将一个句子中的各个词语分开,从而便于我们对词语进行统计。

import jieba
text = input()
words1 = jieba.cut(text, cut_all=True) # 全模式分词
words2 = jieba.cut(text, cut_all=False)  # 精确模式分词
words3 = jieba.lcut_for_search(text)  # 搜索引擎模式分词

2、分词后的统计

在拿到 Jieba 分词后的数据后就要对数据进行统计,所谓统计就是看一个词在这篇文章中出现了多少次。我们可以通过使用字典的键来存储出现的词,值存储词出现的次数来实现。

data = {} # 字典
for chara in words:if len(chara) < 2:continueif chara in data:data[chara] += 1 # 再次出现则加 1else:data[chara] = 1  # 首次出现则为 1

测试说明

编程要求
实现基于 Jieba 的词频统计,完成对 text 文本的词频统计并输出词频前三的词频统计结果。
其中 text 文本通过 input 从后台获取。

测试输入
联合国妇女署旗舰报告指出女性取得的进展,但是呼吁政府采取急切的行动,在世界每个国家消除导致女性比男性落后和弱势的不公正待遇。《世界女性进展:追求公正》是联合国妇女署在2011年初成立后发布的第一个主要报告。报告指出了女性进展的积极方面——例如已有139个国家和地区将性别平等纳入宪法——但是太多时候,不管在家庭还是工作场合,女性仍然面临不公正,暴力或不平等的遭遇。[ 详细 ]与联合国妇女署、搜狐公益一起,睁大眼睛,找出在个人和公共生活中,你能为性别平等所做的点滴!做出承诺,在你的人生里,成为一个支持性别平等的有责任感的公民!

预期输出:
[(‘比较’, 3), (‘一个’, 3), (‘苹果’, 3)]

demo

import jieba
text= input()
words = jieba.lcut(text)   #  搜索引擎模式分词
data={} # 词典# 任务:完成基于 Jieba 模块的词频统计
for chara in words:if len(chara) < 2:continueif chara in data:data[chara] += 1 # 再次出现则加 1else:data[chara] = 1  # 首次出现则为 1data = sorted(data.items(), key=lambda x: x[1], reverse=True)  # 排序
print(data[:3],end="")

NLP算法-基于 Jieba 的词频统计相关推荐

  1. 云计算课程设计基于hadoop的词频统计设计

    云计算课程设计基于hadoop的词频统计设计实验报告 http://链接:https://pan.baidu.com/s/1ujUAg4q1sZZwmyeeKrNirg 提取码:maq7

  2. jieba库词频统计_网购评论之词频分析

    日常数据分析中,词频分析是一个很好的文本挖掘方法,这篇文章说说词频分析方法. 这里选用京东商场中购买手机的部分数据信息,利用jieba词库对购物评论进行分词,提取客户群体对手机的关注点. 数据集来源: ...

  3. jieba库词频统计_用jieba库统计文本词频及云词图的生成

    一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...

  4. jieba库词频统计_运用jieba库进行词频统计

    Python第三方库jieba(中文分词) 一.概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库 ...

  5. java统计词频算法_Java实现的词频统计——功能改进

    本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能. 功能: 1. 小文件输入--从控制台由用户输入到文件中,再对文件进行统计: 2.支持命令行输入英文作品的 ...

  6. jieba库词频统计_如何用python对《三国演义》、《红楼梦》等名著开展词云分析及字频统计、出场统计等工作。...

    以下以<红楼梦>为例进行设计. 在制作词云图及统计之前,需要下载python的几个库,wordcloud.jieba以及imageio等,我的操作系统为Windows10,IDE环境为id ...

  7. 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

    词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...

  8. 01文本分析---词频统计(基于jieba分词)

    基于jiba库分词默认模式分词 一.效果: 1.输出分词和从0开始的一一映射文件 2.输出词频统计文件 3.输出分词文件 二.功能: 1.分词 2.词频统计 3.进行了简单的同义词合并 三.说明: 1 ...

  9. Python大数据:jieba分词,词频统计

    实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理 ...

最新文章

  1. java用构造方法定义book类_JAVA基础学习之路(三)类定义及构造方法
  2. 复制公钥到多个服务器脚本
  3. maya崩溃自动保存路径_maya 使用swig将插件编译成pyd,无缝使用内置数据实现加速计算模块...
  4. 重学java基础第二课:java和python分析
  5. Vue内容分发slot
  6. 苹果任命软件主管凯文•林奇为“苹果汽车”项目负责人
  7. html获取contextpath,JavaScript中${pageContext.request.contextPath}取值问题及解决方案
  8. 阶段5 3.微服务项目【学成在线】_day01 搭建环境 CMS服务端开发_17-页面查询接口定义-定义模型-需求分析和模型类...
  9. PHP安装kafka扩展
  10. 一起谈.NET技术,在ASP.NET中自动合并小图片并使用CSS Sprite显示出来
  11. vue项目px自动转rem适用于pc端
  12. access()函数的用法
  13. oracle读取数据方式,关于oracle数据库读取数据的三种方式
  14. 英语差能学好Python吗?学Python有捷径吗?
  15. 第一章 概率论基本概念(a)
  16. vue 下载文件流和捕获后端返回的状态码和错误信息的方法
  17. rapidSVN : Error while performing action: ra_serf: The server sent a truncated HTTP response body.
  18. android 重映射按键,键盘重映射的终极教程 | MOS86
  19. 【Python】京东消费行为数据分析可视化实战案例
  20. 默孚龙导电滑环的内部结构和使用范围

热门文章

  1. 创业是一条艰辛的路,有多少人敢于选择?
  2. 《蜥蜴书》_讲义及源码解读_10
  3. 莱茨狗之后是度宇宙,积极布局区块链的百度想要什么
  4. 医学小常识之烧伤之后不能喝白开水
  5. 镜头光圈、画幅、视角和焦距的关系?
  6. PROTEUS最新版本下载CSDN_233乐园小游戏下载最新版本-233乐园小游戏下载并安装下载免费...
  7. nolo手柄配对不上_PimaxVR配合Nolo定位套装使用教程.PDF
  8. 数据库优化—— sql 语句
  9. 华为云发布,怎么样?
  10. 2022年中级会计职称考试经济法练习题及答案