mysql 词频分析_从Mysql中取出数据并用jieba统计词频
1、导入pymysql库和jieba库
这里使用的是中科大的镜像,很快。
安装jieba库同理。
2、编写代码
# -*- coding: utf-8 -*-
# @Time: 2020/8/25 19:24
# @Author: fanlumaster
# @File: douban.py
# @Software: PyCharm
import pymysql
import jieba
# 连接数据库
db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', db='douban', charset='utf8')
cursor = db.cursor()
# 测试,打印一下mysql版本
cursor.execute("select version()")
data = cursor.fetchone()
print("Database Version:%s" %data)
# 执行查询语句
sql = 'select * from posts'
cursor.execute(sql)
result = cursor.fetchall()
# 开始打印
print("开始打印")
i = 1
str = ""
for res in result:
print(i)
# print(res[5])
str += res[5]
i = i + 1
# print(res)
print(str)
cursor.close()
# 开始用jieba统计词频
words = jieba.lcut(str)
counts = {}
for word in words:
if len(word) == 1: # 排除单个字符的分词结果
continue
else:
counts[word] = counts.get(word, 0) + 1 # 这里的0表示如果word这个键不在字典中,就添加这个键,并且默认为0,如果加上后面的1,就合理了
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) # 以出现的次数为标准,从大到小
for i in range(100):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
mysql的数据库是之前用Java从豆瓣的小组爬取下来的一个小组的帖子,这里只是去除了主帖的数据。
有一说一,数据有14000多条,大概十几mb的样子,所以jieba执行起来还怪慢的。
运行结果:
数据库:
mysql 词频分析_从Mysql中取出数据并用jieba统计词频相关推荐
- mysql门店分析_用MySQL分析某餐饮业数据 并用杜邦分析图标展示
用MySQL分析某餐饮业数据 展示结果如下: 数据分析 1.餐饮业订单单号详情数据 682条订单信息 2.具体点菜明细数据 ...
- mysql json坑_使用mysql innodb 使用5.7的json类型遇到的坑和解决办法
---------------------------------------------- #查询JSON的某个字段 select data -> '$.Host' from temp #创建 ...
- MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结
MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结 一.VARCHAR存储和行长度限制 1.VARCHAR(N)中,N指的是字符的长度,VARCHAR类型最大支持65535,指的是 ...
- 取出json中的数据php,怎么从Json中取出数据放到一个新组中
如何从Json中取出数据放到一个新组中 JSON数据如下: { "CommunityModel": [ { " UUID ": "xxxxxx-xxx ...
- strace 分析mysql 内存占用_关于mysql cluster适用场景的分析
前言: mysql cluster作为mysql官方的一个集群软件,一直是不温不火的存在,用的较多的仍是mysql-server,本文就基于mysql cluster的特性,分析一下什么场景下适合使用 ...
- mysql 数据日志分析_基于mysql数据库的日志分析系统
现如今,日志已经成为了我们分析系统及相关服务的一个重要工具.而日志也具有其相对较为固定的格式以便于进行统计查询.其大致格式如下: 日期时间 主机 进程[pi ...
- mysql瓶颈分析_网站瓶颈分析—MYSQL性能分析
一.关于慢查询设置和分析 查找慢查询参数 mysql> show variables like 'long%';+-----------------+----------+ | Variable ...
- mysql varchar 效率_由MySQL中char和varchar效率想到的
对比char和varchar随便在google或百度中搜一下得到的结论大概都是"char定长,varchar不定长,char要比varchar占用更多的空间,由于定长char的效率高于var ...
- mysql double 存储_关于MYSQL中FLOAT和DOUBLE类型的存储-阿里云开发者社区
关于MYSQL中FLOAT和DOUBLE类型的存储 重庆八怪 2016-04-12 844浏览量 简介: 关于MYSQL中FLOAT和DOUBLE类型的存储 其实在单精度和双精度浮点类型存储中其存储方 ...
最新文章
- vim 多行注释消除注释,多行删除
- 本app(仿手机支付宝界面)ios源码
- mysql存储过程中文乱码_mysql存储过程碰到中文乱码问题
- python交互模式设置及VIM的tab补齐
- 可添加至收藏夹并在浏览器地址栏运行的JS代码
- 配置springboot在访问404时自定义返回结果以及统一异常处理
- Vue + Spring Boot 项目实战(八):导航栏与图书页面设计
- SQL性能优化(转)
- 忆起在兄弟连的那些日子!
- 把实体 转为json 数据格式---jackson 的详细用法.
- 门描述符gate descriptors
- 大数据专业考研书_大数据考研
- 高等流体力学 第二章 流体力学基础
- 主流蓝牙芯片对比 Dialog- ST -TI - Nordic
- Java 确定线程池中工作线程数的大小
- ARM树莓派高级开发——linux内核源码、树莓派源码编译、SD卡挂载
- 车速与档位匹配关系_汽车档位与速度的匹配,速度与档位匹配的标准
- 低成本FPV制作记录(空心杯+2.5寸FPV)
- JS中常用正则转换和信息验证的封装(80个)
- TrafficMonitor win7 win10 任务栏显示 网速 CPU利用率
热门文章
- 小程序动画加载只执行一次的问题
- Gin 框架 核心 httprouter tree树结构解析
- 软件工程文档编写辅助工具
- 史上最新最全的M1 Air(2020 macbook air)配置homebrew步骤
- 一针见血评互联网五大巨头:腾讯贪、阿里全、百度狠、小米直、奇虎360难
- 2015-2020年智慧城市物联网市场CAGR将高达23.2%
- ZYNQ——BRAM全双工PS_PL_数据交互
- 背单词打卡c语言程序,坚持背单词打卡107天的感悟
- 乱扔垃圾,出来挨打?Python制作垃圾分类小游戏,从你做起。
- c语言在机电中的作用,控制工程在机械电子工程中的应用