1、导入pymysql库和jieba库

这里使用的是中科大的镜像,很快。

安装jieba库同理。

2、编写代码

# -*- coding: utf-8 -*-

# @Time: 2020/8/25 19:24

# @Author: fanlumaster

# @File: douban.py

# @Software: PyCharm

import pymysql

import jieba

# 连接数据库

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', db='douban', charset='utf8')

cursor = db.cursor()

# 测试,打印一下mysql版本

cursor.execute("select version()")

data = cursor.fetchone()

print("Database Version:%s" %data)

# 执行查询语句

sql = 'select * from posts'

cursor.execute(sql)

result = cursor.fetchall()

# 开始打印

print("开始打印")

i = 1

str = ""

for res in result:

print(i)

# print(res[5])

str += res[5]

i = i + 1

# print(res)

print(str)

cursor.close()

# 开始用jieba统计词频

words = jieba.lcut(str)

counts = {}

for word in words:

if len(word) == 1: # 排除单个字符的分词结果

continue

else:

counts[word] = counts.get(word, 0) + 1 # 这里的0表示如果word这个键不在字典中,就添加这个键,并且默认为0,如果加上后面的1,就合理了

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True) # 以出现的次数为标准,从大到小

for i in range(100):

word, count = items[i]

print("{0:<10}{1:>5}".format(word, count))

mysql的数据库是之前用Java从豆瓣的小组爬取下来的一个小组的帖子,这里只是去除了主帖的数据。

有一说一,数据有14000多条,大概十几mb的样子,所以jieba执行起来还怪慢的。

运行结果:

数据库:

mysql 词频分析_从Mysql中取出数据并用jieba统计词频相关推荐

  1. mysql门店分析_用MySQL分析某餐饮业数据 并用杜邦分析图标展示

    用MySQL分析某餐饮业数据 展示结果如下: 数据分析 1.餐饮业订单单号详情数据                                 682条订单信息 2.具体点菜明细数据        ...

  2. mysql json坑_使用mysql innodb 使用5.7的json类型遇到的坑和解决办法

    ---------------------------------------------- #查询JSON的某个字段 select data -> '$.Host' from temp #创建 ...

  3. MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结

    MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结 一.VARCHAR存储和行长度限制 1.VARCHAR(N)中,N指的是字符的长度,VARCHAR类型最大支持65535,指的是 ...

  4. 取出json中的数据php,怎么从Json中取出数据放到一个新组中

    如何从Json中取出数据放到一个新组中 JSON数据如下: { "CommunityModel": [ { " UUID ": "xxxxxx-xxx ...

  5. strace 分析mysql 内存占用_关于mysql cluster适用场景的分析

    前言: mysql cluster作为mysql官方的一个集群软件,一直是不温不火的存在,用的较多的仍是mysql-server,本文就基于mysql cluster的特性,分析一下什么场景下适合使用 ...

  6. mysql 数据日志分析_基于mysql数据库的日志分析系统

    现如今,日志已经成为了我们分析系统及相关服务的一个重要工具.而日志也具有其相对较为固定的格式以便于进行统计查询.其大致格式如下: 日期时间            主机            进程[pi ...

  7. mysql瓶颈分析_网站瓶颈分析—MYSQL性能分析

    一.关于慢查询设置和分析 查找慢查询参数 mysql> show variables like 'long%';+-----------------+----------+ | Variable ...

  8. mysql varchar 效率_由MySQL中char和varchar效率想到的

    对比char和varchar随便在google或百度中搜一下得到的结论大概都是"char定长,varchar不定长,char要比varchar占用更多的空间,由于定长char的效率高于var ...

  9. mysql double 存储_关于MYSQL中FLOAT和DOUBLE类型的存储-阿里云开发者社区

    关于MYSQL中FLOAT和DOUBLE类型的存储 重庆八怪 2016-04-12 844浏览量 简介: 关于MYSQL中FLOAT和DOUBLE类型的存储 其实在单精度和双精度浮点类型存储中其存储方 ...

最新文章

  1. vim 多行注释消除注释,多行删除
  2. 本app(仿手机支付宝界面)ios源码
  3. mysql存储过程中文乱码_mysql存储过程碰到中文乱码问题
  4. python交互模式设置及VIM的tab补齐
  5. 可添加至收藏夹并在浏览器地址栏运行的JS代码
  6. 配置springboot在访问404时自定义返回结果以及统一异常处理
  7. Vue + Spring Boot 项目实战(八):导航栏与图书页面设计
  8. SQL性能优化(转)
  9. 忆起在兄弟连的那些日子!
  10. 把实体 转为json 数据格式---jackson 的详细用法.
  11. 门描述符gate descriptors
  12. 大数据专业考研书_大数据考研
  13. 高等流体力学 第二章 流体力学基础
  14. 主流蓝牙芯片对比 Dialog- ST -TI - Nordic
  15. Java 确定线程池中工作线程数的大小
  16. ARM树莓派高级开发——linux内核源码、树莓派源码编译、SD卡挂载
  17. 车速与档位匹配关系_汽车档位与速度的匹配,速度与档位匹配的标准
  18. 低成本FPV制作记录(空心杯+2.5寸FPV)
  19. JS中常用正则转换和信息验证的封装(80个)
  20. TrafficMonitor win7 win10 任务栏显示 网速 CPU利用率

热门文章

  1. 小程序动画加载只执行一次的问题
  2. Gin 框架 核心 httprouter tree树结构解析
  3. 软件工程文档编写辅助工具
  4. 史上最新最全的M1 Air(2020 macbook air)配置homebrew步骤
  5. 一针见血评互联网五大巨头:腾讯贪、阿里全、百度狠、小米直、奇虎360难
  6. 2015-2020年智慧城市物联网市场CAGR将高达23.2%
  7. ZYNQ——BRAM全双工PS_PL_数据交互
  8. 背单词打卡c语言程序,坚持背单词打卡107天的感悟
  9. 乱扔垃圾,出来挨打?Python制作垃圾分类小游戏,从你做起。
  10. c语言在机电中的作用,控制工程在机械电子工程中的应用