安徽科技学院 信网学院网络文化节 王鑫
基于Python的文本分词与词云生成——以QQ群聊天记录为例
导入词云制作库wordcloud、中文分词库jieba和re模块等
import wordcloud
import jieba
import re
import imageio
jupyter魔法指令
%reload_ext lab_black
imread函数读取本地图片,作为词云形状图片
mk = imageio.imread(“alice.png”)
构建词云对象w,设置词云图片宽、高、字体、背景颜色等参数
w = wordcloud.WordCloud(width=1000,
height=700,
background_color=“white”,
font_path=“msyh.ttc”,
scale=3,
mask=mk,
stopwords={“表情”, “图片”, “撤回”, “一条”, “消息”, “一个”},
contour_width=1,
contour_color=“steelblue”)
加载QQ群聊学习记录文件
f = open(“网工192的渣男渣女们②.txt”, encoding=“utf-8”)
txt_content = f.readlines()
数据初步清洗
txt_content = txt_content[8:] # 过滤群说明(分组,对象)
txtlist = []
for line in txt_content:
# 替换字符串空行,正则匹配日期、时间、用户名
lines = re.sub("\d{4}-\d{2}-\d{2} \d{1,2}:\d{2}:\d{2} .*", “”,
line.strip())
txtlist.append(lines)
加载HIT中文停用词文件
f = open(“chinese_stop_words.txt”, encoding=“utf-8”)
stop_words = str(f.readlines()).strip()
中文分词,数据深度清洗
txtlist = jieba.lcut(str(txtlist))
string = str(txtlist).split(" ")
string = " ".join([word for word in txtlist
if word not in stop_words]) # 过滤中文停用词
向词云对象中传入数据
w.generate(string)
导出词云图片
w.to_file(“output.png”)
安徽科技学院 信网学院网络文化节 王鑫相关推荐
- 安徽科技学院 信网学院网络文化节 孙晓楠
package CompetitionSXN; import java.util.Scanner; import java.util.regex.Pattern; public class BaseT ...
- 安徽科技学院 信网学院网络文化节 刁广
文件1----javabean package com.game.card; public class card { private String[] card = new String[5000]; ...
- 安徽科技学院 信网学院网络文化节 张乐
#include <stdio.h> #include <windows.h> //获取标准输出.入句柄 HANDLE hOut = NULL; HANDLE hIn = NU ...
- 安徽科技学院 信网学院网络文化节 房辉
import xlrd import xlwt import matplotlib.pyplot as plt import numpy as np 正常显示中文 plt.rcParams['font ...
- 安徽科技学院 信网学院网络文化节 朱翔
import time import random while 1: print("@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@") print("O( ...
- 安徽科技学院 信网学院网络文化节 李彤彤
#include<stdio.h> #include<stdlib.h> #include<string.h> #define MAX 100 ///全局变量 st ...
- 安徽科技学院 信网学院网络文化节 赵涛
package wwww; //包名不同记得在这里改包名 /** @Describe:此程序可以自己写一个名单,一个名字一行,特别功能:如果在名字末尾加@, 如 张三@ 则随机点名的时候会默认把张三排 ...
- 安徽科技学院 信网学院网络文化节 胡鑫
import sys sys.setrecursionlimit(1000000000) import tkinter import tkinter.messagebox from tkinter i ...
- 安徽科技学院 信网学院网络文化节 刘洪江
import sys import time books = [{'name': '红楼梦', 'author': ' 曹雪芹', 'price': '19.9'}, {'name': '西游记', ...
最新文章
- 取存储过程output的取
- HTML5 script元素async,defer异步加载
- C语言 —— 把字符指针中的字符串,存入字符数组中
- boost::notify_all_at_thread_exit相关的测试程序
- 安全方向比路由交换难吗_「网工进阶」路由交换:链路聚合的配置,你都会吗...
- php的c方法,thinkphp的c方法的使用
- 怎么查电脑系统版本_重装系统PE内找不到硬盘怎么办?只需要这些设置即可…...
- 剑指offer面试题36. 二叉搜索树与双向链表(中序遍历)(递归)
- 用VFP实现一个网盘软件,上传,下载,删除一个不少
- 【大地信】新时代GIS发展趋势与未来展望
- 企业级飞速低代码开发平台 | 产品介绍 | APass平台 | 全场景适用
- 网页连接服务器数据库,网站程序中常见的数据库连接方法
- 苏宁小店上线社区拼购,物流供应链是其有力竞争武器
- 轮回 第二章 冷傲天
- 数字PCR简介(一)
- 红蓝攻防演练过程中零失陷经验分享
- 交换机和路由器技术-15-链路聚合
- 快速云:了解混合云连接最佳做法
- 如何通过技术手段批量删除公众号文章?
- C# 矩阵和向量的相关计算(一)
热门文章
- 新西兰证券交易所遭受一系列 DDoS 攻击
- c primer plus第六版 第七章
- 技术男眼中的“TD式创新”:陈年旧账应该这么算
- Unity实用小工具或脚本——智能包住任意多个物体的碰撞体
- 数字化工厂正在塑造制造业未来
- 计算机更新系统d盘东西还在吗,电脑换系统后东西还在不在
- Codeforces Round #143 (Div. 2) (ABCD 思维场)
- python怎么绘制图例_使用正确的标签python绘制图例
- 测试计划与手动和自动化项目有何不同?
- unity游戏中提示信息如何实现_RPG游戏中的剧情在Unity3D中如何实现呢?