基于Python的文本分词与词云生成——以QQ群聊天记录为例

导入词云制作库wordcloud、中文分词库jieba和re模块等

import wordcloud
import jieba
import re
import imageio

jupyter魔法指令

%reload_ext lab_black

imread函数读取本地图片,作为词云形状图片

mk = imageio.imread(“alice.png”)

构建词云对象w,设置词云图片宽、高、字体、背景颜色等参数

w = wordcloud.WordCloud(width=1000,
height=700,
background_color=“white”,
font_path=“msyh.ttc”,
scale=3,
mask=mk,
stopwords={“表情”, “图片”, “撤回”, “一条”, “消息”, “一个”},
contour_width=1,
contour_color=“steelblue”)

加载QQ群聊学习记录文件

f = open(“网工192的渣男渣女们②.txt”, encoding=“utf-8”)
txt_content = f.readlines()

数据初步清洗

txt_content = txt_content[8:] # 过滤群说明(分组,对象)
txtlist = []
for line in txt_content:
# 替换字符串空行,正则匹配日期、时间、用户名
lines = re.sub("\d{4}-\d{2}-\d{2} \d{1,2}:\d{2}:\d{2} .*", “”,
line.strip())
txtlist.append(lines)

加载HIT中文停用词文件

f = open(“chinese_stop_words.txt”, encoding=“utf-8”)
stop_words = str(f.readlines()).strip()

中文分词,数据深度清洗

txtlist = jieba.lcut(str(txtlist))
string = str(txtlist).split(" ")
string = " ".join([word for word in txtlist
if word not in stop_words]) # 过滤中文停用词

向词云对象中传入数据

w.generate(string)

导出词云图片

w.to_file(“output.png”)

安徽科技学院 信网学院网络文化节 王鑫相关推荐

  1. 安徽科技学院 信网学院网络文化节 孙晓楠

    package CompetitionSXN; import java.util.Scanner; import java.util.regex.Pattern; public class BaseT ...

  2. 安徽科技学院 信网学院网络文化节 刁广

    文件1----javabean package com.game.card; public class card { private String[] card = new String[5000]; ...

  3. 安徽科技学院 信网学院网络文化节 张乐

    #include <stdio.h> #include <windows.h> //获取标准输出.入句柄 HANDLE hOut = NULL; HANDLE hIn = NU ...

  4. 安徽科技学院 信网学院网络文化节 房辉

    import xlrd import xlwt import matplotlib.pyplot as plt import numpy as np 正常显示中文 plt.rcParams['font ...

  5. 安徽科技学院 信网学院网络文化节 朱翔

    import time import random while 1: print("@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@") print("O( ...

  6. 安徽科技学院 信网学院网络文化节 李彤彤

    #include<stdio.h> #include<stdlib.h> #include<string.h> #define MAX 100 ///全局变量 st ...

  7. 安徽科技学院 信网学院网络文化节 赵涛

    package wwww; //包名不同记得在这里改包名 /** @Describe:此程序可以自己写一个名单,一个名字一行,特别功能:如果在名字末尾加@, 如 张三@ 则随机点名的时候会默认把张三排 ...

  8. 安徽科技学院 信网学院网络文化节 胡鑫

    import sys sys.setrecursionlimit(1000000000) import tkinter import tkinter.messagebox from tkinter i ...

  9. 安徽科技学院 信网学院网络文化节 刘洪江

    import sys import time books = [{'name': '红楼梦', 'author': ' 曹雪芹', 'price': '19.9'}, {'name': '西游记', ...

最新文章

  1. 取存储过程output的取
  2. HTML5 script元素async,defer异步加载
  3. C语言 —— 把字符指针中的字符串,存入字符数组中
  4. boost::notify_all_at_thread_exit相关的测试程序
  5. 安全方向比路由交换难吗_「网工进阶」路由交换:链路聚合的配置,你都会吗...
  6. php的c方法,thinkphp的c方法的使用
  7. 怎么查电脑系统版本_重装系统PE内找不到硬盘怎么办?只需要这些设置即可…...
  8. 剑指offer面试题36. 二叉搜索树与双向链表(中序遍历)(递归)
  9. 用VFP实现一个网盘软件,上传,下载,删除一个不少
  10. 【大地信】新时代GIS发展趋势与未来展望
  11. 企业级飞速低代码开发平台 | 产品介绍 | APass平台 | 全场景适用
  12. 网页连接服务器数据库,网站程序中常见的数据库连接方法
  13. 苏宁小店上线社区拼购,物流供应链是其有力竞争武器
  14. 轮回 第二章 冷傲天
  15. 数字PCR简介(一)
  16. 红蓝攻防演练过程中零失陷经验分享
  17. 交换机和路由器技术-15-链路聚合
  18. 快速云:了解混合云连接最佳做法
  19. 如何通过技术手段批量删除公众号文章?
  20. C# 矩阵和向量的相关计算(一)

热门文章

  1. 新西兰证券交易所遭受一系列 DDoS 攻击
  2. c primer plus第六版 第七章
  3. 技术男眼中的“TD式创新”:陈年旧账应该这么算
  4. Unity实用小工具或脚本——智能包住任意多个物体的碰撞体
  5. 数字化工厂正在塑造制造业未来
  6. 计算机更新系统d盘东西还在吗,电脑换系统后东西还在不在
  7. Codeforces Round #143 (Div. 2) (ABCD 思维场)
  8. python怎么绘制图例_使用正确的标签python绘制图例
  9. 测试计划与手动和自动化项目有何不同?
  10. unity游戏中提示信息如何实现_RPG游戏中的剧情在Unity3D中如何实现呢?