微信聊天记录生成词云图

基本材料准备

电脑微信客户端、手机微信客户端、电脑mumu安卓模拟器（安装微信和RE文件管理器）、sqlcipher.exe、idea

获取微信聊天记录

电脑微信客户端备份聊天记录

微信左下角点击备份与恢复按钮出现如下弹窗

然后点击左侧备份聊天记录至电脑，需在手机确认（可以选择部分聊天记录也可以全部记录），注意手机要与电脑在同一网络中

备份完成后，点击管理备份文件出现如下弹窗

记住备份文件存储位置，以及备份的文件

2、恢复电脑备份记录到mumu安卓模拟器中微信中

先设置mumu模拟器，点击模拟器左上角进入设置中心，在基本设置中开启Root权限，在属性设置中随机一个IMEI编码，记录这个编码，后续会用到，然后点击保存并关闭。

然后登录模拟器的微信

电脑微信选择恢复聊天记录至手机，则会恢复刚才备份的记录到模拟器的微信中

3、在mumu模拟器中找到备份的聊天记录库

打开RE文件管理器找到以下路径/data/data/com.tencent.mm/MicroMsg/，在这个路径下打开对应的账号的文件夹，在文件夹中找到EnMicroMsg.db。

然后鼠标左键长点击这个文件会出现复制按钮，点击复制，复制这个db文件到 mumu模拟器与电脑的共享文件夹中（一般都是sdcard下，放在电脑的什么位置由安装模拟器时自己设置，也可以通过模拟器最下一排功能中文件共享按钮设置）

这样就获取了聊天记录的数据库

解密微信聊天数据库

获取加密库密码

在木木模拟器中打开/data/data/com.tencent.m/shared_prefs中auth_info_key_prefs.xml文件

打开这个文件可以看到

这个_auth_uin标签中对应的值，这个值需要记录下来，作为密码的一部分，通过 1234567890ABCDEF拼接上这个值，进行MD5加密获取小写32位字符后截取前 7位作为数据库密码。

2、解密数据库

点击选择数据库后会弹出要输入密码的输入框输入上边得到的密码

然后选则Browse Data，再打开message表，这张表里的数据就是聊天记录的数据，这里的数据可以通过工具导出，导出后就随便怎么使用了。

统计聊天记录

引入jar包

</dependency>

统计词频代码

import org.ansj.splitWord.analysis.NlpAnalysis;

import java.io.*;

import java.util.*;

public class statistical {

public static void main(String[] args) throws IOException {

wordFrequency();

}

public static void wordFrequency() throws IOException {

Map<String, Integer> map = new HashMap<>();

String article = getString();

String result = NlpAnalysis.parse(article).toStringWithOutNature();

String[] words = result.split(",");

for(String word: words){

String str = word.trim();

// 过滤空白字符

if (str.equals(""))

continue;

// 过滤一些高频率的符号

else if(str.matches("[）|（|.|，|。|+|-|“|”|：|？|\\s]"))

continue;

// 此处过滤长度为1的str

else if (str.length() < 2)

continue;

if (!map.containsKey(word)){

map.put(word, 1);

} else {

int n = map.get(word);

map.put(word, ++n);

}

Iterator<Map.Entry<String, Integer>> iterator = map.entrySet().iterator();

while (iterator.hasNext()){

Map.Entry<String, Integer> entry = iterator.next();

System.out.println(entry.getKey() + ": " + entry.getValue());

}

List<Map.Entry<String, Integer>> list = new ArrayList<>();

Map.Entry<String, Integer> entry;

while ((entry = getMax(map)) != null){

list.add(entry);

}

System.out.println(Arrays.toString(list.toArray()));

}

/**

* 找出map中value最大的entry, 返回此entry, 并在map删除此entry

* @param map

* @return

public static Map.Entry<String, Integer> getMax(Map<String, Integer> map){

if (map.size() == 0){

return null;

}

Map.Entry<String, Integer> maxEntry = null;

boolean flag = false;

Iterator<Map.Entry<String, Integer>> iterator = map.entrySet().iterator();

while (iterator.hasNext()){

Map.Entry<String, Integer> entry = iterator.next();

if (!flag){

maxEntry = entry;

flag = true;

}

if (entry.getValue() > maxEntry.getValue()){

maxEntry = entry;

}

map.remove(maxEntry.getKey());

return maxEntry;

}

/**

* 从文件中读取待分割的文章素材.

* 文件内容来自简书热门文章: https://www.jianshu.com/p/5b37403f6ba6

* @return

* @throws IOException

public static String getString() throws IOException {

FileInputStream inputStream = new FileInputStream(new File("E://ciyuntu/android/db/2.txt"));

BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));

StringBuilder strBuilder = new StringBuilder();

String line;

while((line = reader.readLine()) != null){

String s = "";

int n = 0;

for(int i = 0; i < line.length(); i++) {

n = (int)line.charAt(i);

if(19968 <= n && n <40869) {

s+=line.charAt(i);

}

strBuilder.append(s);

}

reader.close();

inputStream.close();

return strBuilder.toString();

}

生成词云图

引入jar包

<groupId>com.kennycason</groupId>

</dependency>

<groupId>com.kennycason</groupId>

<artifactId>kumo-tokenizers</artifactId>

</dependency>

生成词云图代码

package com.java.code.citu;

import com.kennycason.kumo.CollisionMode;

import com.kennycason.kumo.WordCloud;

import com.kennycason.kumo.WordFrequency;

import com.kennycason.kumo.bg.CircleBackground;

import com.kennycason.kumo.bg.PixelBoundryBackground;

import com.kennycason.kumo.font.KumoFont;

import com.kennycason.kumo.font.scale.SqrtFontScalar;

import com.kennycason.kumo.nlp.FrequencyAnalyzer;

import com.kennycason.kumo.nlp.tokenizers.ChineseWordTokenizer;

import com.kennycason.kumo.palette.LinearGradientColorPalette;

import java.awt.*;

import java.io.IOException;

import java.util.*;

import java.util.List;

public class citu {

public static void main(String[] args) throws IOException {

createWordCountPic();

}

private static void createWordCountPic() throws IOException {

FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();

frequencyAnalyzer.setWordFrequenciesToReturn(600);

frequencyAnalyzer.setMinWordLength(2);

frequencyAnalyzer.setWordTokenizer(new ChineseWordTokenizer());

// 可以直接从文件中读取

//List<WordFrequency> wordFrequencies = frequencyAnalyzer.load(getInputStream("E://ciyuntu/android/db/1.txt"));

List<WordFrequency> wordFrequencies = new ArrayList<>();

String strValue = "嗯嗯=3060, 破涕为笑=2417, 今天=1831";

String[] split = strValue.split(", ");

String word = "";

int count = 0;

for (int i = 0; i < split.length; i++) {

String[] wordInfo = split[i].split("=");

word = wordInfo[0];

count = Integer.valueOf(wordInfo[1]);

wordFrequencies.add(new WordFrequency(word, count));

}

//加入分词并随机生成权重，每次生成得图片都不一样

//test.stream().forEach(e-> wordFrequencies.add(new WordFrequency(e,new Random().nextInt(test.size()))));

//此处不设置会出现中文乱码

java.awt.Font font = new java.awt.Font("STSong-Light", 2, 18);

//设置图片分辨率

Dimension dimension = new Dimension(1360, 1020);

//此处的设置采用内置常量即可，生成词云对象

WordCloud wordCloud = new WordCloud(dimension, CollisionMode.PIXEL_PERFECT);

//设置背景图片

wordCloud.setBackground(new PixelBoundryBackground("E://1.png"));

//设置边界及字体

wordCloud.setPadding(5);

//因为我这边是生成一个圆形,这边设置圆的半径

//wordCloud.setBackground(new CircleBackground(255));

wordCloud.setFontScalar(new SqrtFontScalar(12, 42));

//设置词云显示的三种颜色，越靠前设置表示词频越高的词语的颜色

wordCloud.setColorPalette(new LinearGradientColorPalette(Color.RED, Color.BLUE, Color.GREEN, 30, 30));

wordCloud.setKumoFont(new KumoFont(font));

wordCloud.setBackgroundColor(new Color(255, 255, 255));

wordCloud.build(wordFrequencies);

//生成词云图路径

wordCloud.writeToFile("E:\\wordCount.png");

}

资源：

木木模拟器下载地址：MuMu模拟器官网_安卓模拟器_网易MuMu手游模拟器

下载地址：sqlcipher.exe，简易的数据库客户端-Android文档类资源-CSDN下载

微信聊天记录生成词云图相关推荐

微信聊天记录的词云制作
微信聊天记录的词云制作需求导出微信聊天记录提取文字聊天记录生成词云需求想把跟朋友的微信聊天记录做个词云导出微信聊天记录我的手机是iphone,用旧版的itunes备份手机全部信息 it ...
微信聊天记录制作词云图
1 使用iTunes 备份iphone: 2在C:\Users\xxxx\AppData\Roaming\Apple Computer\MobileSync\Backup路径中找到备份文件夹 3打开备 ...
python爬音乐评论生成词云图_python爬虫+词云图，爬取网易云音乐评论
又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题爬取网易云音乐的评论一开始是按照常规思路,分析网页ajax的传参情况.看到 ...
基于DataFrame结构的词频表生成词云图
说明:基于DataFrame结构的词频表生成词云图代码 from wordcloud import WordCloud import matplotlib.pyplot as pltfrequenc ...
python爬虫学习：爬虫QQ说说并生成词云图，回忆满满
自学过一段时间的python,用django自己做了个网站,也用requests+BeautifulSoup爬虫过些简单的网站,周末研究学习了一波,准备爬取QQ空间的说说,并把内容存在txt中,读取 ...
NLP之WordCloud：基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图，看看那时我们的爱情)
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情) 目录输出词云图结果输出文本统计设计思路实 ...
Python实现Wordcloud生成词云图的示例
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前 ...
python爬取网页版QQ空间，生成词云图、柱状图、折线图（附源码）
python爬取网页版QQ空间,生成词云图.柱状图.折线图最近python课程学完了,琢磨着用python点什么东西,经过一番搜索,盯上了QQ空间,拿走不谢,欢迎点赞收藏,记得github给个sta ...
python生成词云图个人技术报告_【Python成长之路】词云图制作
[写在前面] 以前看到过一些大神制作的词云图 ,觉得效果很有意思.如果有朋友不了解词云图的效果,可以看下面的几张图(图片都是网上找到的): 网上找了找相关的软件,有些软件制作还要付费.结果前几天在大 ...
python 引入同一路径的类_Python实现Wordcloud生成词云图的示例
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前 ...

微信聊天记录生成词云图

微信聊天记录生成词云图

微信聊天记录生成词云图相关推荐

最新文章

热门文章