确定数据源

自我认知,很难,必须它证。

物以类聚,人以群分。每个人的社交圈,家庭圈,朋友圈的属性,基本我们人格的特征属性。我们所处的阶级,在别人眼中的印象,在我们的朋友圈中都会得到印证。

朋友圈数据中最具人格属性的因素是个性签名,那么下面我们就把所有好友的个性签名作为我们的研究对象,以此出发爬取数据。

使用Python的itchat 包对好友的个性签名数据进行分析

这里我们用到Python一个比较冷门的库——itchat,它很好的兼容了wechat个人账号的API接口,让我们能更加便捷的爬取wechat数据,itchat的功能很强大,这里我们仅用它爬取wechat中我们每个好友的个性签名。

之后,我们要分析出自定义词云图中个性签名使用的高频词语是什么。

最后,生成可视化词云图,直观的给出洞察结果。

源代码如下:

# coding:utf-8

import itchat

import re

itchat.login()

friends = itchat.get_friends(update=True)[0:]

tList = []

for i in friends:

signature = i["Signature"].replace(" ", "").replace("span", "").replace("class", "").replace("emoji", "")

rep = re.compile("1f\d.+")

signature = rep.sub("", signature)

tList.append(signature)

# 拼接字符串

text = "".join(tList)

# jieba分词

import jieba

wordlist_jieba = jieba.cut(text, cut_all=True)

wl_space_split = " ".join(wordlist_jieba)

# wordcloud词云

import matplotlib.pyplot as plt

from wordcloud import WordCloud, ImageColorGenerator

import os import numpy as np

import PIL.Image as Image

d= os.path.dirname(os.path.abspath( __file__ ))

alice_coloring = np.array(Image.open(os.path.join(d, "wechat.jpg")))

my_wordcloud = WordCloud(background_color="white", max_words=2000,mask=alice_coloring,max_font_size=400, random_state=420,font_path='/Users/sebastian/Library/Fonts/Arial Unicode.ttf').generate(wl_space_split)

image_colors = ImageColorGenerator(alice_coloring)

plt.imshow(my_wordcloud.recolor(color_func=image_colors))

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

下面对于代码的解析,仅跟初学 Python的朋友提示三点:

1)代码第24行,其他网络版本的代码为d= os.path.dirname(__file__),最好换成jacky这个版本的:

d=os.path.dirname(os.path.abspath(__file__)),具体原因jacky就不做过多解释了;

2)代码第25行,一定要提前在环境路径下创建wechat.jpg的图片,这样云图才能顺利生成,并生成你希望的形状。

3)提前在终端安装jieba,matplotlib,wordcloud,numpy包

注意以上三点,想不运行成功都难。

运行上面的代码,得到下面的云图:

python爬去朋友圈_利用Python爬取朋友圈数据相关推荐

  1. python爬去百度文库_利用Python语言轻松爬取数据[精品文档]

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  2. python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

    人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...

  3. python爬虫去哪儿网_用python爬虫爬取去哪儿4500个热门景点,看看国庆不能去哪儿...

    引用 那么问题来了,去哪儿玩呢?百度输了个"国庆",出来的第一条居然是"去哪里旅游人少"--emmmmmmm,因缺思厅. 于是我萌生了通过旅游网站的景点销量来判 ...

  4. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

  5. python爬去百度图片_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  6. python画一颗心_利用python画一颗心的方法示例

    前言 Python一般使用Matplotlib制作统计图形,用它自己的说法是'让简单的事情简单,让复杂的事情变得可能'.用它可以制作折线图,直方图,条形图,散点图,饼图,谱图等等你能想到的和想不到的统 ...

  7. python连接linux堡垒机_利用Python Paramiko开发linux堡垒机

    1.Paramiko模块下的demo.py程序 前面利用Python中的Paramiko模块可以进行SSH的连接,以及用来传送文件(SFTP),但是无论是哪一种方式,连接都是短暂的,并非是长连的,即一 ...

  8. python画圣诞老人简笔画_利用Python绘制有趣的万圣节南瓜怪效果

    关于万圣节 万圣节又叫诸圣节,在每年的11月1日,是西方的传统节日;而万圣节前夜的10月31日是这个节日最热闹的时刻.在中文里,常常把万圣节前夜(Halloween)讹译为万圣节(All Saints ...

  9. python批量录入学生信息_利用Python实现学生信息管理系统的完整实例

    项目要求: 读完题目,首先我们要确定程序思路 我们要全部通过类去实现 也就是 我们要实现管理员.学生.讲师.课程.教师五个类 管理员类 class Administration(object): de ...

最新文章

  1. 「珍藏」老司机为你推荐10个炫酷的开源库,看完的人都收藏了
  2. java B2B2C Springboot电子商务平台源码-SSO单点登录之OAuth2.0登录认证
  3. html表格点击为编辑框,el-table表格内双击或单击单元格编辑输入框、日期等
  4. javascript 框架_每个JavaScript框架教程写的时间都超过5分钟
  5. windows Ctrl + Alt + 方向键 取消屏幕反转
  6. 【好文链接】什么是开环控制?什么是闭环控制?区别在哪里?
  7. MyBatis Invalid bound statement (not found)问题 -- 记一次与空气的斗智斗勇
  8. SQL Server 数据加密功能解析
  9. Delphi 正则表达式起步
  10. 马拦过河卒问题 (递推解法)
  11. 妹妹系列:哥哥,机器人示教器有错别字??聊聊国产示教器!!
  12. 论文公式编号右对齐_毕业论文的封面格式要求有哪些?
  13. discuz远征游戏通用网站模板
  14. OSPF虚链路配置及认证
  15. win10硬盘锁怎么解除_如何解锁BitLocker加密的Win10系统【图文教程】
  16. 今年很火的 AI 绘画怎么玩
  17. java信用卡卡号算法,java实现主要信息的加密解密(模拟信用卡号的保存)
  18. 爬虫,爬糗百热门段子
  19. 如何搭建符合企业数字化电商解决方案之理解建议
  20. Android怎么开启联想,联想Tab2A7-10F 开启USB调试模式

热门文章

  1. 表单日期点击输入时显示日历表
  2. win10系统笔记本电脑设置合盖睡眠/不休眠的方法
  3. word 当前页插入页眉、页脚、页码。要求奇偶页眉不同,而页码连续。
  4. 计算机云计算便携性,云计算将在未来带来颠覆性的巨变_笔记本新闻-中关村在线...
  5. 奋斗吧,程序员——第一章 结发未识事,所交尽豪雄
  6. 遥控器的键位功能的实现
  7. 7价 半导体掺杂_半导体掺杂总结
  8. 【7夕有礼】土味运维情话大赛邀你来战
  9. Redis(四)(主从复制-搭建环境测试,哨兵模式-测试,缓存穿透,缓存击穿,缓存雪崩)
  10. 华为p9连接计算机,华为手机怎么连接电脑数据传输照片(1分钟教会你步骤非常简单)...