作者简介Introduction

傅兴:个人公众号:Rapp

往期回顾

【R图秀-1】12306列车数据可视化

为了进一步提高自己数据获取的能力,我把目光放到了互联网上一个重要的数据来源:社交网络(Social Network),比如国外的facebook和twitter,以及国内的微博和微信。由于访问facebook和twitter比较困难,我最终选择新浪微博作为分析的对象。

我首先学习的是新浪微博的API,看看有没有更简单的方法获取数据。遗憾的是,如果想通过API获取目标用户的微博,必须首先获得对方的授权。我获取微博数据只是出于学习的目的,并不是要开发基于微博的应用,所以此路不通,果断放弃。我觉得最靠谱的还是用RSelenium写个程序来操作浏览器,自动帮我刷微博。

数据获取的技术问题解决了,下面就需要考虑抓取哪些人的微博。演艺明星是微博上大家比较关注的对象,就先从他们入手吧!我平时很少关注娱乐圈,认识的明星也不多,但是挺喜欢和家人一起看《奔跑吧兄弟》(跑男),所以今天就来分析一下跑男中的明星(邓超,李晨和Angelababy)以及他们的另一半(孙俪,范冰冰和黄晓明)的微博数据。

爬虫代码的主要部分是2个函数:登录函数(weibo_login)和抓取函数(fetch_post)

需要注意的是,目前的抓取函数还不支持人名搜索,所以在抓取某人的微博之前,首先要手动看一下他微博URL上的用户名是什么(用户名的具体位置在weibo.com和?中间),然后用该用户名作为参数调用抓取函数,比如下面的代码:

在展示微博数据之前,我们必须先想清楚自己想看什么?想回答什么样的问题,比如:

1. 我很想知道明星微博的高频词汇有哪些?夫妻之间会不会有“共同语言”?
2. 我还想了解明星的朋友圈有哪些人,夫妻之间的朋友有多大的交集?

我们可以用词云(word cloud)来展示各个明星的微博中最常出现的词汇(这里只考虑名词,其他词性的词汇都已过滤掉):

我们可以看到,“电影”是他们微博中出现最频繁的词汇,说明他们利用微博在向粉丝们宣传自己的电影,其次就是和家人朋友相关的词汇。由于时间有限,我没有继续深挖下去。

生成词云的代码如下:

接下来要回答的是第二个问题,如何从明星们的微博中挖掘出他们的社交网络?我首先想到的是微博中@某人的功能,@后面的微博账号和明星之间应该存在某种关联,如果@某人的次数很多,说明两者之间的关系密切(好友或家人)。接下来我们就来看看明星夫妻之间的“朋友圈”是怎样的。

1. 黄晓明和Angelababy:

2. 李晨和范冰冰:

3. 邓超和孙俪(邓超绝对是模范丈夫,@老婆的次数这么多!)

统计@次数的代码如下,为了能看清网络中的节点,我过滤掉了一些低频的@:

下面是网络可视化的代码:

如果你也是某位明星的粉丝,就用R来分析一下他们的微博吧!今天的【社交网络数据可视化】就到这里,欢迎继续关注!

 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

【R图秀-2】社交网络数据可视化(一)相关推荐

  1. 【R图秀-3】——“全球和平指数”可视化

    作者简介Introduction 傅兴:个人公众号:Rapp 往期回顾 [R图秀-1]12306列车数据可视化 [R图秀-2]社交网络数据可视化(一) 今天在Tableau Public的网站上看到一 ...

  2. R使用tsne进行高维数据可视化实战:二维可视化、三维可视化

    R使用tsne进行高维数据可视化实战:二维可视化.三维可视化 t-SNE是一种非常强大的技术,可以用于多维数据中的可视化分析(寻找模式).它对复杂多维数据的可视化能力是显而易见的,它以无监督的方式对数 ...

  3. R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修

    中国通信工业协会通信和信息技术创新人才培养工程项目办公室 通人办[2017] 第45号 "R语言机器学习与大数据可视化"暨"Python文本挖掘与自然语言处理" ...

  4. “R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知

    中国通信工业协会通信和信息技术创新人才培养工程项目办公室 通人办[2017] 第45号 "R语言机器学习与大数据可视化"暨"Python文本挖掘与自然语言处理" ...

  5. 原创 | R的基础及进阶数据可视化功能包介绍

    R 作为入门级编程语言,被经常运用在数据整理.数据可视化.以及机器学习中. 本篇文章将主要介绍在R中如何可视化数据 (基础+进阶). R绘图的原理 使用R绘图,我们需要在脑海中明确几个必要元素.首先, ...

  6. 【R语言】实验三 数据可视化

    系列文章目录 实验一 R 语言数据结构.数据导入与数据处理 实验二 基本数据处理 实验三 数据可视化 实验四 数据分析 实验五 综合应用 实验数据 实验数据下载 1. death rate 数据集 选 ...

  7. plt数据图去边框 python3_Python数据可视化:绘制持仓榜单的“棒棒糖图”

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 荔枝 | 作者 Crossin的编程教室 | 来源 1. 需求 做股票分析 ...

  8. R语言的ggplot2做数据可视化的一些推文合集(文末有福利)

    小明的数据分析笔记本 1.记录一些R语言和python做数据分析和数据可视化的简单小例子:2.园艺植物相关的细胞器基因组.转录组.核基因组.群体遗传学相关的文献阅读笔记.欢迎大家关注. 长按上方二维码 ...

  9. python画折线图详解-Python数据可视化(一) 绘制折线图和散点图

    数据可视化示例 对数据可视化的浅认知 数据可视化是任何数据科学或机器学习的重要组成部分.可视化能将数据以更加直观的方式展现出来,使数据更加客观.更具说服力.同时,也易于发现隐藏在数据中的规律和意义.尤 ...

  10. R语言实例:diamonds 数据可视化分析报告

    文章目录 数据描述 导入数据 变量含义 数据清洗 检查缺失值及重复值 探索性分析 钻石的形状 钻石的重量分布 每种切割类型.颜色.清晰度的钻石分别有多少个 钻石的价格 最昂贵的10只钻石的属性信息 理 ...

最新文章

  1. 55:Mysql用户管理|常用sql语句|mysql数据库备份恢复
  2. PHP密码复杂性验证,JS检查密码强度 检查密码复杂度
  3. 成功解决无法连接到YLMF-201404228CG,在建立与服务器的连接时出错。在连接到 SQL Server 2005 时,在默认的设置下 SQL Server 不允许进行远程连接可能会导致此失败
  4. 标题栏上显示页面上的鼠标坐标
  5. MyBatis 传递多个参数
  6. netstat查看linux运行的端口,查看哪些端口被打开 netstat -anp
  7. leetcode38. 外观数列
  8. 亿级规模的 Feed 流系统,如何轻松设计?
  9. LeetCode: Maximum Subarray 解题报告
  10. Linux 基金会成立持续交付基金会
  11. 为什么我只贴代码不给你们源码?
  12. UG NX 12 同步建模:删除面
  13. 异星工场服务器直连,Factorio 异星工厂 搭建服务器
  14. “豫”见超融合,私有云浪潮开启新一线
  15. CIO如何在企业并购中生存
  16. 搞一下整车以太网技术 | 04 CBS基于信用整形
  17. 《 降伏其心(一)》
  18. 风影ASP.NET基础教学 12 GridView详解
  19. Hive之bucket表使用场景
  20. [WTL/ATL]_[中级]_[自定义TrackBar]

热门文章

  1. SpringBoot + Mybatis 多模块( module )项目搭建教程
  2. 高T技术大牛的百度十年:白天求生存,晚上求发展
  3. 普通人在互联网还有机会么?
  4. 不想开滴滴、送外卖的产品经理,听我一声劝……
  5. python编写的购物网站_写一个购物商城的实例教程
  6. Centos7 Zabbix3.2安装(yum)
  7. 2、HTML 元素属性
  8. 关于js对象添加属性
  9. 获取winform应用程序集信息
  10. Spring IoC-02