数据分析学习总结笔记10:网络分析

  • 1 网络分析概述
    • 1.1 三大社会科学理论
    • 1.2 网络分析内容
  • 2 网络的基本概念与特征量
    • 2.1 网络的发展
    • 2.2 网络的表达形式
    • 2.3 网络基本概念与特征量
      • 2.3.1 网络整体指标
      • 2.3.2 网络节点指标
  • 3 社会网络分析
    • 3.1 社会网络分析法概述
    • 3.2 微博传播简介
    • 3.3 社会网络分析工具——Cytoscape简介
    • 3.4 社会网络分析的应用
  • 4 社交网络
    • 4.1 社交网络传播
    • 4.2 社交网络营销
      • 4.2.1 社交网络营销概述
      • 4.2.2 个性化推荐系统
    • 4.3 网络传播结构
      • 4.3.1 网络传播结构的构建
      • 4.3.2 网络传播结构的度量

1 网络分析概述

1.1 三大社会科学理论

  1. 突变理论(Catastrophe Theory)
    为人们理解微小作用导致社会突然变化的机理开拓了道路。
  2. 混沌理论(Chaos Theory)
    复杂而不断变化的系统,即使其初始状态是详尽了解的,也会迅速进入无法精确预知的状态。
  3. 复杂性理论(Complexity Theory)
    在大量元体(agent)各自按照不多的几条简单规则相互作用时,如何从中产生出秩序与稳定。

1.2 网络分析内容

网络无处不在,Internet、电力网络、交通网络等1。网络分析主要包括以下内容:

  1. 网络科学
  2. 社会网络
  3. 网络信息传播
  4. 网络分析技术与工具

2 网络的基本概念与特征量

2.1 网络的发展

1. 社会计量图

2. 社会网络分析

2.2 网络的表达形式


1. 图

2. 邻接矩阵或邻接表

2.3 网络基本概念与特征量

2.3.1 网络整体指标

1. 网络连通性

2. 网络密度

  • 网络密度指网络中实际存在的边数与最大可能的边数之比。

3. 网络直径、平均路径长度

  • 网络直径:网络中任意两个节点之间距离的最大值。
  • 平均路径长度:任意两个节点之间距离的平均值。

小世界现象:尽管许多实际复杂网络的节点数巨大,但是网络的平均路径却小得惊人。

2.3.2 网络节点指标

1. 度、度分布

2. 聚集系数

三种网络类型:

3. 度中心性

4. 介数中心性

5. 接近中心性

6. HITS算法、PageRank

3 社会网络分析

3.1 社会网络分析法概述

**社会网络分析法(Social Network Analysis, SNA)**是对社会关系结构及其属性加以分析的一套规范和方法。
主要分析的是不同社会单位(个体、群体或社会)所构成的关系的结构及其属性。

  • :社会行动者,可以是任何一个社会单位或社会实体。
  • 关系:行动者之间的联系,常常代表关系的具体内容或者实质性的现实发生的关系。
    • 强关系:带来社会网络的信任
    • 弱关系:带来网络信息的传递

社会网络分析(Social Network Analysis)是最近非常流行的一种社会科学研究方法,当然,这种分析思想不仅仅是社会科学领域,其实很多自然科学领域也在研究网络。
常规统计分析处理的都是属性数据,社会网络分析处理的则是关系数据,其分析单位是“关系”,是从“关系”角度出发研究社会现象和社会结构,从而扑捉由社会结构形成的态度和行为2

通过案例深入理解社会关系网络。

社会网络的类型

3.2 微博传播简介

  • 微博反映社会现象,是一种社会网络,要考察社会结构应该从关系的视角去思考。
  • 微博是一种传播现象,一种新媒体,需要考察传播机理和互动机制。
  • 社交媒体更具有媒介和传播属性。
  • 基于社会网络分析方法使我们能有效描述微博信息传播过程、相互作用和影响,洞察传播模式的动态演化。

3.3 社会网络分析工具——Cytoscape简介

3.4 社会网络分析的应用

1. 社区发现
网络社区结构是指将网络中的节点划分为一组集合,集合内的节点连接较为紧密,集合之间的节点连接较为稀疏。
表示如下图,子图内个体之间关系紧密,子图间个体关系稀疏。

常用算法:

  • 图分割:谱二分、K-L算法、最大流等;
  • 聚类算法:层次聚类、谱聚类和局部聚类。

2. 权力、声望和社会资本的直观表示
通过在网络中定义节点的度数、介数(betweeness)和接近度(closeness)等概念,可以揭示个人在社会中拥有权力和声望的情况。

  • 节点度数:个人有关系的人数;
  • 介数:个人在网络中是否占据中间地位,隐含着沟通不同群体的能力;
  • 接近度:个人与其他所有人的平均距离。

3. 追踪流行病的扩散/病毒式营销

4 社交网络

4.1 社交网络传播

1. 无标度网络——幂律分布(power-law)

  • 传播中的节点是不平等的
  • 存在少数重要的节点
  • 这些点起着重要作用

幂律分布的典例:演员合作网络、地震强度、机场航班、战争规模、语言单词频率、姓氏分布、微博粉丝数、个人收入、GDP大小……

2. 社会关系图——幂律分布:

  • 增长性
  • 优先情节

3. 社交网络的传播结构——幂律分布

  • 聚集群体
  • 等级差异
  • 细分群体
  • 自组织性
  • 鲁棒性(健壮性)
  • 脆弱性

4. 结构主义思想

4.2 社交网络营销

4.2.1 社交网络营销概述

社交网络营销:经由社会网络,在明确的目标群体规模和结构的基础上,通过关键成员(KOL)传递信息,以影响舆论和购买决策的形成

  • 社会化媒体是一种重要的营销工具,它是企业发布信息和影响消费者,并收集反馈信息与之互动的重要渠道。
  • 如何从海量的关系数据中发现有价值的信息、建立精准营销的目标客户、分析客户价值模型是很多企业关注的问题。

4.2.2 个性化推荐系统

推荐系统与算法:消费者更喜欢来自朋友而非系统的推荐,如何利用微博社会网络,从目标用户的朋友中挖掘可推荐的对象,或引导目标用户向其朋友推荐。
局部推荐算法:将信任评价机制和社会推荐有机结合。
个性化自适应算法:针对不同消费者行为模式,可采用不同的算法,且可随用户行为模式的变换自适应地改变并优化,实现更有效的个性化推荐。

  • 需要考虑到稳健性、精确性、多样性、新颖性的平衡。

4.3 网络传播结构

4.3.1 网络传播结构的构建

1. 来自平台
媒介平台本身记录了信息的扩散路径,因此可以通过平台提供的接口直接获取传播结构。如微博、论坛、贴吧等。

2. 来自标注
虽然平台没有直接记录,但是可以通过用户传播时的一些标注间接的找出传播结构。如微博里的//@, via XXX, 来自XXX等。

3. 来自文本
在前两种都无法获取的情况下,通过计算文本相似性,再结合时间上的先后顺序,可以近似推出传播的结构。
(1)TF-IDF算法提取关键词;
(2)计算余弦距离;
(3)设定阈值判断(如,80%)。

4.3.2 网络传播结构的度量

1. 网络传播结构的空间度量

(1) 网络传播结构的类型

(2)结构性扩散度

(3)微博传播结构类型

  • 广播式传播
  • 病毒式传播
  • 阵列式传播
  • 明星效应
  • ……

2. 传播结构的时间度量

不同话题的传播趋势特征:

相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

本文主要根据个人学习(媒体大数据挖掘与案例实战MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!


  1. 媒体大数据挖掘与案例实战MOOC ↩︎

  2. 社会网络分析(Social Network Analysis) ↩︎

数据分析学习总结笔记10:网络分析相关推荐

  1. 数据分析学习总结笔记15:时间序列分析及Python实现

    文章目录 1 引言 2 时间序列的特性 2.1 自相关 2.2 季节性 2.3 平稳性 3 时间序列建模 3.1 移动平均法 3.2 指数平滑法 3.3 双指数平滑法 3.4 三重指数平滑法 3.5 ...

  2. 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析

    文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...

  3. 数据分析学习总结笔记17:文本分析入门案例实战

    文章目录 1 数据准备 2 分词 3 统计词频 4 词云 5 提取特征 6 用sklearn进行训练 1 数据准备 数据样例如下, 数据总量为7.7万+: 本节通过一个实战的例子来展示文本分析的最简单 ...

  4. 数据分析学习总结笔记05:缺失值分析及处理

    数据分析学习总结笔记05:缺失值分析及处理 1 缺失值概念 2 缺失值分析的类别 2.1 按数据缺失形式划分 2.2 按缺失机制与方式划分 3 缺失值的处理方法 3.1 删除缺失值 3.2 缺失值替代 ...

  5. 数据分析学习总结笔记03:数据降维经典方法

    数据分析学习总结笔记03:数据降维经典方法 1. 数据降维概述 2. 数据降维的应用 3. 数据降维经典方法 3.1 主成分分析(PCA) 3.1.1 PCA概述 3.1.2 PCA原理 3.1.3 ...

  6. c语言更新数据,sqlite学习笔记10:C语言中使用sqlite之查询和更新数据

    前面说到的 sqlite_exec() 中的第三个参数, SQLite 将为 sql 参数内执行的每个 SELECT 语句中处理的每个记录调用这个回调函数. 本节添加了两个函数,selectFromT ...

  7. 数据分析学习笔记(二)数据分析三思维七技巧

    数据分析学习笔记(二) What 三种核心思维 结构化 公式化 业务化 Why 数据分析的思维技巧 象限法 多维法 假设法 指数法 二八法 对比法 漏斗法 总结 How 如何在业余时间锻炼分析能力 好 ...

  8. 大数据分析学习笔记(Z检验,分类器以及Association Rule)

    大数据分析学习笔记(Z检验,分类器以及Association Rule) Task 1 – Hypothesis Testing To improve student learning perform ...

  9. 数据分析学习笔记——数据可视化

    数据分析学习笔记系列--数据可视化 总第45篇 ▼ 写在前面: 本篇来源于书籍<数据之美-一本书学会可视化设计>的学习后整理所得.全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步 ...

最新文章

  1. opencv(2)- 处理像素值
  2. VisualVM——JDK自带的性能分析工具
  3. MasterPage事件使用
  4. 【VAB】获取库文件地址
  5. [hackinglab][CTF][解密关][2020] hackinglab 解密关 writeup
  6. golang switch_为什么程序员都不喜欢使用 switch ,而是大量的 if……else if ?
  7. Hibernate学习笔记--导航
  8. webview android 加载网页,关于webview:如何在android中离线加载网页
  9. 06-Docker数据管理实践
  10. 2021-07-10树莓派PWM控制三极管(S8050)实现风扇调速
  11. Drozer的安装与使用 | Android逆向工具
  12. mysql中一个字符等于几个字节_细说一个汉字等于几个字符,以及汉字,字符,字节,位之间的关系...
  13. 中国科学院大学2015年数学分析高等代数考研试题
  14. kubernetes pod NodeLost 分析
  15. Python采集《惊奇先生》, 下载你想看的高质量漫画
  16. 0704最简单的驱动hello
  17. Flowable源码注释(三十二)任务超时作业
  18. 【操作系统概念-作业9】Virtual Memory
  19. Linux 8723be无线网卡,解决rtl8723be无线网卡驱动频繁断网问题
  20. linux任务调度框架,任务调度框架Hangfire 简介

热门文章

  1. 微信里检索其他应用平台信息的方法
  2. 请问在日本当一名程序员能挣多少钱啊
  3. 关于Rstudio最新版本中Biobase和GEOquery安装的问题
  4. [渝粤教育] 盐城工学院 电路 参考 资料
  5. 【代价函数】MSE:均方误差(L2 loss)
  6. Cannot find table rule and default data source with logic tables: '[]'
  7. [站点推荐]001.学习新技能的37个最佳网站(The 37 Best Websites To Learn Something New)
  8. 基于华为设备的某大型企业网络规划与实施方案
  9. Zipkin安装(Docker)
  10. Web前端-4-html-图片标签