微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings

《菜鸟侦探挑战数学分析》小案例,python实现第七弹

案件回顾

商业街口碑分析

1,顾客在网络上会发表对商品或商店的留言信息

2,对留言进行分析,可以对商业街进行口碑分析

3,在论坛中整理了300条留言,并进行分词处理,整理出了不同性别不同年龄段在留言中,使用单词的频数(问题:不同年龄或性别对商业街的印象是否一致?)

聚类分析

将数据存储为csv格式,导入python,查看前10行数据。import pandas as pd

reviewsdata = pd.read_csv('reviewsdata.csv',index_col=0)#index_col=0第一列所为行索引

reviewsdata.head(10)

从表格中,可以看到不同性别、不同年龄使用不同单词的频数。对数据进行聚类分析,并画出聚类树形图。import scipy

import scipy.cluster.hierarchy as sch

import matplotlib.pylab as plt

import pylab

#生成点与点之间的距离矩阵,这里用的欧氏距离:

disMat = sch.distance.pdist(reviewsdata.T,'euclidean')

#进行层次聚类:

Z=sch.linkage(disMat,method='average')

#将层级聚类结果以树状图表示出来并保存为plot_dendrogram.png

sch.dendrogram(Z,labels=reviewsdata.columns,leaf_font_size=7.5)

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.title("口碑的聚类")

pylab.show()

在聚类分析的过程中,是将不同性别年龄的人群使用词的频数生成向量,然后比较这些向量的距离,将距离较近的总结在一起。距离近意味着措辞相仿,聚类也就是不断合并两个最相近向量的过程。从图显示,40多岁男性和50多岁男性在使用单词方面很接近,但跟60多岁女性明显不同。整体上,能看出不同年龄段和不同性别之间存在意见差异。

几个小概念

聚类分析:一种根据数据相似度将数据分组对手法,分组前,不能确定每一类的特征。数据相似度通过距离来判断,求距离的方法有很多种,最简单的为欧式距离。本文使用的是层次聚类,文章聚类(一):DBSCAN算法实现(r语言)中介绍了DBSCAN聚类方法。

python系列数据分析小案例历史文章:

微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings

扫描二维码,关注我们。

如需转载,请在开篇显著位置注明作者和出处,并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧!

python电视剧口碑分析_小案例(七):口碑分析(python)相关推荐

  1. python招聘广州黄埔_小案例:用Pandas分析招聘网Python岗位信息

    小案例: Python岗位分析_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com 1. 读取数据 import pandas as pd import numpy ...

  2. python有趣小项目源码分析_推荐 10 个有趣的 Python 项目

    想成为一个优秀的开发者,没有捷径可走,势必要花费大量时间在键盘后. 而不断地进行各种小项目开发,可以为之后的大开发项目积攒经验,做好准备. 但不少人都在为开发什么项目而苦恼,因此,我为大家准备了10个 ...

  3. 小甲鱼python全部视频_小甲鱼全套教程之Python系列视频教程

    Python 当前位置:主页 > 编程教程 > Python > 小甲鱼全套教程之Python系列视频教程 小甲鱼全套教程之Python系列视频教程 教程大小:   发布时间:201 ...

  4. python虚拟cpu性能_基于Tensorflow:CPU性能分析

    iostat iostat用于输出CPU和磁盘I/O相关的统计信息. 命令格式: 1)显示所有设备负载情况 指令: iostat -m 2 5 cpu属性值说明: %user:CPU处在用户模式下的时 ...

  5. python计算银行余额_Python 小案例实战 —— 简易银行存取款查询系统

    Python 小案例实战 -- 简易银行存取款查询系统 涉及知识点 包的调用 字典.列表的混合运用 列表元素索引.追加 基本的循环与分支结构 源码 import sys import time ban ...

  6. Python Selenium之等待元素小案例(用于某网站自动打开领取QQ名片赞)--文末有附selenium知识点以及对应学习文档网址

    ''' Author: Liang LastEditors: Liang Date: 2020-10-08 11:41:09 LastEditTime: 2020-10-21 13:46:21 Ema ...

  7. python做灰色关联度分析_【数学建模】通过python实现灰色关联度计算

    1.关联分析 关联分析主要作用为对系统的因素进行分析,其主要作用为分辨因素中哪些因素对系统的影响是显著的,哪些影响是次要的.通常而言因素分析的主要方式为回归分析等,但其存在数据量要求大,计算量大等诸多 ...

  8. 小甲鱼python课后题答案_小甲鱼python视频教程下载|小甲鱼零基础学python视频教程附习题答案_ - 极光下载站...

    小甲鱼零基础学python视频教程下载,最完整的小甲鱼python语言学习视频来啦,想要学习python语言的小白们不妨点击观看视频在下学习吧! Python语言介绍 Python是一种面向对象的解释 ...

  9. 空间统计分析_(案例)空间分析6.4江西省地级市社会经济统计分析

    空间统计分析案例 案例4:江西省地级市社会经济统计分析 (数据与视频文件下载见文末) •研究目的: 了解地理学第一定律与空间邻接的含义,了解ArcGIS空间权重矩阵/空间关系的概念化的方法,掌握全局与 ...

最新文章

  1. C内存2:程序是如何运行的
  2. Android 布局文件Graphical Layout不显示预览
  3. Kibana linux下安装
  4. PowerDesigner 中的name与comment转换(转)
  5. 配置SQL Server的命名管道和TCP/IP设置
  6. hdu 1818 It's not a Bug, It's a Feature!(位运算+bfs优先队列)
  7. 转载 | 自动驾驶中的9种传感器融合算法
  8. UML类图中实线虚线的指向关系
  9. 苹果在新西兰的所得税都缴纳给了澳大利亚
  10. 圣剑传说 玛娜传奇(Legend of Mana)(LOM)全武器取得方法
  11. 解决:The requested URL returned error: 403
  12. thinkphp5.0的查询方法 where in 性能问题以及优化措施
  13. MOVICS系列教程(二) COMP Module
  14. 2552: 好好学习天天向上
  15. 2021年全国计算机二级考试时间安排出炉(全年)
  16. [ilink32 Error] Fatal: Unable to open file 'DATA.DBXMSSQLMETADATAREADER.OBJ'
  17. java实现a3打印_javase 打印杨辉三角
  18. 读“程序猿生存定律”笔记
  19. 2022-2028全球及中国食品加工机械设备行业研究及十四五规划分析报告
  20. php 自定义 url,自定义url变量转义方法

热门文章

  1. 命令行运行postman
  2. HDU1013 POJ1519 Digital Roots
  3. Squid服务器配置
  4. Android SystemClock 应用
  5. PG及IBM:开放式创新,就在你身边
  6. 我是一个*** (十三)
  7. Python Tips 01 : 判断两个文件是否相同
  8. 2018腾讯内部转岗面试题2——打印A-Z 26个字母的所有子集
  9. Cassandra 权威指南
  10. 手写简化版printf函数