分类型变量python聚类分析_用python对包含分类变量和数值变量的数据进行聚类的最佳方法是什么...
我需要聚类客户数据,包含分类和数字特征。数字特征不在同一范围内(年龄、收入……)。在我用标准刻度缩放后,我尝试了Mclust来获取数值数据,但这给了我交叉的组。在
1-如果标准量表的结果不令人满意,我是否应该标准化?
2-K-Prototype集群的最佳方式是什么?
3-聚类方法是否应该依赖于数据分布?在
我用熊猫
我用的是:#K-mean Cluster#search K
from scipy.spatial import distance as sci_distance
from sklearn import cluster as sk_cluster
cdata = data
K = range(1, 10)
KM = (sk_cluster.KMeans(n_clusters=k).fit(cdata) for k in K)
centroids = (k.cluster_centers_ for k in KM)
D_k = (sci_distance.cdist(cdata, cent, 'euclidean') for cent in centroids)
dist = (np.min(D, axis=1) for D in D_k)
avgWithinSS = [sum(d) / cdata.shape[0] for d in dist]
plt.plot(K, avgWithinSS, 'b*-')
plt.grid(True)
plt.xlabel('Number of clusters')
plt.ylabel('Average within-cluster sum of squares')
plt.title('Elbow for KMeans clustering')
plt.show()
#KMean Cluster
from sklearn.cluster import KMeans, AgglomerativeClustering,
AffinityPropagation #For clustering
from sklearn.mixture import GaussianMixture #For GMM clustering
import matplotlib.pyplot as plt # For graphics
import seaborn as sns
#Clustering
def doKmeans(X, nclust=3):
model = KMeans(nclust)
model.fit(X)
clust_labels = model.predict(X)
cent = model.cluster_centers_
return (clust_labels, cent)
clust_labels, cent = doKmeans(data, 3)
kmeans = pd.DataFrame(clust_labels)
data.insert((data.shape[1]),'kmeans',kmeans)
#Plot the clusters obtained using k means
fig = plt.figure()
ax = fig.add_subplot(111)
scatter = ax.scatter(data['var1'],data['var2'],
c=kmeans[0],s=50)
ax.set_title('K-Means Clustering')
ax.set_xlabel('var1')
ax.set_ylabel('var2')
plt.colorbar(scatter)
分类型变量python聚类分析_用python对包含分类变量和数值变量的数据进行聚类的最佳方法是什么...相关推荐
- 第一章 第一节:Python基础_认识Python
Python基础入门(全套保姆级教程) 第一章 第一节:Python基础_认识Python 1. 什么是编程 通俗易懂,编程就是用代码编写程序,编写程序有很多种办法,像c语言,javaPython语言 ...
- mae python实现_使用Python进行机器学习:从0到1,构建回归模型(附完整教程)
摘要 在本文中,我将使用数据科学和Python来解释回归用例的主要步骤,从数据分析到理解模型输出. 我将介绍一些非常有用的Python代码,当你遇到相同的情况时,只需要复制,粘贴,运行,就能轻松使用. ...
- 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法
halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...
- java python算法_用Python,Java和C ++示例解释的排序算法
java python算法 什么是排序算法? (What is a Sorting Algorithm?) Sorting algorithms are a set of instructions t ...
- 动态照片墙 python 实现_利用python生成照片墙的示例代码
这篇文章主要介绍了利用python生成照片墙的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 PIL(Python Im ...
- python数据集_【Python数据分析实战】divorce数据集
1.数据集来源Divorce Predictors data set Data Setarchive.ics.uci.edu 2.库.函数和数据集的导入 import numpy as np imp ...
- python 字符识别_使用python进行光学字符识别入门
python 字符识别 语言模型设计 (Language Model Designing) Optical Character Recognition is the conversion of 2-D ...
- python 标准差_标准差python
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 方差是每个值与均值的差值的平方的平均值,标准差是方差的平方根(这是有用的,因为取 ...
- excel python插件_利用 Python 插件 xlwings 读写 Excel
Python 通过 xlwings 读取 Excel 数据 去年底公司让我做设备管理,多次委婉拒绝,最终还是做了.其实我比较喜欢技术.做管理后发现现场没有停机率统计,而原始数据有,每次要自己在Exce ...
最新文章
- 对数函数定义域和值域_呆哥数学每日一题 —— 复合函数值域
- 玩转社区开源贡献,看这篇就够了!
- [JVM 相关] Java 新型垃圾回收器(Garbage First,G1)
- hiernate的锁机制
- 网易云信 — 陪你打怪让你飞!
- NKU两题简单题解析(递归分析与位运算技巧)
- 知道坐标matlab三维作图,已知点坐标,要求根据坐标作出三维曲面图
- STM32工作笔记0064---输入捕获实验
- php执行函数吗_php函数system
- 使用alias简化命令输入
- 不懂性能测试,被面试官挂了...
- mysql-connector-java驱动包下载地址收藏 mysql驱动包下载地址
- 在国产银河麒麟v10操作系统下安装亿图图示(VISIO替代品)
- MD5是什么, MD5怎么用
- 使用 Hibernate 二级缓存的步骤
- 3个维度,帮助IT部门快速完成企业云盘选型!
- 基于ESP-IDF环境的ESP32-C3开发之No such file or directory
- 《客户反映访问公司网站服务器很慢或打不开》排错思想
- 2022年执法资格通用法律知识考试判断题专项训练题及答案
- UVa Problem 10041 Vito’s Family (Vito 家族)
热门文章
- Android Bluetooth 集成
- js实现九九乘法表(两种方法)
- pythonxy官网下载_GitHub - leior/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...
- iOS 自动构建命令——xcodebuild
- 微信小程序 刻度计/温度计组件(自用)
- 2001年3月英语中级口译真题答案及听力原文
- 新传工作运用计算机吗,Windows 7正式退休,这些解决办法你必须了解
- 老姜 大数据金融项目
- 浅谈JS的三个特性:封装、继承、多态
- 【Easyx库基础用法教程】