我需要聚类客户数据,包含分类和数字特征。数字特征不在同一范围内(年龄、收入……)。在我用标准刻度缩放后,我尝试了Mclust来获取数值数据,但这给了我交叉的组。在

1-如果标准量表的结果不令人满意,我是否应该标准化?

2-K-Prototype集群的最佳方式是什么?

3-聚类方法是否应该依赖于数据分布?在

我用熊猫

我用的是:#K-mean Cluster#search K

from scipy.spatial import distance as sci_distance

from sklearn import cluster as sk_cluster

cdata = data

K = range(1, 10)

KM = (sk_cluster.KMeans(n_clusters=k).fit(cdata) for k in K)

centroids = (k.cluster_centers_ for k in KM)

D_k = (sci_distance.cdist(cdata, cent, 'euclidean') for cent in centroids)

dist = (np.min(D, axis=1) for D in D_k)

avgWithinSS = [sum(d) / cdata.shape[0] for d in dist]

plt.plot(K, avgWithinSS, 'b*-')

plt.grid(True)

plt.xlabel('Number of clusters')

plt.ylabel('Average within-cluster sum of squares')

plt.title('Elbow for KMeans clustering')

plt.show()

#KMean Cluster

from sklearn.cluster import KMeans, AgglomerativeClustering,

AffinityPropagation #For clustering

from sklearn.mixture import GaussianMixture #For GMM clustering

import matplotlib.pyplot as plt # For graphics

import seaborn as sns

#Clustering

def doKmeans(X, nclust=3):

model = KMeans(nclust)

model.fit(X)

clust_labels = model.predict(X)

cent = model.cluster_centers_

return (clust_labels, cent)

clust_labels, cent = doKmeans(data, 3)

kmeans = pd.DataFrame(clust_labels)

data.insert((data.shape[1]),'kmeans',kmeans)

#Plot the clusters obtained using k means

fig = plt.figure()

ax = fig.add_subplot(111)

scatter = ax.scatter(data['var1'],data['var2'],

c=kmeans[0],s=50)

ax.set_title('K-Means Clustering')

ax.set_xlabel('var1')

ax.set_ylabel('var2')

plt.colorbar(scatter)

分类型变量python聚类分析_用python对包含分类变量和数值变量的数据进行聚类的最佳方法是什么...相关推荐

  1. 第一章 第一节:Python基础_认识Python

    Python基础入门(全套保姆级教程) 第一章 第一节:Python基础_认识Python 1. 什么是编程 通俗易懂,编程就是用代码编写程序,编写程序有很多种办法,像c语言,javaPython语言 ...

  2. mae python实现_使用Python进行机器学习:从0到1,构建回归模型(附完整教程)

    摘要 在本文中,我将使用数据科学和Python来解释回归用例的主要步骤,从数据分析到理解模型输出. 我将介绍一些非常有用的Python代码,当你遇到相同的情况时,只需要复制,粘贴,运行,就能轻松使用. ...

  3. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  4. java python算法_用Python,Java和C ++示例解释的排序算法

    java python算法 什么是排序算法? (What is a Sorting Algorithm?) Sorting algorithms are a set of instructions t ...

  5. 动态照片墙 python 实现_利用python生成照片墙的示例代码

    这篇文章主要介绍了利用python生成照片墙的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 PIL(Python Im ...

  6. python数据集_【Python数据分析实战】divorce数据集

    1.数据集来源Divorce Predictors data set Data Set​archive.ics.uci.edu 2.库.函数和数据集的导入 import numpy as np imp ...

  7. python 字符识别_使用python进行光学字符识别入门

    python 字符识别 语言模型设计 (Language Model Designing) Optical Character Recognition is the conversion of 2-D ...

  8. python 标准差_标准差python

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 方差是每个值与均值的差值的平方的平均值,标准差是方差的平方根(这是有用的,因为取 ...

  9. excel python插件_利用 Python 插件 xlwings 读写 Excel

    Python 通过 xlwings 读取 Excel 数据 去年底公司让我做设备管理,多次委婉拒绝,最终还是做了.其实我比较喜欢技术.做管理后发现现场没有停机率统计,而原始数据有,每次要自己在Exce ...

最新文章

  1. 对数函数定义域和值域_呆哥数学每日一题 —— 复合函数值域
  2. 玩转社区开源贡献,看这篇就够了!
  3. [JVM 相关] Java 新型垃圾回收器(Garbage First,G1)
  4. hiernate的锁机制
  5. 网易云信 — 陪你打怪让你飞!
  6. NKU两题简单题解析(递归分析与位运算技巧)
  7. 知道坐标matlab三维作图,已知点坐标,要求根据坐标作出三维曲面图
  8. STM32工作笔记0064---输入捕获实验
  9. php执行函数吗_php函数system
  10. 使用alias简化命令输入
  11. 不懂性能测试,被面试官挂了...
  12. mysql-connector-java驱动包下载地址收藏 mysql驱动包下载地址
  13. 在国产银河麒麟v10操作系统下安装亿图图示(VISIO替代品)
  14. MD5是什么, MD5怎么用
  15. 使用 Hibernate 二级缓存的步骤
  16. 3个维度,帮助IT部门快速完成企业云盘选型!
  17. 基于ESP-IDF环境的ESP32-C3开发之No such file or directory
  18. 《客户反映访问公司网站服务器很慢或打不开》排错思想
  19. 2022年执法资格通用法律知识考试判断题专项训练题及答案
  20. UVa Problem 10041 Vito’s Family (Vito 家族)

热门文章

  1. Android Bluetooth 集成
  2. js实现九九乘法表(两种方法)
  3. pythonxy官网下载_GitHub - leior/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...
  4. iOS 自动构建命令——xcodebuild
  5. 微信小程序 刻度计/温度计组件(自用)
  6. 2001年3月英语中级口译真题答案及听力原文
  7. 新传工作运用计算机吗,Windows 7正式退休,这些解决办法你必须了解
  8. 老姜 大数据金融项目
  9. 浅谈JS的三个特性:封装、继承、多态
  10. 【Easyx库基础用法教程】