汽车数据聚类分析——天池竞赛
天池竞赛汽车数据链接:https://pan.baidu.com/s/126CDXOpFbR-J3ST-U83LZA
提取码:1234
#导入库文件并读取数据
import pandas as pd
from pandas import DataFrame
from sklearn import preprocessing
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
car_data =pd.read_csv("D:/天池竞赛/汽车聚类数据分析/car_price.csv")
car_data
#空值检测
car_data.isnull().sum()
one_matrix = pd.get_dummies(car_data)
# 2. 标准化处理
scaler = MinMaxScaler()
data_scaler = scaler.fit_transform(one_matrix)
SSE = [] # 存放每次结果的误差平方和
for k in range(1, 9): # K的范围 : 1-9estimator = KMeans(n_clusters=k) # 构造聚类器estimator.fit(data_scaler)SSE.append(estimator.inertia_)
X = range(1, 9)
plt.xlabel('k')
plt.ylabel('SSE')
plt.plot(X, SSE, 'o-')
plt.show()
手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。当然,这也是该方法被称为手肘法的原因。(坡度最大点为最优K值点)
选取两个聚类中心时聚类效果最好。
estimator = KMeans(n_clusters=2).fit(data_scaler) # 构造聚类器
# kmeansPredicter.predict(data_scaler)
pre_y = estimator.predict(data_scaler)
pre_y
汽车数据聚类分析——天池竞赛相关推荐
- 天池竞赛-津南数字制造算法挑战赛【赛场二】解决方案分享
天池竞赛-津南数字制造算法挑战赛[赛场二]解决方案分享 一.前言 竞赛页面 团队名BugFlow,最终排名35/2157 虽然成绩一般,但是作为一支目标检测领域的新手队伍,仅仅有一块1070显卡,从零 ...
- 协同过滤算法(天池竞赛试题)
一:推荐算法分类: 1.按数据使用划分: 协同过滤算法:UserCF, ItemCF, ModelCF 基于内容的推荐: 用户内容属性和物品内容属性 社会化过滤:基于用户的社会网络关系 2.案例:天池 ...
- 天池竞赛-资金流入流出预测总结
天池竞赛-资金流入流出预测总结 1.竞赛背景 时序问题:根据2013年7月份到2014年8月份的用户数据,预测支付宝每日的资金流入流出情况. 数据集情况 数据集主要包括四个表格:1.用户信息表主要记录 ...
- 天池竞赛-地表建筑物识别 语义分割
目录 1 案例介绍 2 数据预处理 2.1 rle编码转换 2.2 数据扩增 2.3 异常数据的处理 3 自定义数据库类 4 模型训练 5 语义分割的准确率评价方法 5.1 像素准确率(PA) 5.2 ...
- 超市产品关联性分析——天池竞赛
天池大赛产品关联性分析数据集:https://pan.baidu.com/s/1CFxIDu8enrCbj50JQlHiMg 提取码:1234 #首先进行数据预处理 import pandas as ...
- 用户情感可视化分析——天池竞赛
数据链接:https://pan.baidu.com/s/1zzKSJJEhYr20aUtWSPgQWQ 提取码:1234 #导入相关库并读取数据 %matplotlib inline import ...
- 自动驾驶年度激辩:量产由三要素驱动,本质是数据的军备竞赛 | MEET2022
编辑部 整理自 MEET 2022 量子位 | 公众号 QbitAI "AI在自动驾驶上是应用科学,除了一些核心算法的开发,70%是智能驾驶工程化."" "特斯 ...
- 敲响警钟!智能汽车数据正在被“偷运出境”!
来源:人民数据 本文约1600字,建议阅读6分钟 未来,对于智能联网汽车企业的数据存储,国际离岸数据中心或将成为重要选项. 以下文章来源于人民数据研究院 ,作者胡永明 5G.大数据.云计算.人工智能. ...
- 【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )
文章目录 K-Means 二维数据 聚类分析 数据样本及聚类要求 二维数据曼哈顿距离计算 K-Means 算法 步骤 第一次迭代 : 步骤 ( 1 ) 中心点初始化 第一次迭代 : 步骤 ( 2 ) ...
最新文章
- 古典、SOA、传统、K8S、ServiceMesh
- React开发(240):dva概念5reducer
- AJAX框架衣柜内部布局,​最合理的衣柜内部布局解析,3大细节不容小觑
- 【转】图片轮播效果2
- opencv-contrib-Python编译module ‘cv2.cv2‘ has no attribute ‘xfeatures2d‘
- Android Application.java以及它的作用
- Excel 纵向查找函数 vlookup() 使用入门
- 安装ps时无法验证订阅状态_如何解决:Office 无法验证此应用程序的许可证
- 阿里java开发一面 面试题及个人解析答案
- 通过微博名查看id html,微博id在哪里查看?
- 土是独体字结构吗_发是独体字结构吗
- Chrome谷歌浏览器的快捷键:
- Odoo | Config | Odoo版本基础需求
- 长春理工计算机研究生就业,计算机学专业长春理工大学在职研究生火热吗
- 工厂模式(FactoryModel)
- 考试项目,通过SQL语句实现随机进行组卷功能
- 设计一个学校在册人员类(Person)。数据成员包括身份证号(IdPerson)、姓名(Name)、性别(Sex)、生日(Birth-day)和家庭住址(HomeAddress)。成员函数包括人员信息
- 全麦吐司和普通吐司的区别_全麦土司和白土司有什么区别?
- 电商平台通用取货码设计
- 自定义可存数据的jquery 表情输入框