利用数据可视化技术来学习钻石鉴别

文章目录

数据背景
初（粗）看数据
数据简单清理
数据可视化
总结：

数据背景

A data frame with 53940 rows and 10 variables:
这是一个10列53940行的数据集。下面是它每个属性的介绍：

price	carat	cut	color	clarity	x	y	z
价格	重量	切割质量	色彩	净度	长	宽	深

价格是以美元计价；
重量的单位是克拉；
切割质量分为：Fair, Good, Very Good, Premium, Ideal；
色彩分为：J (worst) to D (best)；
净度分为I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best)；
长，宽，深的单位是mm

初（粗）看数据

加载数据到dataframe

import pandas as pd
import seaborn as sns
sns.set(style="whitegrid", palette="muted")
diamonds = pd.read_csv("/Users/sqian/Documents/GitHub/seaborn-data-master/diamonds.csv")

diamonds.describe()

这里可以看出一些属性的取值范围和整个数据集的数量。

diamonds.head()

可以看到有三个属性是非数字型的，后面可以对其进行处理。

diamonds.columns

Index([‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’],dtype=‘object’)
这个地方打印一下是为了后面选列时，复制列名用的。

diamonds.isnull().sum()

看一下有没有空白值，没有发现！

数据简单清理

先把非数字型的属性替换成非数字的，当然也可以不替换，我这里是为了装逼，哈哈哈！

import collections
# 统计列表元素出现次数
collections.Counter(diamonds['color'])
collections.Counter(diamonds['clarity'])
collections.Counter(diamonds['cut'])

这里通过查看这些列里频繁出现的值来找出需要替换的值。

diamonds['cut_no']=diamonds['cut']
diamonds['clarity_no']=diamonds['clarity']
diamonds['color_no']=diamonds['color']
# 准备好替换map
cut_rp_map={'Fair':1,'Good':2,'Very Good':3,'Premium':4,'Ideal':5}
co_rp_map={'J':1,'I':2,'H':3,'G':4,'F':5,'E':6,'D':7}
cl_rp_map={'I1': 1,'SI2': 2,'SI1': 3,'VS2': 4,'VS1': 5,'VVS2': 6,'VVS1': 7,'IF': 8}
# inplace 默认值是False，为True则替换原数据集，否则不替换原数据而是返回替换结果
diamonds['cut_no'].replace(cut_rp_map,inplace=True)
diamonds['clarity_no'].replace(cl_rp_map,inplace=True)
diamonds['color_no'].replace(co_rp_map,inplace=True)

替换空值，虽然没有，逼还是要继续装的

# 应用于原数据集
diamonds.dropna(inplace=True)
# 删除至少两个空值的行
diamonds.dropna(thresh=2)
# 删除所有值都是空的行
diamonds.dropna(how='all')
# 删除列
diamonds.dropna(axis='columns')

数值归一化

参考：https://blog.csdn.net/hjxzb/article/details/78610961

数据可视化

废话不多说，直接先看多对关系，观察整体数据的分布，肉眼看看是否有相关性

import matplotlib.pyplot as plt
import seaborn as sns
# 用Seaborn画成对关系
sns.pairplot(diamonds)
plt.show()

可以看到有点多，这里放大看一下左上角的图

这里可以看出不是所有属性都独立的，这里再来个相关性分析

# Correlation matrix
def plotCorrelationMatrix(df, graphWidth):df = df.dropna('columns') # drop columns with NaNdf = df[[col for col in df if df[col].nunique() > 1]] # keep columns where there are more than 1 unique valuesif df.shape[1] < 2:print(f'No correlation plots shown: The number of non-NaN or constant columns ({df.shape[1]}) is less than 2')returncorr = df.corr()plt.figure(num=None, figsize=(graphWidth, graphWidth), dpi=80, facecolor='w', edgecolor='k')corrMat = plt.matshow(corr, fignum = 1)plt.xticks(range(len(corr.columns)), corr.columns, rotation=90)plt.yticks(range(len(corr.columns)), corr.columns)plt.gca().xaxis.tick_bottom()plt.colorbar(corrMat)plt.title(f'Correlation Matrix for Diamonds', fontsize=15)plt.show()plotCorrelationMatrix(diamonds, 14)

从图中看x,y,z的相关性还是很高的。下面我们来用散点图和折现图来看一下这部分数据。这里不要多想为啥用这个图，纯粹是为了实践一下之前学习的这部分知识。

# 用Seaborn画散点图
sns.jointplot(x="x", y="y", data=diamonds,color='blue', kind='scatter');
plt.show()

# 使用Seaborn画折线图
sns.lineplot(x="x", y="z", data=diamonds)
plt.show()

# 用Seaborn画直方图
sns.distplot(diamonds['z'], kde=False)
plt.show()
sns.distplot(diamonds['z'], kde=True)
plt.show()

这个图里有两个问题，一是kde=True，这个是开启核密度函数，具体可以参考我的另一篇文章；另外一个就是大部分值都聚集在2到10之间，只有几个值取到了15之上，这里可以用盒子图看一下。（哈哈，硬编了个装逼借口···）

# 用Seaborn画箱线图
sns.boxplot(data=diamonds['z'])
plt.show()

由此可以看到只有一个极值，这里用程序把它去除掉

#删除/选取某行含有特定数值的行
r=[x for i,x in enumerate(diamonds.index) if diamonds.z[i]>10]
#利用enumerate对row0进行遍历，将含有数字3的列放入r中
print('Remvove row: ',r)
#利用drop方法将含有特定数值的列删除
diamonds.drop(r,axis=0,inplace=True)
# 用Seaborn画箱线图
sns.boxplot(data=diamonds['z'])
plt.show()

当然如果知道那个值是多少的话，还有一种写法如下：

new_diamonds=diamonds[~diamonds['z'].isin([31.8])]
#通过~取反
print(new_diamonds.z)

清理和的盒子图看起来稍微正常些了

下面来做个饼图看看从色彩，切割等属性来看看不同品质的钻石数量占比：

import collections
# 统计列表元素出现次数
color_cnt=collections.Counter(diamonds['color'])
color_keys=color_cnt.keys()
color_values=color_cnt.values()
# 用Matplotlib画饼图
plt.pie(x = color_values, labels=color_key)
plt.show()

fig,axj=plt.subplots(nrows=2,ncols=2,figsize=(8, 8),dpi=200) #建立饼图坑
axes = axj.flatten() #子图展平
color_cnt=collections.Counter(diamonds['color'])
color_keys=[x for x in color_cnt.keys()]
color_values=[x for x in color_cnt.values()]c_cnt=collections.Counter(diamonds['cut'])
c_keys=[x for x in c_cnt.keys()]
c_values=[x for x in c_cnt.values()]cl_cnt=collections.Counter(diamonds['clarity'])
cl_keys=[x for x in c_cnt.keys()]
cl_values=[x for x in c_cnt.values()]axes[0].set_title("color pie")
axes[0].pie(x=color_values,labels=color_keys)
axes[1].set_title("cut pie")
axes[1].pie(x=c_values,labels=c_keys)
axes[2].set_title("clarity pie")
axes[2].pie(x=cl_values,labels=cl_keys)plt.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=0.5, hspace=0.2)  # 调整子图间距
plt.show()

最后再装一个逼

# 用Seaborn画二元变量分布图（散点图，核密度图，Hexbin图）
sns.jointplot(x="cut_no", y="price", data=diamonds, kind='scatter')
sns.jointplot(x="cut_no", y="price", data=diamonds, kind='kde')
sns.jointplot(x="cut_no", y="price", data=diamonds, kind='hex')
plt.show()

总结：

本文主要是用Diamonds数据来实践之前学的数据可视化程序，所以如果出现看数据方式不对请勿当真。这里还是没有用到Seaborn的多图模式，后面争取学会来进行补充。