kaggle房价预测特征意思_Kaggle初探--房价预测案例之数据分析

概述

在做的过程中，浏览了好多出色的报告，受益匪浅，浏览的文章主要包括:

import pandas as pd

import numpy as np

import seaborn as sns

from scipy import stats

from scipy.stats import skew

from scipy.stats import norm

import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler

from sklearn.manifold import TSNE

from sklearn.cluster import KMeans

from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler

# import warnings

# warnings.filterwarnings('ignore')

%config InlineBackend.figure_format = 'retina' #set 'png' here when working on notebook

%matplotlib inline

train_df = pd.read_csv("../input/train.csv")

test_df = pd.read_csv("../input/test.csv")

查看数据

我们拿到数据后，先对数据要有个大致的了解，我们有1460的训练数据和1460的测试数据，数据的特征列有81个，其中35个是数值类型的，44个类别类型。

我们通过阅读数据的描述说明，会发现列MSSubClass,OverallQual,OverallCond 这些数据可以将其转换为类别类型.

但是去具体看OverallQual,OverallCond 的时候，其没有缺失列，可以当做int来处理

all_df = pd.concat((train_df.loc[:,'MSSubClass':'SaleCondition'], test_df.loc[:,'MSSubClass':'SaleCondition']), axis=0,ignore_index=True)

all_df['MSSubClass'] = all_df['MSSubClass'].astype(str)

quantitative = [f for f in all_df.columns if all_df.dtypes[f] != 'object']

qualitative = [f for f in all_df.columns if all_df.dtypes[f] == 'object']

print("quantitative: {}, qualitative: {}" .format (len(quantitative),len(qualitative)))

quantitative: 35, qualitative: 44

处理缺失数据

对于缺失值的处理

缺失的行特别对，弃用该列

缺失的值比较少，取均值

缺失的值中间，对于类别信息的列可以将缺失作为新的类别做 one-hot

missing = all_df.isnull().sum()

missing.sort_values(inplace=True,ascending=False)

missing = missing[missing > 0]

types = all_df[missing.index].dtypes

percent = (all_df[missing.index].isnull().sum()/all_df[missing.index].isnull().count()).sort_values(ascending=False)

missing_data = pd.concat([missing, percent,types], axis=1, keys=['Total', 'Percent','Types'])

missing_data.sort_values('Total',ascending=False,inplace=True)

missing_data

image.png

missing.plot.bar()

output_14_1.png

上述缺失的列中有6列大于了15%的缺失率，其余主要是 BsmtX 和 GarageX 两大类，我们在具体决定这些列的处理之前，我们来看下我们要预测的价格的一些特征

数据统计分析

单变量分析

先看下我们要预测的价格的一些统计信息

train_df.describe()['SalePrice']

count 1460.000000

mean 180921.195890

std 79442.502883

min 34900.000000

25% 129975.000000

50% 163000.000000

75% 214000.000000

max 755000.000000

Name: SalePrice, dtype: float64

#skewness and kurtosis

print("Skewness: %f" % train_df['SalePrice'].skew())

print("Kurtosis: %f" % train_df['SalePrice'].kurt())

# 在统计学中，峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

Skewness: 1.882876

Kurtosis: 6.536282

kaggle房价预测特征意思_Kaggle初探--房价预测案例之数据分析相关推荐

ML之FE：基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测
ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测目录输出结果设计思路核心代码 ...
kaggle房价预测特征意思_kaggle入门之房价预测
背景介绍: 这个比赛总的情况就是给你79个特征然后根据这些预测房价(SalePrice),难点在于特征很多,且存在大量的缺失值.kaggle提供的data_description.txt这个文件,里面 ...
kaggle房价预测特征意思_Kaggle实战-波士顿房价预测
本文数据集来自Kaggle波士顿房价预测项目https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data 1.数据 ...
kaggle房价预测特征意思_Kaggle之预测房价
分析背景要求购房者描述他们梦想中的房子,他们可能不会从地下室天花板的高度或靠近东西方铁路开始.但是这个游乐场比赛的数据集证明了价格谈判比卧室或白色栅栏的数量更多. 有79个解释变量描述(几乎)爱荷华 ...
kaggle房价预测特征意思_Kaggle竞赛丨房价预测（House Prices）
典型的机器学习流程如下图所示: 机器学习流程数据收集→数据探索→数据预处理→模型训练→模型评估→性能改进→上线部署如下视频介绍了机器学习的流程,感兴趣的同学可以点击查看: 机器学习介绍片https ...
波士顿房价预测python决策树_波士顿房价预测 - 最简单入门机器学习 - Jupyter
机器学习入门项目分享 - 波士顿房价预测该分享源于Udacity机器学习进阶中的一个mini作业项目,用于入门非常合适,刨除了繁琐的部分,保留了最关键.基本的步骤,能够对机器学习基本流程有一个最清晰 ...
ML之FE：基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本目录基于波士顿房价数据集利用LiR和LightGBM算法进行模 ...
zillow房价预测比赛_Zillow预测: 未来一年美国房价将大幅上涨！
2017年,美国房产市场欣欣向荣,吸引着越来越多的海外人士前往置业投资.据Zillow房价预测显示,未来一年,美国的房产市场仍然将会非常火爆,从全美范围来看,中等房屋的价格将从现在起一年内将上涨6,2 ...
python建筑案例_Python数据分析实战-链家北京二手房价分析
前言最近在自学Python,通过学习大家的分享案例,看到使用Python进行较多的主要4个方面:爬虫,数据处理,数据可视化以及机器学习建模.对我来说目标就是: 熟练使用numpy pandas 进行 ...

kaggle房价预测特征意思_Kaggle初探--房价预测案例之数据分析

kaggle房价预测特征意思_Kaggle初探--房价预测案例之数据分析相关推荐

最新文章

热门文章