文章目录

  • 加载数据的方法
  • 了解数据部分情况
  • 数据处理
    • 缺失值处理
      • 数据缺失的几种情况:
      • 填充空白值方法(fillna)

加载数据的方法

data_url = "http://lib.stat.cmu.edu/datasets/boston" # 数据来源
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
# 用pandas读csv文件 跳过了22行,中间间隔任意长度相同字符
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
# 合并数组
target = raw_df.values[1::2, 2]
house = pd.read_csv("./data/boston.csv")

了解数据部分情况

house.head() # 读前五行# 数据的规模
house.shape# 数据集的每一列的列名
house.columns
# 对数据集数据的基本统计描述
# 这个命令非常便捷,呈现了这个数据集的基本统计分布,这是对每一列而言的,统计量包括:最大值,最小值,
house.describe()#>有时候我们也可以通过df.info()去对数据集作一个简单的概述,更多的是看确实情况,以及变量的类型,通过变量类型分析数据处理的方法.house.info()

数据处理

缺失值处理

数据缺失的几种情况:

①:缺失值过大,比如说已经超过了正常值的1/2,这种就不需要考虑怎么样填补了,留着这个特征反而是加大误差,可以选择剔除
②:缺失值小于1/2的,但出现了连续型缺失,也可以认为是一大段一大段的,这种如果在前面的话,可以不用去考虑,直接作为NaN构成新样本加入样本中,如果是在中间或者后面,根据缺失量,可以考虑用均值或者是线性回归、灰度预测等抢救一下
③:缺失值远小于1/2,并且是非连续的,这里就可以用一些复杂的插值,或者说用前后数的平均,众数都能填补,并且填补完可能会有一些意想不到的效果。
直接计数

null.isnull().sum()

统计缺失值的比例

A = []
for col in null.columns:A.append((col,null[col].isnull().sum() * 100 / null.shape[0]))
pd.DataFrame(A, columns=['Features', 'missing rate'])

填充空白值方法(fillna)

  1. 用固定值填充
train_data.fillna(0, inplace=True) # 填充 0
  1. 填充均值
    对每一列的缺失值,填充当列的均值。
train_data.fillna(train_data.mean(),inplace=True) # 填充均值
  1. 填充中位数
train_data.fillna(train_data.median(),inplace=True) # 填充中位数
  1. 填充众数
train_data.fillna(train_data.mode(),inplace=True) # 填充众数,该数据缺失太多众数出现为nan的情况
  1. 填充KNN数据
from fancyimpute import KNNtrain_data_x = pd.DataFrame(KNN(k=6).fit_transform(train_data_x), columns=features)

波士顿房价分析作业总结相关推荐

  1. EVIEWS波士顿房价分析

    试试用EVIEWS做波士顿房价分析,希望大家批评指正. 1)导入数据 打开EVIEWS 10.0,新建一个Workfile工作文件,随便输入时间. 点击file-import-import from ...

  2. R语言波士顿房价分析

    最近帮GF用R语言做了一个波士顿房价的多元线性回归的作业,因为也是初次学习,可能内容会有一些问题,希望大家一起学习交流. R用的是3.5.3版本,下载都是来自China.Lanzhou. ###### ...

  3. 【Python数据分析】波士顿房价分析小例子

    %matplotlib inline             #将生成的图片嵌入网页中     import matplotlib.pyplot as plt     from sklearn imp ...

  4. 机器学习作业之波士顿房价(boston)数据分析与绘图(注释我都写了这么多,我不信你还看不懂?)

    目录 一.前言 二.简单介绍头文件 1.sklearn头文件 意外 2.其他头文件 三.题目理解 1.题目的简单介绍 2.属性标签 3.降维比喻 四.代码 1.代码及注释 2.代码缺点 五.运行结果 ...

  5. 波士顿房价预测python决策树_波士顿房价预测 - 最简单入门机器学习 - Jupyter

    机器学习入门项目分享 - 波士顿房价预测 该分享源于Udacity机器学习进阶中的一个mini作业项目,用于入门非常合适,刨除了繁琐的部分,保留了最关键.基本的步骤,能够对机器学习基本流程有一个最清晰 ...

  6. 利用神经网络进行波士顿房价预测

    前言 ​    前一阵学校有五一数模节校赛,和朋友一起参加做B题,波士顿房价预测,算是第一次自己动手实现一个简单的小网络吧,虽然很简单,但还是想记录一下. 题目介绍 ​    波士顿住房数据由哈里森和 ...

  7. 机器学习学习笔记——以波士顿房价问题为例

    文章目录 前言 什么是机器学习? 机器学习分类 监督学习 回归 分类 无监督学习 聚类 一个小例子 波士顿房价预测 1.导入数据 2.绘制散点图 3.回归分析 4.减小误差 最小二乘法 后记 前言 说 ...

  8. 线性回归之案例:波士顿房价预测

    线性回归之案例:波士顿房价预测 数据介绍   [13个特征值,1个目标值] 给定的这些特征,是专家们得出的影响房价的结果属性.此阶段不需要自己去探究特征是否有用,只需要使用这些特征.到后面量化很多特征 ...

  9. AI Studio 对于波士顿房价的线性回归

    简 介: 这是利用线性回归模型来 处理波士顿房价的预测.通过随机梯度下降完成模型的训练.对于最终的结果来看,预测的误差还是非常大的. 关键词: 波士顿房价,NN,AI #mermaid-svg-VUl ...

最新文章

  1. html5 popup,popup.js-jQuery和CSS3可互动的3D弹出窗口插件
  2. 系统linux/redhat6.5 zabbix 2.47监控nginx1.8.0 (下)
  3. 【网络搜索】学习资料
  4. jquery-练习-添加列表的一行信息
  5. 如何让tableView保持顺畅
  6. mysql监控---慢语句查询
  7. python笔记(一)获取当前目录路径和文件(抄录)
  8. python序列操作_操作序列(python)
  9. 不忘初心,砥砺前行;只争朝夕,不负韶华——国家开放大学2018年度首届优秀青年教师总结报告
  10. mysql数据脱敏_数据脱敏|静态脱敏|动态脱敏—数据库脱敏_产品
  11. 动易CMS如何能实现直接粘贴把图片上传到服务器中
  12. “没有灵魂”的AI作诗,有啥用?
  13. DataSet-如何优雅使用DataSet,看完此篇文章完全理解C7N/choerodon/猪齿鱼 UI中的DataSet
  14. Java——通过Java代码从ftp服务器下载文件
  15. astropy.io.fits 教程
  16. python中keys函数怎么用_Python keys()函数
  17. 计算机cpu天体图,CPU天梯图2019年11月最新版 台式电脑处理器性能排名与选购建议...
  18. 修复计算机命令行,如何用命令提示符修复系统还原_用cmd命令提示符恢复系统的方法...
  19. 跑步耳机哪种好,适合在运动过程佩戴的耳机推荐
  20. iis 7 windows server 64bit

热门文章

  1. 微信Mac 3.1.0版内测!支持发朋友圈、浏览相册!
  2. 电容三点式LC正弦波振荡电路的重要特性解析
  3. python默认参数举例_Python中的默认参数详解
  4. 屏幕拾色器轻松获取网页颜色代码
  5. WEB3.0的详细介绍
  6. 基于ADAU1452的DSP及DAC音频失真分析
  7. 【四级英语单词·LIST1】 B站网课笔记 新东方四级词汇词根+联想记忆法 乱序版
  8. linux文本编辑器由命令模式进入编辑模式操作
  9. 第三天:基础入门-抓包封包协议APP小程序PC应用WEB应用
  10. 2023年江南大学食品工程考研考情与难度、参考书及上岸前辈经验