探索性数据分析

本节课以房屋售卖的数据为例,结合代码进行分析。
出处:https://www.bilibili.com/video/BV1Xh411p7M9?spm_id_from=333.999.0.0
参考:https://www.bilibili.com/read/cv13353927?from=note
数据集:https://c.d2l.ai/stanford-cs329p/assignments.html#assignment-1

一、导入相关包

  • numpy:python中做数据分析常用的包;
  • pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;
  • matplotlib.pyplot:源自matlab的画图工具;
  • seaborn:基于matplotlib,提供更多的画法。

二、读取数据

csv文件存下来相对比较大,可以先压缩成一个zip,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,这种读取方式在传输存储比较好,甚至还会比直接文本文件效果还要好。
三、数据简单处理
1.运用shape()函数观察数据集的大小

2.运用head()函数打印前几行信息
3.计算每一列缺失的数据行数,如果大于总行数的30%,则删去,以此简化数据

4. 函数inplace()的作用是将要去掉的列给改写掉(直接对文件中的列进行修改),节省内存。
(注意,这个操作只能跑一次,第二次的时候列已经被删掉了,不能再次运行了,会报错。)

5.查看一下数据类型

6.把错误的数据类型纠正一下,然后全部转为float类型

7.函数describe()描述一下这个数据,初步判断一下有没有噪音

8.根据实际情况,对数据简单处理一下,删除掉错误的行

四、数据的可视化
1.不同颜色是不同类别,中间的横线表示均值,boxplot可以比较直观的看到不同分布之间的对比。

2.观察每个特征之间的关系(协方差)

2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】相关推荐

  1. 斯坦福2021秋季·实用机器学习【中文】【合集】+1.1课程介绍

    机器学习的流程: 1.把问题变成机器学习的问题.譬如我想让机器人帮我叠衣服,这就不是一个好的机器问题.但是我想让机器帮我把法语翻译成汉语,这就是一个简单的机器问题. 2.收集数据.没有数据怎么训练模型 ...

  2. 斯坦福21秋季:实用机器学习-李沐课程笔记

    课程主页 B站视频 PS:李老师dbq,我尽量将您截的图好看些 1.1 课程介绍 1.2 数据获取

  3. 实用机器学习中文版-1.1课程介绍

    文章目录 1. 课程介绍 2. industrial ML applications AI在工业界的应用 3. challenges 挑战 4. course topics 课程主题 5. summa ...

  4. 实用机器学习——建模前/后处理

    文章目录 实用机器学习 数据处理 数据预处理的部分 数据预处理可视化分析的部分 数据清洗的部分 数据变形的部分 特征工程的部分 评估+调参 评估 调参 超参数优化 实用机器学习(中文版)-李沐:htt ...

  5. 李沐分享斯坦福2021秋季新课:实用机器学习

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 李沐 ...

  6. easyeda,一个简单实用的探索性数据分析工具

    在算法工程师的日常工作中,探索性数据分析(Exploratory Data Analysis)是一种常见的任务.通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据EDA可以帮助算法工程师评估 ...

  7. 斯坦福2019秋季课程CS224W

    点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要5分钟 跟随小博主,每天进步一丢丢 赖可 发自 凹非寺 本文转载自:量子位(QbitAI) 斯坦福201 ...

  8. 探索性数据分析(EDA)-不要问如何,不要问什么

    数据科学 , 机器学习 (Data Science, Machine Learning) This is part 1 in a series of articles guiding the read ...

  9. 数据探索性分析_探索性数据分析

    数据探索性分析 When we hear about Data science or Analytics , the first thing that comes to our mind is Mod ...

最新文章

  1. YOLOv4-5D:一种高效的自动驾驶物体检测器
  2. 3D打印产业化机遇与挑战
  3. Mac OSX 10.9下apache+php+mysql的配置
  4. Qt 自定义动画属性 QPropertyAnimation
  5. 全球与中国汽车电动尾门市场竞争趋势及发展商机分析报告2022-2028年版
  6. laravel+php+支付功能,laravel+微信支付源码
  7. Android开发系列之创建自定义控件
  8. PMP考试技巧(必备)
  9. LeetCode 36. 有效的数独
  10. 结构与表现分离的思想
  11. 小程序模拟器没问题,但在真机上样式错乱,这个要怎么解决?
  12. 由微博图床挂掉之后想到的
  13. 讯飞智能录音笔SR502:支持OCR识别功能的职场礼物
  14. 如何利用嵌入式集成开发工具,让其更好地服务于设计?
  15. 用计算机打出刚好遇见你,【计算机·故事】刚好遇见你 余生都是你
  16. Kerberos在linux安装部署
  17. 前庭电刺激(GVS)的数据分析及在神经康复中的应用
  18. RhinoPython绘制随机大小圆
  19. 线性代数精华2——逆矩阵的推导过程
  20. Object Detection in 20 Years A Survey-论文翻译(阅读笔记)

热门文章

  1. train_dataset = train_dataset.batch(200)中的batch是什么意思
  2. 大数据概念及Hadoop介绍
  3. MFC对话框中的汉字出现问号的解决办法
  4. 基于傅里叶变换的光栅条纹图像Gamma值自标定
  5. JVM之关于GC的扩展知识
  6. 数据的万有引力-帆软数智大会
  7. 网络中节点特征的获取方法
  8. 图书借阅管理系统c语言程序设计,图书管理系统课程设计
  9. 二本浙大计算机考研,二本考研逆袭浙大:宝贵经历送给即将上路的你!
  10. 谷歌Adwords竞价广告效果怎么样?怎么做好Adwords?