2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】
探索性数据分析
本节课以房屋售卖的数据为例,结合代码进行分析。
出处:https://www.bilibili.com/video/BV1Xh411p7M9?spm_id_from=333.999.0.0
参考:https://www.bilibili.com/read/cv13353927?from=note
数据集:https://c.d2l.ai/stanford-cs329p/assignments.html#assignment-1
一、导入相关包
- numpy:python中做数据分析常用的包;
- pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;
- matplotlib.pyplot:源自matlab的画图工具;
- seaborn:基于matplotlib,提供更多的画法。
二、读取数据
csv文件存下来相对比较大,可以先压缩成一个zip,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,这种读取方式在传输存储比较好,甚至还会比直接文本文件效果还要好。
三、数据简单处理
1.运用shape()函数观察数据集的大小
2.运用head()函数打印前几行信息
3.计算每一列缺失的数据行数,如果大于总行数的30%,则删去,以此简化数据
4. 函数inplace()的作用是将要去掉的列给改写掉(直接对文件中的列进行修改),节省内存。
(注意,这个操作只能跑一次,第二次的时候列已经被删掉了,不能再次运行了,会报错。)
5.查看一下数据类型
6.把错误的数据类型纠正一下,然后全部转为float类型
7.函数describe()描述一下这个数据,初步判断一下有没有噪音
8.根据实际情况,对数据简单处理一下,删除掉错误的行
四、数据的可视化
1.不同颜色是不同类别,中间的横线表示均值,boxplot可以比较直观的看到不同分布之间的对比。
2.观察每个特征之间的关系(协方差)
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】相关推荐
- 斯坦福2021秋季·实用机器学习【中文】【合集】+1.1课程介绍
机器学习的流程: 1.把问题变成机器学习的问题.譬如我想让机器人帮我叠衣服,这就不是一个好的机器问题.但是我想让机器帮我把法语翻译成汉语,这就是一个简单的机器问题. 2.收集数据.没有数据怎么训练模型 ...
- 斯坦福21秋季:实用机器学习-李沐课程笔记
课程主页 B站视频 PS:李老师dbq,我尽量将您截的图好看些 1.1 课程介绍 1.2 数据获取
- 实用机器学习中文版-1.1课程介绍
文章目录 1. 课程介绍 2. industrial ML applications AI在工业界的应用 3. challenges 挑战 4. course topics 课程主题 5. summa ...
- 实用机器学习——建模前/后处理
文章目录 实用机器学习 数据处理 数据预处理的部分 数据预处理可视化分析的部分 数据清洗的部分 数据变形的部分 特征工程的部分 评估+调参 评估 调参 超参数优化 实用机器学习(中文版)-李沐:htt ...
- 李沐分享斯坦福2021秋季新课:实用机器学习
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 李沐 ...
- easyeda,一个简单实用的探索性数据分析工具
在算法工程师的日常工作中,探索性数据分析(Exploratory Data Analysis)是一种常见的任务.通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据EDA可以帮助算法工程师评估 ...
- 斯坦福2019秋季课程CS224W
点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要5分钟 跟随小博主,每天进步一丢丢 赖可 发自 凹非寺 本文转载自:量子位(QbitAI) 斯坦福201 ...
- 探索性数据分析(EDA)-不要问如何,不要问什么
数据科学 , 机器学习 (Data Science, Machine Learning) This is part 1 in a series of articles guiding the read ...
- 数据探索性分析_探索性数据分析
数据探索性分析 When we hear about Data science or Analytics , the first thing that comes to our mind is Mod ...
最新文章
- YOLOv4-5D:一种高效的自动驾驶物体检测器
- 3D打印产业化机遇与挑战
- Mac OSX 10.9下apache+php+mysql的配置
- Qt 自定义动画属性 QPropertyAnimation
- 全球与中国汽车电动尾门市场竞争趋势及发展商机分析报告2022-2028年版
- laravel+php+支付功能,laravel+微信支付源码
- Android开发系列之创建自定义控件
- PMP考试技巧(必备)
- LeetCode 36. 有效的数独
- 结构与表现分离的思想
- 小程序模拟器没问题,但在真机上样式错乱,这个要怎么解决?
- 由微博图床挂掉之后想到的
- 讯飞智能录音笔SR502:支持OCR识别功能的职场礼物
- 如何利用嵌入式集成开发工具,让其更好地服务于设计?
- 用计算机打出刚好遇见你,【计算机·故事】刚好遇见你 余生都是你
- Kerberos在linux安装部署
- 前庭电刺激(GVS)的数据分析及在神经康复中的应用
- RhinoPython绘制随机大小圆
- 线性代数精华2——逆矩阵的推导过程
- Object Detection in 20 Years A Survey-论文翻译(阅读笔记)