Datawhale7月task1数据加载及探索性数据分析

​ 有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程

​ 本系列目标:完成kaggle上泰坦尼克的任务,实战数据分析全流程

​ use machine learning to create a model that predicts which passengers survived the Titanic shipwreck

文章目录

  • Datawhale7月task1数据加载及探索性数据分析
    • 一.数据载入及初步观察
      • 1.载入数据
        • ①导入numpy和pandas
        • ②导入数据集
          • (1)绝对路径载入
          • (2)相对路径载入
            • pd.read_csv()和pd.read_table()
            • 怎样使他们一样呢?指定分隔符,修改sep参数
        • ③每1000行为一个数据模块,逐块读取
          • 逐块读取
        • ④把表头改为中文,索引改为乘客ID
          • 方法一
          • 方法二
          • 方法三
      • 2.初步观察
        • ①查看数据基本信息
          • 方法一
          • 方法二
            • 另:查看缺省值
        • ②观察表格前10行的数据和后15行的数据
        • ③判断数据是否为空,为空的地方返回True,其余地方返回False
      • 3.保存数据
    • 二.pandas基础
      • 1.基本数据类型:DataFrame和Series
        • ①Series
        • ②DataFrame
      • 2.知道你的数据叫什么
        • ①导入"train.csv"文件
        • ②查看DataFrame数据的每列的名称
        • ③查看"Cabin"这列的所有值[多种方法]
        • ④加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
        • ⑤ 将['PassengerId','Name','Age','Ticket']这几个列元素隐藏,只观察其他几个列元素
    • 3.筛选条件
      • ①以"Age"为筛选条件,显示年龄在10岁以下的乘客信息
      • ②以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
      • ③将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
      • ④使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
      • ⑤使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
    • 三.探索性数据分析
      • 1.利用Pandas对示例数据进行排序,要求升序
        • 让行索引升序排序
        • 让列索引升序排序
        • 列索引降序排序
        • 让任选两列数据同时降序排序
      • 2.对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)
      • 3.利用Pandas进行算术计算,计算两个DataFrame数据相加结果
      • 4.通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
      • 5.学会使用Pandas describe()函数查看数据基本统计信息
      • 6.分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据,你能发现什么?
    • 四.遇到的问题
      • 1.注册Kaggle账号
      • 2.下载数据集
        • CSV文件
      • 3.jupyter中切换工作目录
      • 4.逐块读取数据那里
      • 5.排序
      • 6.为什么我这么菜

一.数据载入及初步观察

1.载入数据

①导入numpy和pandas

import numpy as np
import pandas as pd

②导入数据集

os 模块提供了非常丰富的方法用来处理文件和目录

os.getcwd() 方法可用于返回当前工作目录,可为路径的载入提供便捷的参考

import os
os.getcwd()

运行结果

查看当前路径还可用魔法方法%pwd

​ 关于魔法方法,后文遇到的问题 3. 那里有总结

(1)绝对路径载入

​ 在文件右键属性那里复制过来的路径是C:\Users\86171\Desktop\最近的都在这\datawhale\hands-on-data-analysis-master\第一单元项目集合\test_1.csv

​ 然而直接用这个路径会报错

df = pd.read_csv('C:\Users\86171\Desktop\最近的都在这\datawhale\hands-on-data-analysis-master\第一单元项目集合\test_1.csv')

\改为\\/

Datawhale7月组队学习task1数据加载及探索性数据分析相关推荐

  1. 泰坦尼克号-数据加载及探索性数据分析

    数据加载及探索性数据分析 这部分内容主要分:数据加载.Pandas基础.探索性数据分析. 1.导入numpy.pandas及查看python版本 import pandas as pd import ...

  2. 动手学数据分析(一)- 数据加载及探索性数据分析

    1 初心 本系列笔记用于记录自己第一次参加Datawhale的组队学习.自己马上开启研究生学习生涯,因此熟练掌握数据分析这一重要技能对未来的学习能够提供很大的帮助,Datawhale团队在项目初衷里说 ...

  3. Task01 数据加载及探索性数据分析

    文章目录 前言 1. 第一章:数据载入及初步观察 1.1 载入数据 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块 ...

  4. Datawhale7月组队学习task4数据可视化

    Datawhale7月task4数据可视化 准备工作 **复习:**回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的 ...

  5. 动手学数据分析task01 数据加载及探索性数据分析(笔记)

    一.数据载入及初步观察 1. 载入数据 1.1 打开JupyterLab 导入numpy.pandas 1.2 使用绝对路径.相对路径载入数据 首先,使用path1=os.path.abspath(' ...

  6. pandas数据加载与存储

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.pandas是什么? 二.数据加载与存储 1.引入库 2.读入数据 2.1 读取Excel文件 2.2 读取 tx ...

  7. 深度学习(18)神经网络与全连接层一: 数据加载

    深度学习(18)神经网络与全连接层一: 数据加载 1. 常用数据集 2. MNIST数据集 (1) MNIST样本 (2) MNIST加载案例 3. CIFAR10/100 (1) CIFAR10/1 ...

  8. 【从零开始学习YOLOv3】3. YOLOv3的数据加载机制和增强方法

    前言:本文主要讲YOLOv3中数据加载部分,主要解析的代码在utils/datasets.py文件中.通过对数据组织.加载.处理部分代码进行解读,能帮助我们更快地理解YOLOv3所要求的数据输出要求, ...

  9. 【深度学习-数据加载优化-训练速度提升一倍】

    1,介绍 数据加载 深度学习的训练,简单的说就是将数据切分成batch,丢入模型中,并计算loss训练.其中比较重要的一环是数据打batch部分(数据加载部分). 训练时间优化: 深度学习训练往往需要 ...

最新文章

  1. 用python绘图_用python绘图
  2. Nmap扫描教程之DNS服务类
  3. Linux内核--异常和中断的区别
  4. facade 模式和gateway模式的区别
  5. python相关参考文献_python机器学习理论与实战(六)支持向量机
  6. ArrayList构造方法详解-给默认长度的方式
  7. Tensorflow Summary: 查看Tensorflow Model pb格式模型的信息
  8. Python定时任务调度——APScheduler
  9. python分段函数图像画法_我想用Python matplotlib 画一个这样类似的图像,需要用到分段函数。大佬帮帮这个小弟?...
  10. mysql my includedir_MySQL:读取my.cnf的顺序问题
  11. Spring框架学习(二)
  12. XMPP的简介和基本概念
  13. 通过自定义Module实现URl重写和登陆验证
  14. python网页制作web_python web麻瓜编程
  15. 国内高速下载Google Drive资源
  16. c语言自定义函数运用,C语言自定义函数(图文详解)
  17. luogu P1069 细胞分裂
  18. 啡鸟集咖啡报告:每天喝3-4杯咖啡有助延年益寿
  19. fortran 和 java_JNA实现Java调用Fortran
  20. 【C++】多线程同步

热门文章

  1. 如何登录Tencent QQ
  2. python彩票分析_128期老铁大乐透预测奖号:大中小码分析
  3. c++多线程 CMakeLists设置
  4. TCP协议基于计时器的重传策略模拟实战
  5. 2019年熔化焊接与热切割作业安全生产模拟考试题库及答案
  6. 阿里云APP备案操作流程 新手看过来
  7. 人工智能之父 艾伦·图灵 —— 我在战争中才华横溢,却在和平中寸步难行
  8. [C]二维数组的初始化规则
  9. linux系统装fluent没有界面,linux系统下安装fluent
  10. 平行四边形法则的感悟