兄弟姐妹们,盲猜又到了期末写大作业的时候了吧(别问我怎么知道)。

看到这里,你已经为你省下了一大笔时间了!下面的功能绝对省去了你很大一部分的查找时间(千万不能让你的小伙伴们知道)

正题开始(可能看上去有些枯燥,但是实用就完事了!)

1. 随机获取数据索引(可以用于打乱数据
np.random.permutation(len(df))   返回类型为ndarray ,可以用list()或者.tolist()转成列表

2. 自定义数据的索引
df.index = range(df.shape[0])

3. 获取指定索引对应的所有
df.iloc[index_list]   返回类型为DataFrame

4. 获取满足某一条件的数据对应的所有
df[df['course_id']=="课程106"]  其中df['course_id']=="课程106"返回的是一列值为False和True的Series类型数据,当然你也可以用list来进行表示

5. 获取DataFrame指定区间和列区间对应的数据
df.iloc[3:5,2:4]  获取前两行前一列对应的数据  逗号前后也可以用列表来表示df.iloc[[3,4],[2,3]]

6. 对数据按照行进行去重
df.drop_duplicates(index=True)  index参数表示在原有的df类型上进行修改

7. 删除满足指定条件对应数据的
df.drop(index=df[df["course_price"]==0].index,inplace=True)  index表示删除的行对应的索引列表(可迭代对象都可以)

8. 删除有NaN数据的所有行
df.dropna(inplace=True)

9. 统计某一列数据相同值出现的次数
df[colunm_name].value_counts()  返回值为Series可以通过pd.Dataframe(df[colunm_name].value_counts())转为DataFrame

10. 对某个DataFrame对象增加一行数据
df.append(new_df,ignore_index=True)  其中new_df必须也是DataFrame对象,同时列名需要与df对应

11. 增加一列
df[column_name] = data  其中column_name对应新增加字段的列名,data为增加的数据

看到这里也挺不容易的,希望上述内容能真的帮助到你,如果你有数据分析或者其他计算机学习方面的问题,可以向我留言哦!感谢大家的支持。

关于数据清理,你必须知道这些!相关推荐

  1. Python数据清理终极指南(2020版)

    作者 | Lianne & Justin 译者 | 陆离 出品 | AI科技大本营(ID:rgznai100) 一般来说,我们在拟合一个机器学习模型或是统计模型之前,总是要进行数据清理的工作. ...

  2. 独家 | 用于数据清理的顶级R包(附资源)

    作者:Anna Kayfitz,CEO of StrategicDB Corp 翻译:顾宇华 校对:杨光 本文约1700字,建议阅读5分钟. 确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要 ...

  3. 臭名昭著的数据清理和准备问题,如何利用AI完美解决?

    2020-03-18 17:01:00 全文共3299字,预计学习时长10分钟 来源:Pexels 人工智能和深度学习在处理非结构化数据方面表现突出,从自然语言理解和自动知识库构建到图像和视频的分类和 ...

  4. 数据挖掘-数据清理过程

    数据清理-数据清理过程 数据清理过程的第一步是偏差检测(discrepancy detection). 导致偏差的因素有很多,包括: 具有很多可选字段的设计糟糕的输入表单 人为的数据输入错误 有意的错 ...

  5. pandas中drop用法_python进行数据清理之pandas中的drop用法

    好久好久没有更新博客了,之前自学的估计也都忘记差不多了.由于毕业选择从事的行业与自己的兴趣爱好完全两条路,心情也难过了很久,既然入职了就要好好干,仍要保持自己的兴趣,利用业余时间重拾之前的乐趣. 从基 ...

  6. python数据清理的实践总结_Python数据清洗实践

    原标题:Python数据清洗实践 DATA CLEANING WITH PYTHON 作者 | Balogun Omobolaji 翻译 | 酱番梨.祝弟弟基督教 校对 | Pita 审核 | 约翰逊 ...

  7. Spark Streaming揭秘 Day16 数据清理机制

    Spark Streaming揭秘 Day16 数据清理机制 今天主要来讲下Spark的数据清理机制,我们都知道,Spark是运行在jvm上的,虽然jvm本身就有对象的自动回收工作,但是,如果自己不进 ...

  8. 数据清理最终实现了自动化

    苹果 | GOOGLE | 现货 | 其他 (APPLE | GOOGLE | SPOTIFY | OTHERS) Editor's note: The Towards Data Science po ...

  9. 实现klib_使用klib加速数据清理和预处理

    实现klib TL;DRThe klib package provides a number of very easily applicable functions with sensible def ...

  10. uni-app清理缓存数据_数据清理-从哪里开始?

    uni-app清理缓存数据 It turns out that Data Scientists and Data Analysts will spend most of their time on d ...

最新文章

  1. XXL-RPC v1.3.2,分布式服务框架
  2. 虚拟机复制后需要改什么_网站改版后为什么需要每月运营维护?
  3. 使用JNDI+连接池
  4. boost::sort模块float_sort 右移函子排序示例
  5. django 开发中数据库可以怎样优化
  6. C# 中的回车换行符 表示
  7. g4e基础篇#1 为什么要使用版本控制系统
  8. mongodb count 导致不正确的数量(mongodb count 一个坑)
  9. 解决——完美解决Anaconda打开Spyder5报错:link image0 hasn’t been detected!
  10. twitter注册不了_如何阻止Twitter重点阻止不相关的通知
  11. 自然语言处理 朴素贝叶斯文本分类
  12. 读《哈佛大学》纪录片 后感
  13. 计算机二级不能使用快捷键,你不可不知的几个Office2010另类快捷键_计算机二级_Office快捷键_Office考试_课课家...
  14. 惊,面N次都不对:++ 操作不是线程全的
  15. 人工智能药物设计_用AI革新药物安全
  16. 网页设计与网站规划 作业10 NBA总决赛统计表
  17. 【时间之外】2021年这些伪黑科技概念要提防
  18. 致第一次安装RIME的你
  19. 智慧园区综合管理系统的实用案例分析
  20. java策略模式实战

热门文章

  1. session值为空,thymeleaf报错
  2. 2014计算机基础知识试题及答案,2014计算机基础知识试题及答案解析.doc
  3. 经典网页设计:20个简约风格的电子商务网站
  4. 深入浅出 Laravel 路由执行原理
  5. MySQL存储过程语法
  6. 热敏电阻、NTC基本概念
  7. 读《史蒂芬·乔布斯传》有感
  8. 如何在WordPress中为用户设置自定义头像(Gravatar替代)
  9. 安利一个最适合程序员的小众高薪兼职!
  10. MYSQL force index索引优化