数据科学家的日常工作涉及各种任务,例如数据预处理、数据分析、机器学习模型创建、模型部署。

如果您开始成为数据科学家的旅程,那么第一步就是掌握数据操作的技能,因为几乎每个数据科学项目都需要它。数据操作从读取您的数据并将其转换为您可以从数据中回答您的问题的形式开始。Python 编程语言具有为数据操作和数据分析工作编写的Pandas 库。

在这篇博客中,我将概述每个有抱负的数据科学家都应该知道的 10 大 Python(Pandas)操作:

1、阅读数据集:数据是每个分析的组成部分。了解如何从不同的文件格式(例如:csv、excel、文本等)读取数据是您作为数据科学家应该擅长的第一步。下面是如何使用 pandas 读取包含 Covid-19 数据的 csv 文件的示例。

import pandas as pd
countries_df = pd.read_csv(‘C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_data.csv’)

查看数据框的前 5 行

countries_df.head()
以下是 countries_df.head() 的输出,我们可以使用它查看数据框的前 5 行:

数据框的前 5 行

  1. 汇总统计:一旦您阅读了数据集,下一步就是通过查看NewConfirmed、TotalConfirmed等数字列的计数、均值、标准差(std)、第25个百分位数等数据汇总来了解数据等以及国家,国家代码等分类列的频率,最高出现值等。

使用 describe 函数,我们可以得到数据集连续变量的摘要,如下所示:

countries_df.describe()

在 describe 函数中,我们可以设置参数“include = ‘all’”来获取连续变量和分类变量的摘要。

countries_df.describe(include = ‘all’)

想深入了解用于数据分析的 python 吗?您可以按照官方 python 文档进行操作,也可以注册我的cda网校课程。ps:https://edu.cda.cn/goods/show/365?targetId=1307&preview=0

  1. 数据选择和过滤:分析不需要数据集的所有行和列。您需要选择感兴趣的列并根据您要回答的问题过滤一些行。

例如,我们可以使用以下代码选择 Country 和 NewConfirmed 列:

countries_df[[‘Country’,‘NewConfirmed’]]

我们还可以将美国的数据过滤为国家。使用 loc,我们可以根据一些值过滤列,如下所示:

countries_df.loc[countries_df[‘Country’] == ‘United States of America’]

  1. 聚合:在不同的变量分组中查找数字汇总,例如计数、总和、均值等是数据聚合。这是数据科学家最常执行的任务之一。

我们可以使用聚合找到各国的 NewConfimed 病例总数。使用 groupby 和 agg 函数执行聚合。在 groupby 函数中,我们提供了要执行聚合的级别(Country 列),在聚合函数中,我们提供了要对列执行的列名(NewConfirmed)和数学运算(sum)。

countries_df.groupby([‘Country’]).agg({‘NewConfirmed’:‘sum’})

  1. Join :使用 Join 操作将 2 个数据集组合成一个数据集。很多时候,不同的数据集中存在不同的信息,例如,一个数据集可能包含不同国家/地区的 Covid-19 病例数,另一个数据集可能包含不同国家/地区的纬度和经度信息。现在,如果我们需要结合这两个信息,那么我们可以执行如下所示的连接操作:

countries_lat_lon = pd.read_excel(‘C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_lat_lon.xlsx’)
两个表链接 : countries_df 和 countries_lat_lon
示例 : pd.merge(left_df, right_df, on = ‘on_column’, how = ‘type_of_join’)
joined_df = pd.merge(countries_df, countries_lat_lon, on = ‘CountryCode’, how = ‘inner’)
joined_df

  1. 内置函数 :了解数学内置函数,如 min()、max()、mean()、sum() 等,对于执行不同的分析非常有帮助。我们可以通过调用它们直接在数据帧上应用这些函数。这些函数可以在列上或在聚合函数中独立使用,如下所示:

countries_df[‘NewConfirmed’].sum()
#Output : 6,631,899

countries_df.groupby([‘Country’]).agg({‘NewConfirmed’:‘sum’})
Output
NewConfirmed
#Country
#Afghanistan 75
#Albania 168
#Algeria 247
#Andorra 0
#Angola 53
7. 用户自定义函数 :我们自己编写的函数是用户自定义函数。我们可以在需要时通过调用该函数来执行这些函数中的代码。例如,我们可以创建一个函数来添加 2 个数字,如下所示:

def addition(num1, num2):
return num1+num2

print(addition(1,2))
#output : 3
8. Pivot:Pivot 是将一列行内的唯一值转换为多个新列。这是先进的数据处理技术。在 Covid-19 数据集上使用 pivot_table() 函数,我们可以将国家名称转换为单独的新列:

pivot_df = pd.pivot_table(countries_df, columns = ‘Country’, values = ‘NewConfirmed’)
pivot_df

9.遍历数据框:很多时候需要遍历数据框的索引和行。我们可以使用 iterrows 函数遍历数据框:

for index, row in countries_df.iterrows():
print('Index is ’ + str(index))
print('Country is '+ str(row[‘Country’]))

Output :
Index is 0
Country is Afghanistan
Index is 1
Country is Albania

10. 字符串操作:很多时候我们处理数据集中的字符串列,在这种情况下,了解一些基本的字符串操作很重要,例如如何将字符串转换为大写、小写以及如何查找字符串的长度在一列中。

countries_df[‘Country_upper’] = countries_df[‘Country’].str.upper()
countries_df[‘CountryCode_lower’]=countries_df[‘CountryCode’].str.lower()
countries_df[‘len’] = countries_df[‘Country’].str.len()
countries_df.head()

知道如何执行这 10 项操作将满足您近 70% 的数据操作需求。最后,如果你想学习更多关于数据分析的内容,你可以点击下方地址:https://edu.cda.cn/course/explore/cda_public?orderBy=recommendedSeq

10个常用于数据分析的python方法相关推荐

  1. 常用的数据分析图表及方法介绍

    也许你是一位管理客户的负责人,当你看到客户响应率降低,你想知道原因:也许你是一家公司的营销经理,当你看到注册数量下降,你想确定哪个指标出现问题.无论出现什么问题,找出导致问题的原因以及如何解决问题现在 ...

  2. 常用的数据分析图表及方法介绍 1

    也许你是一位管理客户的负责人,当你看到客户响应率降低,你想知道原因:也许你是一家公司的营销经理,当你看到注册数量下降,你想确定哪个指标出现问题.无论出现什么问题,找出导致问题的原因以及如何解决问题现在 ...

  3. 10个常用破解网络密码的方法

    本文来自互联网,和大家共同分享. 个人网络密码安全是整个网络安全的一个重要环节,如果个人密码遭到黑客破解,将引起非常严重的后果,例如网络银行的存款被转账盗用,网络游戏内的装备或者财产被盗,QQ币被盗用 ...

  4. 10种常用降维算法源代码(python)

    最近发现一位同学整理了一些经典的降维算法,并用python实现常见降维算法的代码,特此推荐.作者:超爱学习 代码的github: https://github.com/heucoder/dimensi ...

  5. 10个常用的数据分析商业模型之漏斗模型(六)

    营销漏斗模型常用于营销过程.是将非潜在客户逐步变为客户的转化量化模型.营销漏斗模型的价值在于量化了营销过程各个环节的效率,帮助找到薄弱环节. 也就是说营销的环节指的是从获取用户到最终转化成购买这整个流 ...

  6. 10个常用的数据分析商业模型之价值链分析模型(三)

    价值链模型最早是由波特提出的.波特认为企业的竞争优势来源于企业在设计.生产.营销.交货等过程及辅助过程中所进行的许多相互分离的活动, 设计任何产业内竞争的各种基本活动有五种类型: 内部后勤:与接收.存 ...

  7. 10个常用的数据分析商业模型之SCP分析模型(二)

    SCP分析模型主要用于分析行业者企业受到外部冲击时,企业的战略调整及行为变化. SCP模型从特定行业结构.企业行为和经营绩效三个角度来分析外部冲击的影响. 1.行业结构:主要是指外部各种环境的变化对企 ...

  8. 10个常用的数据分析商业模型之产品ABC分类模型(八)

    ABC分类模型又称帕累托分析法,主要用于分清产品对象的主次,分为A,B,C三类. 一般地,会用在产品分类上,去测量并构建ABC模型.比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些S ...

  9. 10个常用的数据分析商业模型之杜邦分析模型平衡计分卡(十)

    企业在对经营情况进行分析时,大多主要利用财务报表数字通过财务指标计算反映其盈利能力.营运能力.财务风险.股东回报水平等,其中最有代表性的应属杜邦分析模型. 杜邦分析模型,是通过对净资产收益率的分解,从 ...

最新文章

  1. 贴现率 vs 折现率
  2. 【Rollo的Python之路】Python 同步条件 学习笔记 Event
  3. [开发笔记]-winfom ListBox控件选中项上下移动排序
  4. [NewLife.XCode]高级增删改
  5. [windows phone 7 ]查看已安装程序GUID
  6. python多项式求导_Python求离散序列导数的示例
  7. 茶 —— 一片树叶的故事(茶叶的品类)
  8. 【论文阅读】Table-to-text Generation by Structure-aware Seq2seq Learning
  9. 关于LAMP配置Let’s Encrypt SSL证书
  10. S实现控制图片显示大小的方法【图片等比例缩放功能】
  11. parsley.js自定义验证规则之大小写
  12. c语言邻接表存储拓扑排序,拓扑排序(完整案列及C语言完整代码实现)
  13. 软件测试qtp教程,QTP功能测试教程 - zero点 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  14. matlab句柄无效怎么解决,新编MATLABSimulink自学一本通第21章 MATLAB程序编译.ppt
  15. 无线鼠标没反应怎么办
  16. (3.8)一个按键所能涉及的:内核按键标准驱动gpio-keys
  17. [kotlin]人工智能对话程序
  18. 超时锁定计算机,Win10电脑设置锁定屏幕超时怎么办
  19. 初级——如何进行Android单元测试
  20. 仿慕课网Android端app——慕课Ime(自写服务器接口)

热门文章

  1. 教你如何辨别苹果真假配件
  2. 【社区图书馆】《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革》
  3. Eclipse p2是什么
  4. SVM原理及代码实现(学习笔记)
  5. 剑指offer 66道题目java实现全部代码
  6. String的split方法的使用
  7. (附源码)计算机毕业设计ssm成都美食交流平台
  8. 技术选型解决方案之腾讯云TDSQL数据库实战
  9. PTPD2源码解析之:packet的接收和发送
  10. vue2.0 + 极验验证