Pandas Task1

  • 问题
    • 【问题一】 Series和DataFrame有哪些常见属性和方法?
      • Seires
      • DataFrame
    • 【问题二】 value_counts会统计缺失值吗?
    • 【问题三】 与idxmax和nlargest功能相反的是哪两组函数?
    • 【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。
    • 【问题五】 df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?
  • 练习
    • 【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:
      • (a)在所有的数据中,一共出现了多少人物?
      • (b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?
      • (c)以单词计数,谁说了最多的单词?¶
    • 【练习一】现有一份关于科比的投篮数据集,请解决如下问题:
      • (a)哪种action_type和combined_shot_type的组合是最多的?
      • (b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?

问题

【问题一】 Series和DataFrame有哪些常见属性和方法?

Seires

属性 作用
value 用于查看Seires的值
index 用于查看Seires的索引
name 用于查看Seires的名字

DataFrame

属性 作用
value 用于查看DataFrame的值
index 用于查看DataFrame的索引
name 用于查看DataFrame的名字
column 用于查看DataFrame的列名
T 对DataFrame进行转置

【问题二】 value_counts会统计缺失值吗?

# 修改一下数据
df_test = pd.DataFrame()
df_test = df[['Math', 'School']]
df_test['School'].replace('S_1', np.nan, inplace=True)
df_test['School'].value_counts()


从结果得知value_counts并不会统计缺失值

【问题三】 与idxmax和nlargest功能相反的是哪两组函数?

  idxmin和nsmallest

【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。

函数 作用
sum 求和(默认按行)
mean 求平均值(默认按行)
median 求中值(默认按行)
mad 求平均绝对偏差(默认按行)
min 求最小值(默认按行)
max 求最大值(默认按行)
abs 求绝对值
std 求标准差
var 求方差
quantile 分位数
cumsum 累计求和
cumprod 累乘

【问题五】 df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?

df.mean(axis=1)是按列对df这个DataFrame求平均值,df.mean()实际上就是df.mean(axis=0),是按行求平均值,并不一样。

练习

【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:

(a)在所有的数据中,一共出现了多少人物?

df['Name'].nunique()

结果是564人

(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?

df['Name'].value_counts()

tyrion lannister 1760
jon snow 1133
daenerys targaryen 1048
cersei lannister 1005
jaime lannister 945
sansa stark 784
arya stark 783
davos 528
theon greyjoy 455
petyr baelish 449
bran stark 400
sam 399
bronn 393

tyrion lannister说的最多

(c)以单词计数,谁说了最多的单词?¶

# 检测单词个数
def alpha_len(x):n = 0for i in x:if i.isalpha():n += 1return ndf['Lenth'] = df['Sentence'].apply(lambda x: alpha_len(x))
df.groupby('Name')['Lenth'].sum().sort_values(ascending=False)

ame
tyrion lannister 105005
cersei lannister 58714
daenerys targaryen 48870
jon snow 48196
jaime lannister 47319
sansa stark 32013
petyr baelish 29179
davos 27230
varys 26083
arya stark 25213
tywin lannister 22581
theon greyjoy 19519
sam 18010
jorah mormont 17323
bronn 17083

结果tyrion lannister 说的单词最多

【练习一】现有一份关于科比的投篮数据集,请解决如下问题:

(a)哪种action_type和combined_shot_type的组合是最多的?

df_kb['action_combine'] = df_kb['action_type'] + '_' + df_kb['combined_shot_type']
# df_kb['action_combine'] = df_kb['action_combine'].map(dict(zip(df_kb['action_combine'].unique(), range(0, df_kb['action_combine'].nunique()))))
df_kb['action_combine'].value_counts()

Jump Shot_Jump Shot 18880
Layup Shot_Layup 2567
Driving Layup Shot_Layup 1978
Turnaround Jump Shot_Jump Shot 1057
Fadeaway Jump Shot_Jump Shot 1048
Running Jump Shot_Jump Shot 926
Pullup Jump shot_Jump Shot 476
Turnaround Fadeaway shot_Jump Shot 439

从结果可知Jump Shot_Jump Shot这个组合最多(科比跳投牛逼啊)

(b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?

# 这行代码会报错,出现了一个type类别的错误,但是可以得出结果
df_kb.groupby('game_id')['opponent'].unique().value_counts()
# 经过大佬指点之后,转换成str类型就可以避免报错(2个代码2选1)
# df_kb.groupby('game_id')['opponent'].unique().apply(lambda x: x[0]).value_counts()
df_kb.groupby('game_id')['opponent'].unique().astype('str').value_counts()

[‘SAS’] 91
[‘PHX’] 87
[‘UTA’] 84
[‘DEN’] 83
[‘POR’] 81
[‘SAC’] 80
[‘HOU’] 77
[‘MIN’] 76

对阵最多的马刺队

Pandas Task1相关推荐

  1. 【天池赛事】零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline

    [天池赛事]零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline(3 天) – 学习主题:理解赛题内容解题流程 – 学习内容:赛题理解.数据读取.比赛 baseline 构建 ...

  2. 【算法竞赛学习】气象海洋预测-Task1 气象数据分析常用工具

    气象海洋预测-Task1 气象数据分析常用工具 气象科学中的数据通常包含多个维度,例如本赛题中给出的数据就包含年.月.经度.纬度四个维度,为了便于数据的读取和操作,气象数据通常采用netCDF文件来存 ...

  3. 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task1地理数据分析常用工具

    智慧海洋建设-Task1 地理数据分析常用工具 在地理空间数据分析中,常会用到许多地理分析的工具,在本模块中主要是针对常用的shapely.geopandas.folium.kepler.gl.geo ...

  4. 【算法竞赛学习】二手车交易价格预测-Task1赛题理解

    二手车交易价格预测-Task1 赛题理解 一. 赛题理解 Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后续大家多多交流. 赛 ...

  5. 论文数据统计Task1

    论文数据统计Task1 数据集 具体代码实现 导入所需包 读入数据并查看数据大小 显示数据的前五行 进行数据预处理 查看所有论文的种类 特征处理 筛选数据 数据分析及可视化 心得体会 数据集 链接:数 ...

  6. 头歌 6. Pandas合并数据集

    第1关:Concat与Append操作 import pandas as pddef task1():#********** Begin **********#df1 = pd.read_csv(&q ...

  7. 阿里云天池学习赛-零基础入门数据分析-学术前沿趋势分析(task1)

    阿里云天池学习赛零基础入门数据分析-学术前沿趋势分析 前言 一.赛题描述及数据说明 1:数据集的格式如下: 2:数据集格式举例: 二.task1论文数量统计(数据统计任务):统计2019年全年,计算机 ...

  8. Datawhale7月组队学习task1数据加载及探索性数据分析

    Datawhale7月task1数据加载及探索性数据分析 ​ 有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程 ​ 本系列目标:完成kaggl ...

  9. pandas玩转excel-> (1)如何利用pandas创建excel数据文件

    pandas玩转excel-> (1)如何利用pandas创建excel数据文件 #在Anaconda3 的Spyder中 #定义pandas模块为pd import pandas as pd ...

最新文章

  1. 齐次坐标的理解(1)
  2. 最新!2022中国大学排名发布!
  3. leangoo大讲堂:scrum敏捷开发实战——深圳站
  4. keil 器件是空的,Keil的Device为空,不能选择器件
  5. 推送通知_手机总是收到烦人的推送,教你几招,彻底摆脱无用通知
  6. Springboot的thymeleaf常用属性
  7. 面向Java程序员的20大Spring REST面试问题答案
  8. leetcode Add Digits
  9. 10以内逆向运算题_Z3在逆向中运用
  10. 跳台阶问题详解---动态规划
  11. 火山PC模块使用案例-动态创建多个组件教程
  12. ×××有哪些激光领域杰出的院士?
  13. (MATLAB/C)高斯拟合法求光斑中心
  14. 网关与路由器的区别!!
  15. python数字转中文大写_python 数字转换为大写
  16. Python包下载常用whl文件汇总:最全的Python whl集合
  17. [转载]20世纪十大算法
  18. svn项目的拉取和提交
  19. 某集团公司cisco ASA5520的全配置
  20. 电脑蓝屏和黑屏原因及处理方法

热门文章

  1. 验证“哥德巴赫猜想 - C/C++ 分支与循环
  2. vue3代码检查以及格式化配置
  3. Gradient Descent for one-hidden-layer-function(单隐藏层神经网络的梯度下降)
  4. 算术表达式求值演示(C/C++实现)
  5. 申请公司苹果开发者账号-2020最新
  6. 泰克TBS1000X示波器仪器的使用
  7. 小程序中让后面的View覆盖到上一个view中
  8. SpringBoot序幕——SpringBoot概述及其项目创建
  9. 用计算机时的注意事项,计算机使用注意事项
  10. Odoo 16 企业版手册 - 库存管理之产品类别