import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv'
with open(path, 'r') as f:data = pd.read_csv(f)print(type(data))print(data.dtypes)print(help(pd.read_csv))

文件操作

print(data.head(3))
print(data.tail(3))
print(data.columns)

查看数据

data.sort_values('Carbohydrt_(g)', inplace=True)
print(data['Carbohydrt_(g)'])
# print(data)
data.sort_values('Carbohydrt_(g)', inplace=True, ascending=False)
print(data['Carbohydrt_(g)'])

数据排序

age = t_s['Age']
age_is_null = pd.isnull(age)
age_null_true = age[age_is_null]
age_null_count = len(age_null_true)
print(age_null_count)
#----------------------------------------
count_list = []
for i in age:if i != i:count_list.append(i)
print(len(count_list))

数据的筛选

mean_age = sum(t_s['Age'])/len(t_s['Age'])
print(mean_age)
#--------------------------------------------------
good_ages = t_s['Age'][age_is_null==False]
correct_mean_age = sum(good_ages)/len(good_ages)
print(correct_mean_age)
#---------------------------------------------
correct_mean_age = t_s['Age'].mean()
print(correct_mean_age)

数据的处理方法(平均数)

passenger_classes = {1, 2, 3}
faces_by_class = {}
for this_class in passenger_classes:pclass_rows = t_s[t_s['Pclass']==this_class]pclass_fares = pclass_rows['Fare']fare_for_class = pclass_fares.mean()faces_by_class[this_class] = fare_for_class
print(faces_by_class)
#--------------------------------------------------------
passenger_s = t_s.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean)
print(passenger_s)
#--------------------------------------------------------
passenger_age = t_s.pivot_table(index='Pclass', values='Age')
print(passenger_age)
#--------------------------------------------------------
passenger_price = t_s.pivot_table(index='Pclass', values='Fare')
print(passenger_price)
#--------------------------------------------------------
port_stats = t_s.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum)
print(port_stats)

数据透视表


def hundredth_row(column):hundredth_item = column.loc[99]return hundredth_itemhundredth_row = t_r.apply(hundredth_row)
print(hundredth_row)

自定义函数

def which_class(row):pclass = row['Pclass']if pd.isnull(pclass):return 'Unknown'elif pclass == 1:return "First Class"elif pclass == 2:return "Second Class"elif pclass == 3:return "Third Class"classes = t_r.apply(which_class, axis=1)
print(classes)

自定义函数


import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\fandango_score_comparison.csv'
with open(path, 'r', encoding='utf-8') as f:data = pd.read_csv(f)# print(data.dtypes)series_film = data['FILM']print(type(series_film))series_rt = data['RottenTomatoes']print(series_rt[0:5])
#--------------------------------------------------------------
from pandas import Series
film_names = series_film.values
print(type(film_names))
rt_scores = series_rt.values
series_custom = Series(rt_scores, index=film_names)
series_custom[['Minions (2015)', 'Leviathan (2014)']]

Series结构

转载于:https://www.cnblogs.com/pandaboy1123/p/9681966.html

【数据分析学习】Pandas学习记录相关推荐

  1. 大数据之spark学习记录二: Spark的安装与上手

    大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...

  2. 【数据分析与挖掘】数据分析学习及实践记录 | part 03-matplotlib常用统计图

    开新坑啦!之前都是晚上七点以后开始学习,今天上午把matplotlib中文显示的问题解决,就开始刷课了.第三部分开启. 老规矩,先上图 01绘制散点图 开篇老师上手一个一周天气的练习. 我跟着标注的数 ...

  3. echarts引入geo地图数据,前端学习记录01

    最近遇到项目需要使用使用geoJson数据在echarts上进行地图的绘制,仅使用此文记录学习的过程. 首先需要在项目中引入echart相关依赖,在package.json中添加如下依赖: " ...

  4. python nums函数获取结果记录集有多少行记录_python3 数据挖掘之pandas学习记录(一)-----NumPy...

    这几天由于对excel的模块使用及数据分析处理的需求,看了下pandas,分享一下. 1.pandas之numpy 1.1NumPy是Python数值计算最重要的基础包.很多都采用NumPy的数组作为 ...

  5. Mock数据Mustache语法学习记录

    简单记录一下Mock数据运行成功. 1.最基础的HTML+jQuery,如何运行Mock数据 新建一个文件夹,用于存放mock.min.js文件和mustache.min.js文件,(压缩文件) 代码 ...

  6. 【知识图谱可视化】实体抽取结果预处理,Neo4j数据导入(学习记录)

    本篇内容: 实体抽取内容的初步数据处理 (之后会发关于导入neo4j数据库的相关内容) 初始数据:进行实体抽取之后的结果数据↓ (这里方便举例,只拿出了小部分数据.这里解释一下数据含义,最左边是每个旅 ...

  7. 2020年第二届“长安杯”电子数据取证竞赛--学习记录(参考官方复盘)

        导出后直接excel求和,算出来是138408元   由于word写好了wp,所以直接发截图了.即使有官方复盘,还是踩了好多坑啊

  8. 【Python数据分析学习笔记Day2】(二)数据采集与操作

    常用的数据分析文件格式: txt csv json xml xls,xlsx HDF 常用格式的本地数据读写: txt:由字符串组成,每行由EOL(End Of Line)字符隔开,\n 打开文件,注 ...

  9. 数据分析学习02-numpy

    简介 NumPy是Python中科学计算的基础包.它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学.逻辑.形状操作.排序.选择. ...

最新文章

  1. 使用Kiwi CatTools 实现交换机自动备份
  2. 通过完整示例来理解如何使用 epoll
  3. Python 奇技淫巧
  4. linux进程号函数,linux进程
  5. JAVA 类加载机制学习笔记
  6. 用PD进行数据库建模经验总结
  7. ubuntu vscode通过cmake配置c++和VS2019一样 进行调试
  8. Mysql优化(出自官方文档) - 第九篇(优化数据库结构篇)
  9. 博弈的意思_身处博弈时代,我们更要读些历史
  10. java反射机制面试详解
  11. java编程环境_java开发环境
  12. 百度手机输入法 android ctrl,百度手机输入法旧版本
  13. k8s安装calico网络插件
  14. c语言把金额转成大写,c语言 把数字转化为大写金额 请问我写的哪里有错误
  15. 艾里斑大小与像元尺寸的匹配问题
  16. 当你追求女生时,你们聊些什么?
  17. SumatraPDF的反向搜索
  18. qq不能发说说显示服务器错误,qq为什么发送不成word服务器拒绝发送离线请求. - 卡饭网...
  19. 可以帮助提升程序员高效工作效率的常用小工具推荐
  20. [云原生专题-18]:容器 - docker自带的集群管理工具swarm - 手工搭建集群服务全过程详细解读

热门文章

  1. 985程序员4年50万仍被二本学医亲戚酸:学会这3点,才能笑到最后
  2. VC下Debug 和Release 区别【转】
  3. 软件测试基础课程学习笔记7---如何撰写测试报告
  4. 导致jquery.min.map 404 (Not Found)错误的原因
  5. python123系统基本信息获取_Python运维-获取当前操作系统的各种信息
  6. jsp 页面刷新_如何应用XML+XSLT+AJAX组合技术实现无刷新数据查询
  7. 易语言客户端请求http_易语言建立HTTP连接请求源码
  8. 李迟2021年9月知识总结
  9. 我的docker随笔34:gitlab服务部署
  10. ORA-12505,TNS:listener does not currently know of SID given in connect descriptor(不知道的SID)