【数据分析学习】Pandas学习记录
import pandas as pd path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv' with open(path, 'r') as f:data = pd.read_csv(f)print(type(data))print(data.dtypes)print(help(pd.read_csv))
文件操作
print(data.head(3)) print(data.tail(3)) print(data.columns)
查看数据
data.sort_values('Carbohydrt_(g)', inplace=True) print(data['Carbohydrt_(g)']) # print(data) data.sort_values('Carbohydrt_(g)', inplace=True, ascending=False) print(data['Carbohydrt_(g)'])
数据排序
age = t_s['Age'] age_is_null = pd.isnull(age) age_null_true = age[age_is_null] age_null_count = len(age_null_true) print(age_null_count) #---------------------------------------- count_list = [] for i in age:if i != i:count_list.append(i) print(len(count_list))
数据的筛选
mean_age = sum(t_s['Age'])/len(t_s['Age']) print(mean_age) #-------------------------------------------------- good_ages = t_s['Age'][age_is_null==False] correct_mean_age = sum(good_ages)/len(good_ages) print(correct_mean_age) #--------------------------------------------- correct_mean_age = t_s['Age'].mean() print(correct_mean_age)
数据的处理方法(平均数)
passenger_classes = {1, 2, 3} faces_by_class = {} for this_class in passenger_classes:pclass_rows = t_s[t_s['Pclass']==this_class]pclass_fares = pclass_rows['Fare']fare_for_class = pclass_fares.mean()faces_by_class[this_class] = fare_for_class print(faces_by_class) #-------------------------------------------------------- passenger_s = t_s.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean) print(passenger_s) #-------------------------------------------------------- passenger_age = t_s.pivot_table(index='Pclass', values='Age') print(passenger_age) #-------------------------------------------------------- passenger_price = t_s.pivot_table(index='Pclass', values='Fare') print(passenger_price) #-------------------------------------------------------- port_stats = t_s.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum) print(port_stats)
数据透视表
def hundredth_row(column):hundredth_item = column.loc[99]return hundredth_itemhundredth_row = t_r.apply(hundredth_row) print(hundredth_row)
自定义函数
def which_class(row):pclass = row['Pclass']if pd.isnull(pclass):return 'Unknown'elif pclass == 1:return "First Class"elif pclass == 2:return "Second Class"elif pclass == 3:return "Third Class"classes = t_r.apply(which_class, axis=1) print(classes)
自定义函数
import pandas as pd path = r'F:\数据分析专用\数据分析与机器学习\fandango_score_comparison.csv' with open(path, 'r', encoding='utf-8') as f:data = pd.read_csv(f)# print(data.dtypes)series_film = data['FILM']print(type(series_film))series_rt = data['RottenTomatoes']print(series_rt[0:5]) #-------------------------------------------------------------- from pandas import Series film_names = series_film.values print(type(film_names)) rt_scores = series_rt.values series_custom = Series(rt_scores, index=film_names) series_custom[['Minions (2015)', 'Leviathan (2014)']]
Series结构
转载于:https://www.cnblogs.com/pandaboy1123/p/9681966.html
【数据分析学习】Pandas学习记录相关推荐
- 大数据之spark学习记录二: Spark的安装与上手
大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...
- 【数据分析与挖掘】数据分析学习及实践记录 | part 03-matplotlib常用统计图
开新坑啦!之前都是晚上七点以后开始学习,今天上午把matplotlib中文显示的问题解决,就开始刷课了.第三部分开启. 老规矩,先上图 01绘制散点图 开篇老师上手一个一周天气的练习. 我跟着标注的数 ...
- echarts引入geo地图数据,前端学习记录01
最近遇到项目需要使用使用geoJson数据在echarts上进行地图的绘制,仅使用此文记录学习的过程. 首先需要在项目中引入echart相关依赖,在package.json中添加如下依赖: " ...
- python nums函数获取结果记录集有多少行记录_python3 数据挖掘之pandas学习记录(一)-----NumPy...
这几天由于对excel的模块使用及数据分析处理的需求,看了下pandas,分享一下. 1.pandas之numpy 1.1NumPy是Python数值计算最重要的基础包.很多都采用NumPy的数组作为 ...
- Mock数据Mustache语法学习记录
简单记录一下Mock数据运行成功. 1.最基础的HTML+jQuery,如何运行Mock数据 新建一个文件夹,用于存放mock.min.js文件和mustache.min.js文件,(压缩文件) 代码 ...
- 【知识图谱可视化】实体抽取结果预处理,Neo4j数据导入(学习记录)
本篇内容: 实体抽取内容的初步数据处理 (之后会发关于导入neo4j数据库的相关内容) 初始数据:进行实体抽取之后的结果数据↓ (这里方便举例,只拿出了小部分数据.这里解释一下数据含义,最左边是每个旅 ...
- 2020年第二届“长安杯”电子数据取证竞赛--学习记录(参考官方复盘)
导出后直接excel求和,算出来是138408元 由于word写好了wp,所以直接发截图了.即使有官方复盘,还是踩了好多坑啊
- 【Python数据分析学习笔记Day2】(二)数据采集与操作
常用的数据分析文件格式: txt csv json xml xls,xlsx HDF 常用格式的本地数据读写: txt:由字符串组成,每行由EOL(End Of Line)字符隔开,\n 打开文件,注 ...
- 数据分析学习02-numpy
简介 NumPy是Python中科学计算的基础包.它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学.逻辑.形状操作.排序.选择. ...
最新文章
- 使用Kiwi CatTools 实现交换机自动备份
- 通过完整示例来理解如何使用 epoll
- Python 奇技淫巧
- linux进程号函数,linux进程
- JAVA 类加载机制学习笔记
- 用PD进行数据库建模经验总结
- ubuntu vscode通过cmake配置c++和VS2019一样 进行调试
- Mysql优化(出自官方文档) - 第九篇(优化数据库结构篇)
- 博弈的意思_身处博弈时代,我们更要读些历史
- java反射机制面试详解
- java编程环境_java开发环境
- 百度手机输入法 android ctrl,百度手机输入法旧版本
- k8s安装calico网络插件
- c语言把金额转成大写,c语言 把数字转化为大写金额 请问我写的哪里有错误
- 艾里斑大小与像元尺寸的匹配问题
- 当你追求女生时,你们聊些什么?
- SumatraPDF的反向搜索
- qq不能发说说显示服务器错误,qq为什么发送不成word服务器拒绝发送离线请求. - 卡饭网...
- 可以帮助提升程序员高效工作效率的常用小工具推荐
- [云原生专题-18]:容器 - docker自带的集群管理工具swarm - 手工搭建集群服务全过程详细解读
热门文章
- 985程序员4年50万仍被二本学医亲戚酸:学会这3点,才能笑到最后
- VC下Debug 和Release 区别【转】
- 软件测试基础课程学习笔记7---如何撰写测试报告
- 导致jquery.min.map 404 (Not Found)错误的原因
- python123系统基本信息获取_Python运维-获取当前操作系统的各种信息
- jsp 页面刷新_如何应用XML+XSLT+AJAX组合技术实现无刷新数据查询
- 易语言客户端请求http_易语言建立HTTP连接请求源码
- 李迟2021年9月知识总结
- 我的docker随笔34:gitlab服务部署
- ORA-12505,TNS:listener does not currently know of SID given in connect descriptor(不知道的SID)