Pandas系列(四)数据统计函数
文章目录
- 数据处理
- 汇总类统计
- 唯一去重和按值计数
- 唯一性去重
- 按值计数
- 相关系数和协方差
本节主要介绍pandas
中数据之间的一些统计相关性:
数据处理
与之前类似,在拿到数据之后,先对数据进行一个初步的处理,采用.str.replace("℃", "").astype('int32')
方法将温度转为int
类型数据:
汇总类统计
df.describe()
方法提取所有数字列的统计结果:
同样可以查看单个Series
的统计数据,像均值,最大值,最小值等:
df.count()
可以统计每一列的个数。
唯一去重和按值计数
对于唯一去重和按值计数一般不用于数值列,而是枚举、分类列。主要是统计数据中大概的种类以及数量:
唯一性去重
.unique()
方法统计唯一性:
按值计数
.value_counts()
方法统计按值计数:
相关系数和协方差
协方差:衡量同向反向程度,如果协方差为正,说明
X
,Y
同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X
,Y
反向运动,协方差越小说明反向程度越高。相关系数:衡量相似度程度,当他们的相关系数为
1
时,说明两个变量变化时的正向相似度最大,当相关系数为-1
时,说明两个变量变化的反向相似度最大。
df.cov()
方法查看协方差矩阵,df.corr()
方法查看相关系数矩阵。
也可以查看单独两列的相关系数:
Pandas系列(四)数据统计函数相关推荐
- hive 如果表不存在则创建_从零开始学习大数据系列(四十七) Hive中数据的加载与导出...
[本文大约1400字,阅读时间5~10分钟] 在<从零开始学习大数据系列(三十八) Hive中的数据库和表>和<从零开始学习大数据系列(四十二)Hive中的分区>文章中,我们已 ...
- 机器学习、数据科学与金融行业 系列四:智能投顾、量化投资与机器学习
机器学习.数据科学与金融行业 系列四:智能投顾.量化投资与机器学习 难点不在于没有新思维,而在于无法摆脱陈旧思想的束缚.-- 巴菲特 历史不会重演,但却有韵律.-- 马克吐温 我可以计算出天体的运动和 ...
- pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据
作者:Paul 编者按: pandas提供了很多常用的数学和统计方法,本文中将用十分详细的例子来具体进行介绍:另外在许多数据分析工作中,缺失数据是经常发生的,将会具体介绍如何处理缺失数据.本文十分详细 ...
- Python 数据分析三剑客之 Pandas(四):函数应用、映射、排序和层级索引
CSDN 课程推荐:<迈向数据科学家:带你玩转Python数据分析>,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员:已出版<跟老齐学Python ...
- Pandas系列(五):可视化绘图
Pandas系列目录 文章目录 一. 简介 二. 思维导图 三. Pandas可视化绘图 1. Pandas绘图基本方法 2. plot模块 2.1 简单图表 2.1.1 绘图函数 2.1.2 进阶用 ...
- Pandas 10-时序数据
Pandas 10-时序数据 import numpy as np import pandas as pd 一.时序中的基本对象 时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以 ...
- Pandas系列教程:盛大开篇了!
前段时间,我已经在公众号为大家分享了Python数据分析 "三剑客" 之Numpy的系列文章 ,受到了好多朋友的赞赏.这里在正式讲述Pandas之前,先带着大家回顾一下10篇Num ...
- 数据分析系列之数据探索
根据观测,调查收集到的初步的样本数据集后,接下来要考虑的是样本的数据集的数量和质量是否满足模型构建的要求 ,是否出现从未设想过的数据状态?其中有什么明显的规律趋势,各因素之间有什么关联性?通过检验数据 ...
- pandas数据分析之数据运算(逻辑运算、算术运算、统计运算、自定义运算)
数据分析离不开数据运算,在介绍完pandas的数据加载.排序和排名.数据清洗之后,本文通过实例来介绍pandas的常用数据运算,包括逻辑运算.算术运算.统计运算及自定义运算. 一.逻辑运算 逻辑运算是 ...
- Pandas 常用函数 数据整理与清洗
当有一定数据积累时,可以对数据进行较为详细的分析,数据处理一般分为三个阶段:数据整理与清洗.数据分析与建模.数据可视化与制表,其中Pandas 是处理数据最常用的工具. 文章目录 0.数据结构 1.读 ...
最新文章
- 数字化?智能化?中国企业智能制造现状究竟如何 李炳积 工信头条 昨天
- android 连接服务器
- MKNetWorkKit打印URL
- python面试题库——3数据库和缓存
- 哪些才是对女朋友的有效关心,来学习一下~
- suse系统_据传 SUSE 将进行 IPO,高达 60 亿美元 | 新闻拍一拍
- vscode使用相关配置
- 【渝粤教育】国家开放大学2018年春季 7406-22T金融统计分析 参考试题
- Microsoft TTS(Text To Speech)语音包的简单应用
- python基础视频课件
- 3D建模软件有哪些?
- openg离线包_OpenGL离线渲染和缓冲区对象
- 第2期:大数据岗位有哪些
- __init__() takes 1 positional argument but 5 positional arguments (and 1 keyword-only argument) were
- 暴雪每周服务器维护时间,每周维护解读
- 热风枪的温度设置(与焊锡有无含铅有关)和使用注意
- 基于docker 搭建mysql8.0主从复制
- app发布前要做的几件事
- arcgis android 天地图,Arcgis runtime for Android 100.5 加载天地图
- c++ 入门(自学过程)
热门文章
- 隐马尔可夫模型HMM[转载牛人,看了半天没看懂]
- java常问算法题_Java面试中经常问到的算法题
- bond的主备模式_生产环境中Linux bonding 主备模式slave网卡切换的方法
- OSI参考模型(1)
- Leetcode 刷题笔记(十八) —— 二叉树篇之二叉搜索树的修改与构造
- 抓包神器之Charles,常用功能都在这里了
- 缓存系列文章–无底洞问题
- 用iostat对linux硬盘IO性能进行检测
- corosynclib+drbd+mysql组合应用
- 中国现代远程与继续教育网 统考 大学英语(B)考试大纲