献词 iii

序 iv

前言 v

致谢 xi

关于作者 xiv

第 一部分 简介 1

第 1章 Pandas DataFrame基础知识 2

1.1 简介 2

1.2 加载数据集 3

1.3 查看列、行、单元格 5

1.3.1 取列子集 6

1.3.2 取行子集 7

1.3.3 混合 11

1.4 分组和聚合计算 16

1.4.1 分组方式 17

1.4.2 分组频率计数 21

1.5 基本绘图 21

1.6 小结 22

第 2章 Pandas数据结构 23

2.1 简介 23

2.2 创建数据 24

2.2.1 创建Series 24

2.2.2 创建DataFrame 25

2.3 Series 26

2.3.1 类似于ndarray的Series 27

2.3.2 布尔子集:Series 29

2.3.3 操作自动对齐和向量化(广播) 31

2.4 DataFrame 34

2.4.1 布尔子集:DataFrame 34

2.4.2 操作自动对齐和向量化(广播) 35

2.5 更改Series和DataFrame 36

2.5.1 添加列 36

2.5.2 直接更改列 37

2.5.3 删除值 39

2.6 导出和导入数据 40

2.6.1 保存数据 40

2.6.2 CSV 42

2.6.3 Excel 42

2.6.4 feather文件格式 43

2.6.5 其他数据输出格式 43

2.7 小结 44

第3章 绘图入门 45

3.1 简介 45

3.2 matplotlib 46

3.3 使用matplotlib绘制统计图 51

3.3.1 单变量 52

3.3.2 双变量 53

3.3.3 多变量数据 54

3.4 seaborn 56

3.4.1 单变量 56

3.4.2 双变量数据 59

3.4.3 多变量数据 67

3.5 Pandas对象 75

3.5.1 直方图 75

3.5.2 密度图 76

3.5.3 散点图 77

3.5.4 蜂巢图 77

3.5.5 箱线图 79

3.6 seaborn主题和样式 79

3.7 小结 81

第二部分 数据处理 83

第4章 数据组合 84

4.1 简介 84

4.2 整理数据 84

4.3 连接 85

4.3.1 添加行 85

4.3.2 添加列 89

4.3.3 不同索引下的连接操作 90

4.4 合并多个数据集 93

4.4.1 一对一合并 94

4.4.2 多对一合并 95

4.4.3 多对多合并 95

4.5 小结 97

第5章 缺失数据 98

5.1 简介 98

5.2 何为NaN值 98

5.3 缺失值从何而来 100

5.3.1 加载数据 100

5.3.2 合并数据 101

5.3.3 用户输入值 103

5.3.4 重建索引 103

5.4 处理缺失数据 105

5.4.1 查找和统计缺失数据 105

5.4.2 清理缺失数据 106

5.4.3 缺失值计算 109

5.5 小结 110

第6章 整理数据 111

6.1 简介 111

6.2 包含值而非变量的列 112

6.2.1 固定一列 112

6.2.2 固定多列 114

6.3 包含多个变量的列 115

6.3.1 单独拆分和添加列(简单方法) 116

6.3.2 在单个步骤中进行拆分和组合(简单方法) 118

6.3.3 在单个步骤中进行拆分和组合(复杂方法) 118

6.4 行与列中的变量 119

6.5 一张表中多个观测单元(归一化) 121

6.6 跨多张表的观测单元 123

6.6.1 使用循环加载多个文件 125

6.6.2 使用列表推导加载多个文件 126

6.7 小结 127

第三部分 数据整理 129

第7章 数据类型 130

7.1 简介 130

7.2 数据类型 130

7.3 类型转换 131

7.3.1 转换为字符串对象 131

7.3.2 转换为数值类型 132

7.4 分类数据 136

7.4.1 转换为category类型 137

7.4.2 操作分类数据 137

7.5 小结 138

第8章 字符串和文本数据 139

8.1 简介 139

8.2 字符串 139

8.2.1 取子串和字符串切片 139

8.2.2 获取字符串的最后一个字符 141

8.3 字符串方法 143

8.4 更多字符串方法 144

8.4.1 join方法 144

8.4.2 splitlines方法 144

8.5 字符串格式化 145

8.5.1 自定义字符串格式 146

8.5.2 格式化字符串 146

8.5.3 格式化数字 146

8.5.4 C printf格式化风格 147

8.5.5 Python 3.6 中的格式化字符串 148

8.6 正则表达式 148

8.6.1 匹配模式 149

8.6.2 查找模式 152

8.6.3 模式替代 152

8.6.4 编译模式 153

8.7 regex库 154

8.8 小结 154

第9章 应用 155

9.1 简介 155

9.2 函数 155

9.3 使用函数 156

9.3.1 Series的apply方法 157

9.3.2 DataFrame的apply方法 158

9.4 apply高级用法 160

9.4.1 按列应用 162

9.4.2 按行应用 164

9.5 向量化函数 166

9.5.1 使用NumPy 167

9.5.2 使用numba 168

9.6 lambda函数 168

9.7 小结 170

第 10章 分组操作:分割-应用-组合 171

10.1 简介 171

10.2 聚合 171

10.2.1 基本的单变量分组聚合 172

10.2.2 Pandas内置的聚合方法 173

10.2.3 聚合函数 174

10.2.4 同时传入多个函数 176

10.2.5 在agg aggregate中使用字典 177

10.3 转换 178

10.4 过滤器 182

10.5 pandas.core.groupby.DataFrameGroupBy对象 183

10.5.1 分组 183

10.5.2 涉及多个变量的分组计算 184

10.5.3 选择分组 184

10.5.4 遍历分组 184

10.5.5 多个分组 186

10.5.6 平铺结果 187

10.6 使用多重索引 188

10.7 小结 191

第 11章 datetime数据类型 192

11.1 简介 192

11.2 Python的datatime对象 192

11.3 转换为datetime 193

11.4 加载包含日期的数据 196

11.5 提取日期的各个部分 196

11.6 日期运算和Timedelta 198

11.7 datetime方法 200

11.8 获取股票数据 202

11.9 基于日期取数据子集 203

11.9.1 DatetimeIndex对象 203

11.9.2 TimedeltaIndex对象 204

11.10 日期范围 205

11.10.1 频率 206

11.10.2 偏移量 207

11.11 移动 207

11.12 重采样 213

11.13 时区 214

11.14 小结 215

第四部分 数据建模 217

第 12章 线性模型 218

12.1 简介 218

12.2 简单线性回归 218

12.2.1 使用统计模型库 218

12.2.2 使用sklearn库 220

12.3 多元回归 222

12.3.1 使用statsmodels库 222

12.3.2 使用statsmodels和分类变量 222

12.3.3 使用sklearn库 224

12.3.4 使用sklearn和分类变量 225

12.4 保留sklearn的索引标签 226

12.5 小结 226

第 13章 广义线性模型 227

13.1 简介 227

13.2 逻辑回归 227

13.2.1 使用statsmodels 229

13.2.2 使用sklearn 230

13.3 泊松回归 232

13.3.1 使用statsmodels 232

3.3.2 负二项回归 233

13.4 更多GLM 234

13.5 生存分析 235

13.6 小结 238

第 14章 模型诊断 239

14.1 简介 239

14.2 残差 239

14.3 比较多个模型 243

14.3.1 比较线性模型 243

14.3.2 比较GLM 246

14.4 k折交叉验证 248

14.5 小结 251

第 15章 正则化 252

15.1 简介 252

15.2 何为正则化 252

15.3 LASSO回归 254

15.4 岭回归 255

15.5 弹性网 256

15.6 交叉验证 258

15.7 小结 260

第 16章 聚类 261

16.1 简介 261

16.2 k均值聚类 261

16.3 层次聚类 267

16.3.1 最长距离法 267

16.3.2 最短距离法 267

16.3.3 平均距离法 268

16.3.4 重心法 268

16.3.5 手动设置阈值 269

16.4 小结 270

第五部分 终章 271

第 17章 Pandas之外 272

17.1 科学计算栈 272

17.2 性能 272

17.2.1 测试代码运行时间 272

17.2.2 分析代码 274

17.3 规模更大、速度更快 274

第 18章 写给自学者 275

18.1 不可闭门造车 275

18.2 本地聚会 275

18.3 参加会议 275

18.4 互联网 276

18.5 播客 276

18.6 小结 276

第六部分 附录

附录A 安装 278

附录B 命令行 280

附录C 项目模板 282

附录D Python代码编写工具 283

附录E 工作目录 285

附录F 环境 287

附录G 安装包 289

附录H 导入库 291

附录I 列表 293

附录J 元组 294

附录K 字典 295

附录L 切片 297

附录M 循环 299

附录N 推导式 300

附录O 函数 301

附录P 范围和生成器 305

附录Q 多重赋值 307

附录R NumPy ndarray 309

附录S 类 311

附录T 变形器odo 313

版权声明 314

python数据分析 活用pandas库_Python数据分析:活用Pandas库相关推荐

  1. python 数据分析 库_Python数据分析库

    python 数据分析 库 什么是数据分析? (What is Data Analytics?) Data is power. Insights acquired from data is the k ...

  2. python升级第三方库_python一键升级所有第三方库

    import pip from subprocess import call for dist in pip.get_installed_distributions(): call("pip ...

  3. python 删除第三方库_python 安装移动复制第三方库操作

    一.绪论 在使用python开发过程中经常会使用到第三方库.因此就涉及到了如何安装.复制移动. 二.安装方式 第三方库的安装方式 1.python自带包管理器:使用pip命令自动安装.例如:pip i ...

  4. python复制库_python 安装移动复制第三方库操作

    一.绪论 在使用python开发过程中经常会使用到第三方库.因此就涉及到了如何安装.复制移动. 二.安装方式 第三方库的安装方式 1.python自带包管理器:使用pip命令自动安装.例如:pip i ...

  5. python beautifulsoup库_Python爬虫系列:BeautifulSoup库详解

    点击上方蓝字关注"程序员Bob"呀~ 每个人的生命都是通向自我的征途,是对一条道路的尝试,是一条小径的悄然召唤.人们从来都无法以绝对的自我之相存在,每一个人都在努力变成绝对自我,有 ...

  6. azw3 python数据分析 活用pandas库_Python数据分析 活用Pandas库 数据科学教程数据分析入门图书 Python编程入门数据处理...

    内容介绍 本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...

  7. python数据分析 活用pandas库_Python数据分析:活用Pandas库:Pandas for everyone

    序 iv 前言 v 致谢 xi 关于作者 xiv 第 一部分 简介 1 第 1章 Pandas DataFrame基础知识 2 1.1 简介 2 1.2 加载数据集 3 1.3 查看列.行.单元格 5 ...

  8. python数据分析最基本的库_Python数据分析库pandas基本操作方法_python

    下面就为大家分享一篇Python数据分析库pandas基本操作方法,具有很好的参考价值,希望对大家有所帮助.一起过来看看吧 pandas是什么? 是它吗? ....很显然pandas没有这个家伙那么可 ...

  9. python数据分析用什么库_Python数据分析常用的库总结

    Python之所以能够成为数据分析与挖掘领域的最佳语言,是有其独特的优势的.因为他有很多这个领域相关的库可以用,而且很好用,比如Numpy.SciPy.Matploglib.Pandas.Scikit ...

  10. python 股票分析常用库_Python数据分析常用库有哪些?Python学习!

    Python为什么受欢迎?因为Python简单.易懂.好用,是一门高级的编程语言;除此之外,Python提供了大量的第三方库,开箱即用,方便.免费,非常适合从事数据分析领域的工作. 大家也都知道,Py ...

最新文章

  1. oralce 增加表字段命令|oralce 增加表字段类型命令
  2. pandas中的基本功能
  3. Struts2教程2:处理一个form多个submit
  4. python3 多级目录建立 os.makedirs()
  5. mysql 枚举类型 映射_model类中enum类型与数据库字段的映射
  6. 公司间采购的后台配置备忘录
  7. firewalld和netfilter
  8. FlexPaper 2.2.1介绍与提取嵌入的文档
  9. 二十年来一直没搞清楚的一个问题
  10. python csv文件复制时的编码问题_使用python读取CSV文件时的编码问题
  11. CentOS6.5+Python2.7+ GIT +IPython
  12. RTP协议解析和H264码流提取
  13. AfxGetApp用法
  14. 使用Termux进行Linux系统的ubuntu版本安装
  15. 【 开源计划 - Flutter组件 】 星星也可以如此闪耀 flutter_star
  16. 按字母排列的中国城市名称大全
  17. 通达信版弘历软件指标_弘历软件指标源码
  18. ES6 对象数组查找某一个对象
  19. Chrome之“无法访问此网站 找不到服务器IP地址“解决方案
  20. 前端flyUI的方法使用注意事项

热门文章

  1. 解决 ModuleNotFoundError: No module named ‘PySide2.QtUiTools‘
  2. 更新啦~人生重开模拟器自制
  3. swfobject2.2
  4. 最大流最小割经典例题_图割-最大流最小切割的最直白解读
  5. 如何破解 App 网络代理后出现网络不可用的情况
  6. win7共享20人限制 清除_中控智慧考勤门禁_机器直连软件及清除管理员
  7. 资讯美国悬赏1000万美元追捕勒索黑客、能源行业成为网络钓鱼攻击“重灾区”|11月8日全球网络安全热点
  8. vector初始化必须设置大小么_C++ 序列式容器之vector
  9. 用两个队列实现一个栈
  10. 基于逻辑回归的评分卡模型简单概述