Chapter-I 准备工作

1. 什么类型的数据

结构化数据:表格性数据、多维数组、表数据(数据库)、时间序列等

现实生活中,很多数据需要转换成一种更适合分析和建模的结构化形式,才容易被分析和解读。

2. 不适合的场景

解释型语言;开发效率高;运行效率低于编译型语言(Java、C++等)……

不适用于一些要求低延迟、高资源利用率的场景,比如搭建高并发、多线程的应用,尤其是多CPU绑定线程时。

3. GIL != No Multi-threading

GIL(Global Interpreter Lock)是一种防止解释器同时执行多个Python指令的机制。但并不等于说,Python无法执行真正的多线程、并行代码。Python的C语言拓展使用本地多线程(在C或C++中)以并行方式运行代码,而不受GIL的影响,因为这些拓展无需与Python对象交互

4. 重要的Python库

  • NumPy

Numerical Python,是Python数值计算的基石,提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。包括:ndarray、线性代数、傅里叶变换、C/C++拓展API等。

  • pandas

将表格和关系型数据库(如Sql)的灵活数据操作能力与NumPy的高性能数组计算相结合,适用于结构化、表格化数据。

特点:简化数据的重组、切块、切片、聚合、子集选择等操作,是数据清洗和预处理的重要工具。

常用对象:DataFrame(用于实现表格化的数据),Series(一种一维标签数组对象)。

  • IPython 与 Jupyter

IPython:更具交互性的Python解释器;Jupyter:适用于更多语言的交互式计算机工具。IPython系统目前可作为一个内核用于在Jupyter中使用Python。

  • SciPy

科学计算领域针对不同标准问题域的包集合。如:

scipy.integrate | 数值积分、微分方程
scipy.linalg | 线性代数、矩阵分解
scipy.optimize | 函数优化器(最小优化器)和求根算法 ……

  • scikit-learn

目前已成为Python编程者首选的机器学习工具包,包含如下模块:

分类:SVM、最近邻、随机森林、逻辑回归等
回归:Lasso、岭回归等
聚类:k-means、谱聚类等
降维:PCA、特征选择、矩阵分解等
模型选择:网络搜索、交叉验证、指标矩阵
预处理:特征提取、正态化

  • statsmodels

统计分析包,源自斯坦福大学统计学教授Jonathan Taylor利用R语言实现的各类分析模型。与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。其包含的模型如下:

回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等;
方差分析(ANOVA)
时间序列分析:AR、ARMA、ARIMA、VAR等模型
非参数方法:核密度估计、核回归
统计模型结果可视化

statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测

5. Conda & Pip

不要尝试用pip更新conda安装包,否则可能会导致环境问题。

6. 命名约定

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm

不要一次性引入包的所有内容,类似 from numpy import * 这种实践会被同行diss的。


《利用Python进行数据分析》,Wes Mckinney著,徐敬一译,机械工业出版社

python 正态化_#Python数据分析/笔记 - 准备工作相关推荐

  1. ML:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/模型融合)之详

    ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训 ...

  2. python正态检验_Python检验数据是否正态分布

    在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常.常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk tes ...

  3. python初级数据分析师薪资_学会数据分析,薪资翻倍?!

    信息爆炸的时代,数据分析行业异常火爆,倍受众多人才的青睐.数据分析火爆的原因就是由于数据分析这一行业具有未来的前瞻性,正因为如此使得数据分析具有了十分广阔的前景. 其实,大部分人还不了解数据分析行业, ...

  4. python数据分析师书籍_做数据分析不得不看的书有哪些?

    小K给大家整理了一份书单,很适合刚接触数据分析的同学哦,快快收藏起来. <深入浅出数据分析> <深入浅出数据分析>写得漂亮,读者可以学到分析现实问题的系统性方法.从卖咖啡到开橡 ...

  5. python解析雷达数据_【学习笔记】使用python带时间戳提取rosbag中的图像和雷达数据...

    使用sick的TIM561雷达采集数据,topic nam是/scan,摄像头录制图像,topic name是/usb_cam/image_raw.脚本以下:python # coding:utf-8 ...

  6. 如何把密度函数化为标准正态二维分布_高中就开始学的正态分布,原来如此重要...

    选自Medium 作者:Farhad Malik 机器之心编译 参与:李诗萌.张倩 我们从高中就开始学正态分布,现在做数据分析.机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多 ...

  7. python 打包 小文件_[Python][小知识][NO.5] 使用 Pyinstaller 打包成.exe文件

    1.安装 pyinstaller 插件 cmd命令:pip install PyInstaller PS . o.o 不知道 easy_install 的百度吧. 2.pyinstaller 简介 他 ...

  8. python朋友圈刷屏_“Python太火了!请救救Java!”9万程序员刷屏朋友圈 !

    没想到有生之年,笔者能观察到"霸主陨落"的过程,继PLPY4月榜单官宣,Python躺赢,再度"夺"冠,实力甩下Java和C后,近期,Stack Overflo ...

  9. python输出文本居中_#python PIL ImageDraw text 文本居中#

    python pip pil有什么东西 你所问的问题实是属1.先参考[教程]Python中的内置的和方的模块搞懂PIL是属于第三方Python模块2.再参考:[待完善][总结]Python安装第三方的 ...

最新文章

  1. HDOJ 1233 还是畅通工程
  2. Redis的常用命令——String的常用命令
  3. pythondir什么意思_Python之dir()与__dict__的区别
  4. 技术驱动还是产品驱动
  5. ObjectDataSourc用法之三(排序)
  6. JAVA16版本.JDK16关于TCP和UDP的优化
  7. .NET Core项目从xproj+project.json向csproj迁移简介
  8. 强生CEO加入苹果成为新董事
  9. APP——adb命令——背诵实操——背诵总结
  10. dajngo 初始化数据报错 django.db.utils.DataError: value too long for type character varying(32)
  11. 做数据分析很重要的思维模式!!!
  12. Web24——Ajax
  13. WPF编程--地图控件GMap使用
  14. 【c++】如何获取int类型最大值以及float类型最大值
  15. sql语句里面最难的not exists,exists,口语化解释(个人笔记)
  16. TP框架下设置静态资源缓存
  17. HTML5页面,用JS 禁止弹出手机键盘
  18. 《Go语言圣经》学习笔记 第七章 接口
  19. Java - 调用 Shell 命令和脚本
  20. 【满分】【华为OD机试真题2023 JS】核酸检测人员安排

热门文章

  1. 话说 Oracle ACE 这回事儿
  2. 7月第5周回顾:闪联晋级国际标准 云安全时代来临
  3. div常用效果方法-transform
  4. gitlab 使用现有 nginx 服务器
  5. 初学Python01
  6. 用postGIS向postgresql插入空间数据
  7. Linux进程管理工具 Supervisor详解
  8. ERROR: role company3 does not exist
  9. 数据库的时间格式(毫秒表示)
  10. 【Python3】复制、移动、删除文件及文件夹