python 正态化_#Python数据分析/笔记 - 准备工作
Chapter-I 准备工作
1. 什么类型的数据
结构化数据:表格性数据、多维数组、表数据(数据库)、时间序列等
现实生活中,很多数据需要转换成一种更适合分析和建模的结构化形式,才容易被分析和解读。
2. 不适合的场景
解释型语言;开发效率高;运行效率低于编译型语言(Java、C++等)……
不适用于一些要求低延迟、高资源利用率的场景,比如搭建高并发、多线程的应用,尤其是多CPU绑定线程时。
3. GIL != No Multi-threading
GIL(Global Interpreter Lock)是一种防止解释器同时执行多个Python指令的机制。但并不等于说,Python无法执行真正的多线程、并行代码。Python的C语言拓展使用本地多线程(在C或C++中)以并行方式运行代码,而不受GIL的影响,因为这些拓展无需与Python对象交互。
4. 重要的Python库
- NumPy
Numerical Python,是Python数值计算的基石,提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。包括:ndarray、线性代数、傅里叶变换、C/C++拓展API等。
- pandas
将表格和关系型数据库(如Sql)的灵活数据操作能力与NumPy的高性能数组计算相结合,适用于结构化、表格化数据。
特点:简化数据的重组、切块、切片、聚合、子集选择等操作,是数据清洗和预处理的重要工具。
常用对象:DataFrame(用于实现表格化的数据),Series(一种一维标签数组对象)。
- IPython 与 Jupyter
IPython:更具交互性的Python解释器;Jupyter:适用于更多语言的交互式计算机工具。IPython系统目前可作为一个内核用于在Jupyter中使用Python。
- SciPy
科学计算领域针对不同标准问题域的包集合。如:
scipy.integrate | 数值积分、微分方程
scipy.linalg | 线性代数、矩阵分解
scipy.optimize | 函数优化器(最小优化器)和求根算法 ……
- scikit-learn
目前已成为Python编程者首选的机器学习工具包,包含如下模块:
分类:SVM、最近邻、随机森林、逻辑回归等
回归:Lasso、岭回归等
聚类:k-means、谱聚类等
降维:PCA、特征选择、矩阵分解等
模型选择:网络搜索、交叉验证、指标矩阵
预处理:特征提取、正态化
- statsmodels
统计分析包,源自斯坦福大学统计学教授Jonathan Taylor利用R语言实现的各类分析模型。与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。其包含的模型如下:
回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等;
方差分析(ANOVA)
时间序列分析:AR、ARMA、ARIMA、VAR等模型
非参数方法:核密度估计、核回归
统计模型结果可视化
statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测。
5. Conda & Pip
不要尝试用pip更新conda安装包,否则可能会导致环境问题。
6. 命名约定
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm
不要一次性引入包的所有内容,类似 from numpy import * 这种实践会被同行diss的。
《利用Python进行数据分析》,Wes Mckinney著,徐敬一译,机械工业出版社
python 正态化_#Python数据分析/笔记 - 准备工作相关推荐
- ML:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/模型融合)之详
ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训 ...
- python正态检验_Python检验数据是否正态分布
在对数据进行处理前,有事需要判断数据是否呈正态分布,比如线性回归,比如使用3-sigma判断数据是否异常.常用的正态分布检测方法: Shapiro-Wilk test Shapiro-Wilk tes ...
- python初级数据分析师薪资_学会数据分析,薪资翻倍?!
信息爆炸的时代,数据分析行业异常火爆,倍受众多人才的青睐.数据分析火爆的原因就是由于数据分析这一行业具有未来的前瞻性,正因为如此使得数据分析具有了十分广阔的前景. 其实,大部分人还不了解数据分析行业, ...
- python数据分析师书籍_做数据分析不得不看的书有哪些?
小K给大家整理了一份书单,很适合刚接触数据分析的同学哦,快快收藏起来. <深入浅出数据分析> <深入浅出数据分析>写得漂亮,读者可以学到分析现实问题的系统性方法.从卖咖啡到开橡 ...
- python解析雷达数据_【学习笔记】使用python带时间戳提取rosbag中的图像和雷达数据...
使用sick的TIM561雷达采集数据,topic nam是/scan,摄像头录制图像,topic name是/usb_cam/image_raw.脚本以下:python # coding:utf-8 ...
- 如何把密度函数化为标准正态二维分布_高中就开始学的正态分布,原来如此重要...
选自Medium 作者:Farhad Malik 机器之心编译 参与:李诗萌.张倩 我们从高中就开始学正态分布,现在做数据分析.机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多 ...
- python 打包 小文件_[Python][小知识][NO.5] 使用 Pyinstaller 打包成.exe文件
1.安装 pyinstaller 插件 cmd命令:pip install PyInstaller PS . o.o 不知道 easy_install 的百度吧. 2.pyinstaller 简介 他 ...
- python朋友圈刷屏_“Python太火了!请救救Java!”9万程序员刷屏朋友圈 !
没想到有生之年,笔者能观察到"霸主陨落"的过程,继PLPY4月榜单官宣,Python躺赢,再度"夺"冠,实力甩下Java和C后,近期,Stack Overflo ...
- python输出文本居中_#python PIL ImageDraw text 文本居中#
python pip pil有什么东西 你所问的问题实是属1.先参考[教程]Python中的内置的和方的模块搞懂PIL是属于第三方Python模块2.再参考:[待完善][总结]Python安装第三方的 ...
最新文章
- HDOJ 1233 还是畅通工程
- Redis的常用命令——String的常用命令
- pythondir什么意思_Python之dir()与__dict__的区别
- 技术驱动还是产品驱动
- ObjectDataSourc用法之三(排序)
- JAVA16版本.JDK16关于TCP和UDP的优化
- .NET Core项目从xproj+project.json向csproj迁移简介
- 强生CEO加入苹果成为新董事
- APP——adb命令——背诵实操——背诵总结
- dajngo 初始化数据报错 django.db.utils.DataError: value too long for type character varying(32)
- 做数据分析很重要的思维模式!!!
- Web24——Ajax
- WPF编程--地图控件GMap使用
- 【c++】如何获取int类型最大值以及float类型最大值
- sql语句里面最难的not exists,exists,口语化解释(个人笔记)
- TP框架下设置静态资源缓存
- HTML5页面,用JS 禁止弹出手机键盘
- 《Go语言圣经》学习笔记 第七章 接口
- Java - 调用 Shell 命令和脚本
- 【满分】【华为OD机试真题2023 JS】核酸检测人员安排