数据分析基础——基本运算
2019独角兽企业重金招聘Python工程师标准>>>
数据分析基础——基本运算
x=[n*m]型矩阵数据,n是佯本数,m是变量维数;
*********************************基本公式************************************
均值:每一列的均值
mean(xj)=(xj1+xj2+...+xjn)/n
方差:计算每一列的方差
var(xj)=[(xj1-mean(xj))^2+(xj2-mean(xj))^2+...+(xjn-mean(xj))^2]/n
标准差:方差的开方
std=var(xj)^1/2
协方差:变量xj和xk之间协方差
cov(xj, xk)=[(xj1-mean(xj))*(xk1-mean(xk))+...+(xjn-mean(xj))*(xkn-mean(xk))]/n
相关系数:变量xj和xk之间的相关系数 ,反映两个变量的相似程度0~1;
r(xj , xk)=cov(xj , xk)/[std(xj)*std(xk)]
向量内积:变量x和y之间的内积
(x1y1+x2y2+...+xmym)
向量x,y之间的夹角:内积/(模x*模y)
(x1y1+x2y2+...+xmym)/ [(x1^2+x2^2+...+xm^2)^1/2 * (y1^2+y2^2+...+ym^2)^1/2]
内积和夹角之间的关系
***********************************基本处理********************************
数据中心化:均值为0,中心在原点
Xij=xij-mean(xj)
数据无量纲化:各种无量纲方法,对数据压缩
Xij=xij/std(xj)
Xij=xij/max(xj)
Xij=xij/min(xj)
Xij=xij/mean(xj)
Xij=xij/[max(xj)-min(xj)]
数据归一化:其实和上面无量纲一个意思,对数据中心化和压缩
Xij=[xij-min(xj)]/[max(xj)-min(xj)]
数据标准化:标准化是对数据每列佯本数进行标准化,均值为0,方差为1;标准化的目的是对数据进行中心化和压缩
Xij=(xij-mean(xj))/std(xj)
变量归一化(单位圆化):对每个佯本进行归一化(变量间归一化),中心在原点,距离为1;注意这里是对每一行进行归一化,每个佯本的模为1;
Xij=xij/(xi1^2+xi2^2+...+xim^2)^1/2
说明:因该针对不同的问题,采用不同数据处理方法,不能盲目用以上方法,比如:归一化是对列还是对行进行处理,需要看数据针对的问题。
心得:单位圆化后的两个向量的夹角=其内积
补充:测定系数R^2(多元回归中叫复测定系数),对回归方程的一个评价指标。(参考偏最小二乘回归的线性与非线性方法(书.王惠文))
转载于:https://my.oschina.net/u/3851199/blog/1942016
数据分析基础——基本运算相关推荐
- python dataframe groupby_【Python数据分析基础】入坑必备的数据预处理操作
本文解决的是2类目标业务: 有数据不知道怎么做数据分析操作的. 自己有思路不知道怎么落地实现的. Python数据分析基础必用品 office软件(推荐2016版) Python开发环境(推荐Anac ...
- python 数据分析基础 day1-初窥内容
在读这本书之前,我已经有开始学python,用的是anaconda 的jupyter notebook. 看了<python 数据分析基础>的前言部分,发现这本书的实用性很高,其讲解的内容 ...
- swiper 滚回第一个数据_名企必备的数据分析基础技能:Python大法(一)
现如今,大数据的发展越来越好,也越来越多的企业中大数据分析已经朝着更好的方向发展.也正是因为这个原因,数据分析行业的人才需求也变得火爆起来,尤其是数据分析.数据挖掘.数据科学家等高端人才,越来越稀缺. ...
- python计算相关矩阵_Numpy使用大全(python矩阵相关运算大全)-Python数据分析基础2...
//2019.07.10 python数据分析基础--numpy(数据结构基础) import numpy as np: 1.python数据分析主要的功能实现模块包含以下六个方面: (1)numpy ...
- 泰坦尼克号 数据分析_第1部分:泰坦尼克号-数据分析基础
泰坦尼克号 数据分析 My goal was to get a better understanding of how to work with tabular data so I challenge ...
- python数据分析基础教程 numpy_Python数据分析基础教程:NumPy学习指南(第2版)
Python数据分析基础教程:NumPy学习指南(第2版) Ivan Idris (作者) 张驭宇 (译者) NumPy是一个优秀的科学计算库,提供了很多实用的数学函数.强大的多维数组对象和优异的计算 ...
- python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...
一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...
- python数据分析与excel_读Python数据分析基础之Excel读写与处理
对于业务型数据分析来说,Excel可以说是打交道最多的软件了,可以说没有之一.之前有比较系统地读过<Python数据分析基础>(Foundations for Analysis with ...
- python处理多个excel数据_python 数据分析基础 day8-pandas读写多个excel文件
今天是读<python数据分析基础>的第8天,今天的读书笔记的内容为利用pandas读写多个excel文件,当中涉及到读写excel文件的多个工作表. 大致原理如下: glob.glob( ...
最新文章
- 【计算机网络】数据链路层 : 选择重传协议 SR ( 帧分类 | “发送方“ 确认帧、超时事件 | “接受方“ 接收帧机制 | 滑动窗口长度 | 计算示例 )★
- java控制面板作用_Java
- mysql 性能分析_十大MySQL性能分析工具汇总!专治MySQL性能瓶颈
- 在线Javascript压缩工具
- 事务复制中的msrepl_ccs
- Excel图表如何更改坐标轴最大值
- app毕业设计 基于uni-app框架的电影院订票选座app毕设题目课题选题作品(2)后台管理功能
- win7 mysql怎么配置环境变量_MySQL Win7 64位 下载、安装与配置图文教程
- 大作家超级写作软件_大作家都是极度自律的人,你也可以
- linux设置法语键盘布局,法语键盘布局图.doc
- autoit mysql update_RobotFramework+selenium+requests+autoit+mysql+appium 环境搭建
- WQ7033开发指南(按键篇)之4.3 三轴加速度传感器SC7A20驱动导入按键流程详解
- 模拟夜间灯光-科目三-灯光口令(9选5)
- Gluster-Heketi-Kubernetes 安装步骤(以DaemonSet形式安装) Ubuntu 16.04
- CTF pyc之stegosaurus隐写
- 欢迎进入MyKTV点歌系统展示
- 注册表各键值保存的内容及其对用的作用(功能)(不完善,有补充的评论指出供大家学习参考)
- 如何看懂Minecraft报错的关键信息。
- 企业WiFi解决方案,解决所有后顾之忧
- Linux/Android——input_handler之evdev (四)
热门文章
- 快速刷通PWN的第一天
- 88E1111 100BASE-T百兆工程(part2--完)
- 计量经济学之格兰杰因果关系检验(Granger causality test)
- Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100
- 投我以木桃,报之以琼浆。匪报也,永以为好也!
- 计算机中人民币符号在哪儿,钱的符号电脑怎么打(人民币符号怎么输入)
- 蓝牙语音芯片模块数传音频BLE选型 支持mp3播放外挂spiflash双模
- 第十二届蓝桥杯省赛JAVA B组杨辉三角形个人题解
- python通过pyautogui库来控制鼠标和键盘
- 物联网卡要求实名认证的真正原因你知道吗?