2019独角兽企业重金招聘Python工程师标准>>>

数据分析基础——基本运算

x=[n*m]型矩阵数据,n是佯本数,m是变量维数;

*********************************基本公式************************************

均值:每一列的均值

mean(xj)=(xj1+xj2+...+xjn)/n

方差:计算每一列的方差

var(xj)=[(xj1-mean(xj))^2+(xj2-mean(xj))^2+...+(xjn-mean(xj))^2]/n

标准差:方差的开方

std=var(xj)^1/2

协方差:变量xj和xk之间协方差

cov(xj, xk)=[(xj1-mean(xj))*(xk1-mean(xk))+...+(xjn-mean(xj))*(xkn-mean(xk))]/n

相关系数:变量xj和xk之间的相关系数 ,反映两个变量的相似程度0~1;

r(xj , xk)=cov(xj , xk)/[std(xj)*std(xk)]

向量内积:变量x和y之间的内积

(x1y1+x2y2+...+xmym)

向量x,y之间的夹角:内积/(模x*模y)

(x1y1+x2y2+...+xmym)/ [(x1^2+x2^2+...+xm^2)^1/2 *  (y1^2+y2^2+...+ym^2)^1/2]

内积和夹角之间的关系

***********************************基本处理********************************

数据中心化:均值为0,中心在原点

Xij=xij-mean(xj)

数据无量纲化:各种无量纲方法,对数据压缩

Xij=xij/std(xj)

Xij=xij/max(xj)

Xij=xij/min(xj)

Xij=xij/mean(xj)

Xij=xij/[max(xj)-min(xj)]

数据归一化:其实和上面无量纲一个意思,对数据中心化和压缩

Xij=[xij-min(xj)]/[max(xj)-min(xj)]

数据标准化:标准化是对数据每列佯本数进行标准化,均值为0,方差为1;标准化的目的是对数据进行中心化和压缩

Xij=(xij-mean(xj))/std(xj)

变量归一化(单位圆化):对每个佯本进行归一化(变量间归一化),中心在原点,距离为1;注意这里是对每一行进行归一化,每个佯本的模为1;

Xij=xij/(xi1^2+xi2^2+...+xim^2)^1/2

说明:因该针对不同的问题,采用不同数据处理方法,不能盲目用以上方法,比如:归一化是对列还是对行进行处理,需要看数据针对的问题。

心得:单位圆化后的两个向量的夹角=其内积

补充:测定系数R^2(多元回归中叫复测定系数),对回归方程的一个评价指标。(参考偏最小二乘回归的线性与非线性方法(书.王惠文))

转载于:https://my.oschina.net/u/3851199/blog/1942016

数据分析基础——基本运算相关推荐

  1. python dataframe groupby_【Python数据分析基础】入坑必备的数据预处理操作

    本文解决的是2类目标业务: 有数据不知道怎么做数据分析操作的. 自己有思路不知道怎么落地实现的. Python数据分析基础必用品 office软件(推荐2016版) Python开发环境(推荐Anac ...

  2. python 数据分析基础 day1-初窥内容

    在读这本书之前,我已经有开始学python,用的是anaconda 的jupyter notebook. 看了<python 数据分析基础>的前言部分,发现这本书的实用性很高,其讲解的内容 ...

  3. swiper 滚回第一个数据_名企必备的数据分析基础技能:Python大法(一)

    现如今,大数据的发展越来越好,也越来越多的企业中大数据分析已经朝着更好的方向发展.也正是因为这个原因,数据分析行业的人才需求也变得火爆起来,尤其是数据分析.数据挖掘.数据科学家等高端人才,越来越稀缺. ...

  4. python计算相关矩阵_Numpy使用大全(python矩阵相关运算大全)-Python数据分析基础2...

    //2019.07.10 python数据分析基础--numpy(数据结构基础) import numpy as np: 1.python数据分析主要的功能实现模块包含以下六个方面: (1)numpy ...

  5. 泰坦尼克号 数据分析_第1部分:泰坦尼克号-数据分析基础

    泰坦尼克号 数据分析 My goal was to get a better understanding of how to work with tabular data so I challenge ...

  6. python数据分析基础教程 numpy_Python数据分析基础教程:NumPy学习指南(第2版)

    Python数据分析基础教程:NumPy学习指南(第2版) Ivan Idris (作者) 张驭宇 (译者) NumPy是一个优秀的科学计算库,提供了很多实用的数学函数.强大的多维数组对象和优异的计算 ...

  7. python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...

    一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...

  8. python数据分析与excel_读Python数据分析基础之Excel读写与处理

    对于业务型数据分析来说,Excel可以说是打交道最多的软件了,可以说没有之一.之前有比较系统地读过<Python数据分析基础>(Foundations for Analysis with ...

  9. python处理多个excel数据_python 数据分析基础 day8-pandas读写多个excel文件

    今天是读<python数据分析基础>的第8天,今天的读书笔记的内容为利用pandas读写多个excel文件,当中涉及到读写excel文件的多个工作表. 大致原理如下: glob.glob( ...

最新文章

  1. 【计算机网络】数据链路层 : 选择重传协议 SR ( 帧分类 | “发送方“ 确认帧、超时事件 | “接受方“ 接收帧机制 | 滑动窗口长度 | 计算示例 )★
  2. java控制面板作用_Java
  3. mysql 性能分析_十大MySQL性能分析工具汇总!专治MySQL性能瓶颈
  4. 在线Javascript压缩工具
  5. 事务复制中的msrepl_ccs
  6. Excel图表如何更改坐标轴最大值
  7. app毕业设计 基于uni-app框架的电影院订票选座app毕设题目课题选题作品(2)后台管理功能
  8. win7 mysql怎么配置环境变量_MySQL Win7 64位 下载、安装与配置图文教程
  9. 大作家超级写作软件_大作家都是极度自律的人,你也可以
  10. linux设置法语键盘布局,法语键盘布局图.doc
  11. autoit mysql update_RobotFramework+selenium+requests+autoit+mysql+appium 环境搭建
  12. WQ7033开发指南(按键篇)之4.3 三轴加速度传感器SC7A20驱动导入按键流程详解
  13. 模拟夜间灯光-科目三-灯光口令(9选5)
  14. Gluster-Heketi-Kubernetes 安装步骤(以DaemonSet形式安装) Ubuntu 16.04
  15. CTF pyc之stegosaurus隐写
  16. 欢迎进入MyKTV点歌系统展示
  17. 注册表各键值保存的内容及其对用的作用(功能)(不完善,有补充的评论指出供大家学习参考)
  18. 如何看懂Minecraft报错的关键信息。
  19. 企业WiFi解决方案,解决所有后顾之忧
  20. Linux/Android——input_handler之evdev (四)

热门文章

  1. 快速刷通PWN的第一天
  2. 88E1111 100BASE-T百兆工程(part2--完)
  3. 计量经济学之格兰杰因果关系检验(Granger causality test)
  4. Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100
  5. 投我以木桃,报之以琼浆。匪报也,永以为好也!
  6. 计算机中人民币符号在哪儿,钱的符号电脑怎么打(人民币符号怎么输入)
  7. 蓝牙语音芯片模块数传音频BLE选型 支持mp3播放外挂spiflash双模
  8. 第十二届蓝桥杯省赛JAVA B组杨辉三角形个人题解
  9. python通过pyautogui库来控制鼠标和键盘
  10. 物联网卡要求实名认证的真正原因你知道吗?