一、统计基础
1.总体和样本:总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布,进行判断。
由样本判断总体过程:数据资料的收集---->数据的整理、分析---->统计推断

设总体的概率分布为p(x)=P{X=x},则样本的概率分布为:P(x1,x2,x3…,xn)=P{X1=x1,X2=x2…Xn=xn}。
2.统计量:设X1,X2,…Xn是总体X的一个样本,则称此样本的任一不含总体的未知参数的函数g(X1,X2,…Xn)为该样本的统计量。
样本均值:X=1/n(X1+X2…+Xn)
未修正的样本方差:S²=(1/n)×(X1-X)²+(X2-X)²。。。+(Xn-X)²)
修正的样本方差:S²=(1/(n-1))×((X1-X)²+(X2-X)²。。。+(Xn-X)²)
样本越大得到的结果越准确
3.抽样分布
(1.分位数

那么可以得到:P{X>Fα}=α,则称Fα为随机变量X的α水平的上侧分位数,简称α上侧分位数。

(2.卡方分布的定义:设X1,X2.。。Xn是来自标准正态分布的样本,则X1²+X2²。。。++Xn²是卡方分布

(3.t分布:设随机变量X服从标准正态分布N(0,1),Y服从卡方分布,且X与Y相互独立
记:

则,随机变量T服从自由度为n的t分布,T~t(n).

(4.F 分布:设X是自由度为m的卡方分布,Y是自由度为n的卡方分布,X和Y相互独立。
记Z=nX/mY
则Z的密度函数为f(x;m,n),因此Z~F(m,n)

特别当σ1²=σ2²时,统计量”两个样本方差之比“服从F分布,即:
F=S1²/S2~F(n1-1,n2-1)
(5公式总结:
公式1:(1)X=1/n(X1+X2…+Xn)~N(μ,σ²/n)
公式2: (2) U=X-μ/(σ/平方根n)~N(0,1)
公式3: (3)(n-1/σ²)×S²~卡方(n-1) #实在不会打了。。。
公式4:(4)T=(X-μ)/(S/平方根n)~t(n-1)

具体情况具体分析,下面再给大家讲什么情况下用哪个。
4.点估计:使用来自通体X的样本值构造一个统计量来估计总体分布的某参数的真实值,这个统计量称为某参数的估计量。
用样本均值X来估计通体的期望E(X),因为X是E(X)的无偏估计量也是其相合估计量,而且在E(X)的一切无偏估计量中X的方差最小,即最有效。

设(X1,X2,…Xn)为来自总体X的样本,其方差存在为:S²=(1/(n-1))×((X1-X)²+(X2-X)²。。。+(Xn-X)²)是方差D(X)的无偏估计量。

参数的最大估计似然:应寻找使实验结果出现的可能性最大的哪个θ作为θ真知的估计值。
L(θ1,θ2.。。θm)=P{X1=x1,X2=x2,…Xn=xn}=∏(上面是n,下面是i=1)p(xi;θ1,θ2.。。θm)
即L(θ1,θ2.。。θm)=max L(θ1,θ2.。。θm)
则称θ1,θ2.。。θm分别为θ1,θ2.。。θm的极大似然估计

解题过程:设总体X~N(μ,σ²),σ²和μ未知,(X1,X2,…Xn)为来自总体X的样本,(x1,x2/…,xn为样本值,求μ,σ²的最大似然估计。
(1)写出似然函数 L(θ1,θ2.。。θm)
似然方程组:

(2)取对数ln(L(θ1,θ2.。。θm))
过程(私藏了好久的图片):

例子:设考的分数X~N(μ,σ²),其中μ,σ²未知只知道样本值为,60,70,80,90,50,40,30,20,10,0.s试着估计μ,σ²的值。(你们照着过程试一下,我写字拍照,字不好看,不好在电脑上打过程,大家需要的话评论区说一下,或者大家讨论一下)

所谓参数θ的点估计,是指用一个估计量θ(X1,X2…Xn)的值去估计θ的真值,但是估计的好坏就没有指出,没有可靠性。所以我们需要引入区间估计。
5.区间估计:设θ是总体X的分布的位置参数,X1,X2…Xn为来自X的样本。对给定的α(大于0小于1),若存在两个统计量θ=θ(X1,X2…Xn)和θ1=θ1(X1,X2…Xn),使得:P{θ1<θ<θ}=1-α。则随机区间(θ1,θ)称为参数θ的1-α置信区间;1-α为置信水平(置信度);θ1与θ为置信下限和置信上限。
(1)正态分布的μ的区间估计:σ已经知道,μ未知,X1,X2…Xn来自X的一个样本,x1,x2…xn为样本值,α=0.05,求μ的置信区间。
可以知道我们用公式2。

(2)总结:



二、numpy补充(之前只是讲了一些数据分析数据可视化有关的现在再深入学习一下,可以复习一下之前的):

import numpynumpy.array()
#生成矩阵的常规方法
numpy.zeros([10,10])
#[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]
#生成10×10的矩阵numpy.ones([5,5])
得到[[1. 1. 1. 1. 1.][1. 1. 1. 1. 1.][1. 1. 1. 1. 1.][1. 1. 1. 1. 1.][1. 1. 1. 1. 1.]]
5×5的向量numpy.eye(1)
[[1.]]
生成单位矩阵a=numpy.array([[1,0,0,0,0],[1,0,0,0,0]])print(a.dtype)
#int32,得到的是数据的格式print(a.shape)
#(2, 5)得到的是行列a.copy()
#复制产生数组:
x=numpy.linspace(0,10,20)
#从0开始到10二十个数
[ 0.          0.52631579  1.05263158  1.57894737  2.10526316  2.631578953.15789474  3.68421053  4.21052632  4.73684211  5.26315789  5.789473686.31578947  6.84210526  7.36842105  7.89473684  8.42105263  8.947368429.47368421 10.        ]
x,y=numpy.meshgrid(numpy.arange(10),numpy.arange(10))
x是[[0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9][0 1 2 3 4 5 6 7 8 9]]
y是[[0 0 0 0 0 0 0 0 0 0][1 1 1 1 1 1 1 1 1 1][2 2 2 2 2 2 2 2 2 2][3 3 3 3 3 3 3 3 3 3][4 4 4 4 4 4 4 4 4 4][5 5 5 5 5 5 5 5 5 5][6 6 6 6 6 6 6 6 6 6][7 7 7 7 7 7 7 7 7 7][8 8 8 8 8 8 8 8 8 8][9 9 9 9 9 9 9 9 9 9]]
x和y是转置的,这样可以形成二维数组。逻辑操作:
numpy.where(x>y,x,y)
#如果x大于y则返回x,否则返回y排序相关:
sort(axis)
unique()numpy计算常用函数:
-abs,fabs
-sqrt,square.exp.log,log^,loglp
_sign,ceiling,floor,modf
-isnan,isfinite,isinf
-cos,sin,tan,arccos,arcsin,arctan
-add,substract,multiply,divide,power
-maximum,minimum,mod,copysign
-greater,greater_equal,less.less_equal这是一些随机数据的获取和排列的方法:
import numpy.random
随机数据
rand(d0,d1,...,dn)
randn(d0,d1...,dn)    +sigma*np.random.randn(...)+mu#mu是μ,sigma是σ
randint(low[,high,size])
random_integers(low[,high,size])
choice(a[,size,replace,p])排列
shuffle(x)
permutation(x)

下面是一些科学的方法:

例子:一只股票每日预期收益为0.1%,每日波动率为0.5%。估计100日后的预期收益。

import numpy
mu=0.1
sigma=0.5
x=numpy.random.randn(100)#随机100个数据
y=sigma*x+mu#这是每天的变化
print(y.sum(0))
#得到的预期的数据6.882836364654396

不明白的咱们可以讨论一下。

数据分析数据挖掘(二)相关推荐

  1. 数据分析数据挖掘(五)

    数据从 数据分析数据挖掘(三) 去找 一.探索变量的关系 1.事件相互独立的条件: P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立. P(A)P(B)>0,若A与B独立的充 ...

  2. 数据分析数据挖掘(三)

    前面我自己写的我看着都头大,我看看能不能给大家写的精简点,好理解. 我们需要的数据: 链接:https://pan.baidu.com/s/1xr4x43bfEe4hVWYtwiFGRw 提取码:ya ...

  3. 【原】数据分析/数据挖掘 入门级选手建议

    1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力.数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =. 2.怎么入门 ...

  4. 【学习笔记】产品经理必备技能之数据分析(二)常见数据分析方法(上)

    内容来自小破站<黑马程序员-产品经理必备技能之数据分析>复习自用 [学习笔记]产品经理必备技能之数据分析(二)常见数据分析方法(上) 3 常见数据分析方法 3.1 基础数据分析(日常工作) ...

  5. 数据分析 —— 数据挖掘是什么、能干嘛、怎么做

    数据分析 数据挖掘 什么是数据挖掘 数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段 为什么要做数据挖掘 技术和商业就像一对双生子,在互相促进中不断演进发展.随之而来的就是个大公司的业 ...

  6. 免疫组库数据分析(二):Excel 分析免疫组库数据

    免疫组库数据分析(二):Excel 分析免疫组库数据 前言 在系列文章第一篇<免疫组库数据分析(一):windows 系统下MiXCR的安装和使用>讲解了5'RACE实验数据如何在Wind ...

  7. 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据

    各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用 ...

  8. 【数据分析数据挖掘】异常值的判断与去除——3σ 箱线图分析

    [数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 参考文章: (1)[数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 (2)https: ...

  9. 基于IDSS和Machine Learning的零售金融大数据分析(二)

    基于IDSS和Machine Learning的零售金融大数据分析(二) 接上一篇简要分析了Fintech的发展对银行业的影响,金融大数据诞生背后原因,本篇将继续讨论下面话题: 1.       金融 ...

  10. 数据分析实战二:超市数据处理

    数据分析实战二:超市数据处理 大家好!我是未来村村长!就是那个"请你跟我这样做,我就跟你那样做!"的村长

最新文章

  1. Failure [DELETE_FAILED_INTERNAL_ERROR]的解决办法
  2. c语言数码管数字时钟程序,数码管显示模拟8位时钟C语言程序设计
  3. html按钮按下效果_【CSS小分享】纯CSS实现一个水波纹效果按钮
  4. 微信小程序教程 [第五篇]脚本语言(WXS)
  5. MySQL中如何插入数据(DML)
  6. task文件服务器无法输入,Win10系统无法启动task scheduler服务的解决方法
  7. IOS基础之iPad的屏幕旋转方向判断
  8. SVM与SoftMax分类器
  9. C语言中 *.c和*.h文件的区别!
  10. 屏幕分析师确认两款iPhone 13将采用LTPO屏幕 支持120Hz刷新率
  11. Python 小白学习
  12. 基于VUE2.0的分页插件
  13. 二十、Oracle学习笔记:编写存储过程
  14. 第一次想真正的认识自己
  15. 使用pyton在本地指定目录模拟服务器
  16. Java对象实例化以及实例化方式
  17. [你好,2022] 月落乌啼霜满天,江枫渔火对愁眠
  18. Docker 安装及镜像加速器配置
  19. 基于51单片机的电子密码锁设计
  20. 合成大西瓜?不如写个可以一起聊天吃瓜放烟花的聊天室

热门文章

  1. 设计模式笔录(一),什么是设计模式
  2. UFLDL机器学习 Andrew Ng-Deep Learning课程
  3. 手动处理MNIST手写数据集的逻辑斯蒂回归算法实践
  4. 关于叫号类的PV操作总结
  5. iOS 9检测QQ、微信是否安装
  6. mysql的安装与卸载
  7. eclipse上的maven,添加依赖后无法自动下载相应的jar包
  8. 从0开始搭建SQL Server AlwaysOn 第一篇(配置域控)
  9. 伪响应式开发(PC和Mobile分离)
  10. 【译】UI设计基础(UI Design Basics)--启动与停止(Starting and Stopping)(五)