stata统计分析及行业应用案例分析_描述性统计分析的应用—

描述性统计分析的应用

—基于描述性统计分析识别优质股票

内容导入：

大家好，这里是每天分析一点点。

上期给大家介绍离散趋势，本期介绍描述性统计分析的基本原理与应用，包括集中趋势、离散趋势、偏度与峰度的概念，再结合投资选股案例分析，讨论优质股鉴别方法，根据描述性统计指标计算结果解释原因。文章内容适合数据分析小白，内容深入浅出，案例贴合实际。

下期给大家介绍正态分布的应用，欢迎大家关注。

概念介绍：

描述性统计分析的概念：

描述性统计，即概括性度量。是用来概括、表述整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据的集中性和离散型 (波动性大小)。

数据的频数分析：

在数据的预处理部分，利用频数分析和交叉频数分析可以检验异常值。

数据的集中趋势分析：

用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。

数据的离散程度分析：

主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。

数据的分布：

在统计分析中，通常要假设样本所属总体的分布属于正态分布，因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

描述性统计分析的指标：

分类变量的常用描述指标：

1、频数：在一组依大小顺序排列的测量值中，当按一定的组距将其分组时出现在各组内的测量值的数目，分类变量的频数即落在各类别中的数据个数。

2、累计频数：累积频数就是将各类别的频数逐级累加起来。

3、百分比：表示一个数是另一个数的百分之几，也叫百分率或百分数。百分比通常采用符号“%”(百分号)来表示。

4、累积百分比：累积百分比就是将各类别的百分比逐级累加起来。

连续变量的描述分析：

1、绝对数。

2、相对数：倍数、成数、百分数。

3、百分比。

4、百分点：1个百分点=1%，是指变动的幅度。

5、频数：绝对数，是一组数据中个别数据重复出现的次数。

6、频率：相对数，次数与总次数的比。。

7、比例：相对数，总体中各部分占全部的比，如：男生的比例是30:50。

8、比率：相对数，不同类别的比，如男女比率是3:2。

9、倍数：相对数，一个数除以另一个数所得的商，如A/B=C，那么A是B的C倍。

10、番数：相对数，指原来数量的2的N次方，如翻一番，意思是原来数量的2倍，翻两番意思是4倍。

11、同比：相对数，指历史同时期进行比较，如去年12月与今年12月相比是同比。

12、环比：相对数，指与前一个统计期进行比较，如今年5月与今年4月相比是环比。

描述集中趋势的指标：

1、均值：数据和值除以数据个数。

2、中位数：数据按照从小到大的顺序排列时，最中间的数据即为中位数。

3、众数：数据中出现次数最多的数字，即频数最大的数值。

描述离散趋势的指标：

1、极差：极差=最大值-最小值，是描述数据分散程度的量，且对异常值敏感。

2、四分位数：数据从小到大排列并分成四等份，处于三个分割点位置的数值，即为四分位数。

3、方差和标准差：方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。

4、标准分z：对数据进行标准化处理，又叫Z标准化，经过Z标准化处理后的数据符合正态分布。

描述分布形状的指标：

1、峰度：用来反映频数分布曲线顶端尖峭或扁平程度的指标。在正态分布情况下，峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0，是因为已经减去3，这样比较起来方便)，峰度系数>3，呈现尖峭峰形态，说明观察量更集中，有比正态分布更短的尾部；峰度系数<3，呈现平阔峰形态，说明观测量不那么集中，有比正态分布更长的尾部。

2、偏度：描述分布偏离对称性程度的一个特征数。当分布左右对称时，偏度系数为0。当偏度系数大于0时，即重尾在右侧时，该分布为右偏。当偏度系数小于0时，即重尾在左侧时，该分布左偏。

综合应用场景：

风险投资案例：

# 目前你有500万资金，准备进行投资，已知有三只股票, 10位专家分别给出了明天的价格预测：

# A股票，现在10元每股，专家的价格预测序列为：

dataA=[11,9,11,11,13,8,14,1,11,11]

# B股票，现在20元每股，专家的价格预测序列为：

dataB=[28,16,20,94,22,24,26,18,17,27]

# C股票，现在50元每股，专家的价格预测序列为：

dataC=[53,59,47,48,58,53,1,128,53,53]

# 你准备现在买股票，明天卖出去，你会选择那只股票，为什么？

从数据上看，某些专家的预测结果好像不合群，怎么看这些不合群的想法？

题目看似简单，实则包含套路，不同价格的股票，能买进的数量是不一致的，怎么办呢？

处理方式非常多：

1、将股票价格“统一”，全部统一为50元或者10元，购买的股票数就是一致的

2、求出利润率=(股价-股本)/股本，相对值就可以一致处理

3、按照当前价格进行计算，处理计算结果

代码计算过程：

案例选用第三种方式处理，按照当前价格计算后，在对利润里进行处理。

处理过程如下：

步骤1 股票数据录入

录入三支股票预测数据，转化为series数据格式

import pandas as pd
A股票：

dataA=[11,9,11,11,13,8,14,1,11,11]
A=pd.Series(dataA)

B股票：

dataB=[28,16,20,94,22,24,26,18,17,27]
B=pd.Series(dataB)

C股票：

dataC=[53,59,47,48,58,53,1,128,53,53]
C=pd.Series(dataC)

步骤2 剔除异常估计

A股票：

dataA=[11,9,11,11,13,8,14,1,11,11]

A=A.drop(index=7)

#剔除估计中的极小值1

B股票：

dataB=[28,16,20,94,22,24,26,18,17,27]

B=B.drop(index=3)

#剔除估计中的极大值94

C股票：

dataC=[53,59,47,48,58,53,1,128,53,53]

C=C.drop(index=[6,7])

#剔除估计中的极大值与极小值1与128

步骤3 计算收入期望

A股票：A=[11,9,11,11,13,8,14,11,11]

a_mean=A.mean()
print('a_mean')
print(a_mean)

B股票：B=[28,16,20,22,24,26,18,17,27]

b_mean=B.mean()
print('b_mean')
print(b_mean)

C股票：C=[53,59,47,48,58,53,53,53]

c_mean=C.mean()
print('c_mean')
print(c_mean)

步骤4 计算收入波动

A股票：A=[11,9,11,11,13,8,14,11,11]

a_std=A.std()
print('a_std')
print(a_std)

B股票：B=[28,16,20,22,24,26,18,17,27]

b_std=B.std()
print('b_std')
print(b_std)

C股票：C=[53,59,47,48,58,53,53,53]

c_std=C.std()
print('c_std')
print(c_std)

步骤5 计算离散系数

A股票：A=[11,9,11,11,13,8,14,11,11]

print('a_lisanxishu')
print(a_std/a_mean)

B股票：B=[28,16,20,22,24,26,18,17,27]

print('b_lisanxishu')
print(b_std/b_mean)

C股票：C=[53,59,47,48,58,53,53,53]

print('c_lisanxishu')
print(c_std/c_mean)

通过计算，得出的描述性统计分析结果如下表所示：

从利润率来看，A股票和B股票利润率都是10%，大于C股票的6%。从风险来看，离散系数，C股票小于A股票小于B股票。

对于期待高收益、能接受较高风险的投资者来说，应该选择A股票，因为它收益最高，在收益高中的股票中，风险较小。

对于保守的股民来说，应该选择C股票，虽然收益相对较低，但是安全性好。

对于中等偏下风险的股民来说，可以选择A股票与C股票的组合策略，既提高了收益，也相对降低了风险。具体如何配比，要看股民能够承受的风险与期待的利润。这就是风险分散的魅力。

最后，这个案例不存在选择B股票的策略，因为他能够被A股票替代。选B股票的人，有什么理由不选A股票呢。

本期分享到这里，我们会在每周的周三和周五持续更新，咱们下期再见，期待您的光临。

有什么建议，比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等，请在下方留言。如果喜欢请关注。

stata统计分析及行业应用案例分析_描述性统计分析的应用——基于描述性统计分析识别优质股票...相关推荐

stata统计分析及行业应用案例分析_数据分析之路（二）——描述性统计分析和应用案例...
1.描述统计分析将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况. 常用的4个指标:①平均值:②四分位数:③标准差:④标准分 1.1 平均值 ...
stata统计分析及行业应用案例分析_数据分析之路——描述性统计分析和应用案例...
1.描述统计分析将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况. 常用的4个指标:①平均值:②四分位数:③标准差:④标准分平均值表示一 ...
【数字化】数字化转型是什么、为什么、怎么办；2018年数字化供应链行业及案例分析报告
每一次潮流的到来,都不乏奔走相告的玩家.数字化转型同样如此.如今,人人都在谈企业数字化.谈转型.从媒体.咨询公司.IT厂商再到广告传播服务商,行业链条上的每个组成者,推杯换盏间就能道出个一二. 有的说 ...
《MATLAB 神经网络43个案例分析》：第25章基于MIV的神经网络变量筛选----基于BP神经网络的变量筛选
<MATLAB 神经网络43个案例分析>:第25章基于MIV的神经网络变量筛选----基于BP神经网络的变量筛选 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 < ...
《MATLAB 神经网络43个案例分析》：第5章基于BP_Adaboost的强分类器设计——公司财务预警建模
<MATLAB 神经网络43个案例分析>:第5章基于BP_Adaboost的强分类器设计--公司财务预警建模 1. 前言 2. MATLAB 仿真示例一 3. MATLAB 仿真示例二 ...
《MATLAB 神经网络43个案例分析》：第19章基于SVM的手写字体识别
<MATLAB 神经网络43个案例分析>:第19章基于SVM的手写字体识别 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB 神经网络43个案例分析 ...
《MATLAB 神经网络43个案例分析》：第30章基于随机森林思想的组合分类器设计——乳腺癌诊断
<MATLAB 神经网络43个案例分析>:第30章基于随机森林思想的组合分类器设计--乳腺癌诊断 1. 前言 2. MATLAB 仿真示例 3. 小结 1. 前言 <MATLAB ...
产品设计美学案例分析_美学在产品设计中的重要性
产品设计美学案例分析重点 (Top highlight) In one of my previous jobs, I had really interesting debates with the ...
人口老龄化案例分析_公开老龄化：这个社区如何改变了我们
人口老龄化案例分析社区永远会让您感到惊讶. 对于像我这样的人来说,这不是一个简单的说法. 我不是一个惊喜. 我陶醉于可预测性. 我追求一致性. 一个充满激情和奉献精神的社区几乎没有提供这些舒适感. ...

stata统计分析及行业应用案例分析_描述性统计分析的应用——基于描述性统计分析识别优质股票...

stata统计分析及行业应用案例分析_描述性统计分析的应用——基于描述性统计分析识别优质股票...相关推荐

最新文章

热门文章