数据分析课设(SPSS,EVIEWS,R)【理论】
对外汇数据作前向、后向以及逐步回归,并对输出结果作分析和理论解释。
x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 | x11 | x12 | 省市 | y |
1.94 | 4.5 | 154.45 | 207.33 | 246.87 | 277.64 | 135.79 | 30.58 | 110.67 | 80.83 | 51.83 | 14.09 | 北 京 | 2384 |
0.33 | 6.49 | 133.16 | 127.29 | 120.17 | 114.88 | 81.21 | 14.05 | 35.7 | 16 | 27.1 | 2.93 | 天 津 | 202 |
6.16 | 17.18 | 313.4 | 386.96 | 202.98 | 204.22 | 79.43 | 32.42 | 79.38 | 14.54 | 128.13 | 42.15 | 河 北 | 100 |
5.35 | 9.3 | 123.8 | 122.94 | 101.59 | 96.84 | 34.67 | 13.99 | 37.28 | 5.93 | 63.91 | 3.12 | 山 西 | 38 |
3.78 | 4.26 | 106.05 | 95.49 | 27.58 | 22.75 | 34.24 | 14.06 | 28.2 | 4.69 | 35.72 | 9.51 | 内蒙古 | 126 |
11.17 | 8.17 | 271.96 | 533.15 | 164.4 | 123.78 | 187.7 | 58.63 | 90.52 | 31.71 | 84.05 | 11.61 | 辽 宁 | 262 |
2.84 | 3.61 | 109.37 | 130.8 | 52.49 | 62.26 | 38.15 | 21.82 | 44.53 | 25.78 | 48.49 | 14.22 | 吉 林 | 38 |
8.64 | 11.41 | 160.06 | 246.57 | 109.18 | 115.32 | 68.71 | 34.55 | 58.08 | 13.52 | 72.05 | 21.17 | 黑龙江 | 121 |
3.64 | 6.67 | 244.42 | 412.04 | 459.63 | 512.21 | 160.45 | 43.51 | 89.93 | 48.55 | 48.63 | 7.05 | 上 海 | 1218 |
30.89 | 19.08 | 435.77 | 724.85 | 376.04 | 381.81 | 210.39 | 71.82 | 150.64 | 23.74 | 188.28 | 19.65 | 江 苏 | 529 |
6.26 | 6.3 | 321.75 | 665.8 | 157.94 | 172.19 | 147.16 | 52.44 | 78.16 | 10.9 | 93.05 | 9.45 | 浙 江 | 361 |
4.13 | 8.87 | 152.29 | 258.6 | 83.42 | 85.1 | 75.74 | 26.75 | 63.47 | 5.89 | 47.02 | 2.66 | 安 徽 | 51 |
5.85 | 5.61 | 347.25 | 332.59 | 157.32 | 172.48 | 115.16 | 33.8 | 77.27 | 8.69 | 79.01 | 8.24 | 福 建 | 651 |
6.7 | 6.8 | 145.4 | 143.54 | 97.4 | 100.5 | 43.28 | 17.71 | 51.03 | 5.41 | 62.03 | 18.25 | 江 西 | 43 |
10.8 | 11.73 | 442.2 | 665.33 | 411.89 | 429.88 | 115.07 | 87.45 | 145.25 | 21.39 | 187.77 | 110.2 | 山 东 | 220 |
4.16 | 22.51 | 299.63 | 316.81 | 132.57 | 139.76 | 84.79 | 53.93 | 84.23 | 12.36 | 116.89 | 10.38 | 河 南 | 101 |
4.64 | 7.65 | 195.56 | 373.04 | 161.84 | 180.14 | 101.58 | 58 | 80.53 | 21.61 | 100.69 | 5.16 | 湖 北 | 88 |
7.08 | 10.99 | 216.49 | 291.73 | 119.22 | 125.62 | 47.05 | 48.19 | 97.97 | 12.07 | 139.39 | 16.67 | 湖 南 | 156 |
16.3 | 24.1 | 688.83 | 827.16 | 271.07 | 268.2 | 331.55 | 71.44 | 146.15 | 23.38 | 145.77 | 16.52 | 广 东 | 2942 |
4.01 | 4 | 125.04 | 243.5 | 52.06 | 31.22 | 47.25 | 25.59 | 55.27 | 4.49 | 60.13 | 13.64 | 广 西 | 156 |
0.8 | 2.07 | 35.03 | 60.9 | 29.2 | 30.14 | 20.22 | 4.22 | 12.19 | 1.3 | 9.29 | 0.27 | 海 南 | 96 |
4.42 | 2.11 | 78.93 | 138.43 | 68.31 | 73.84 | 79.98 | 18.42 | 43.3 | 20.01 | 48.48 | 0.72 | 重 庆 | 88 |
11.18 | 9.42 | 196.27 | 328.46 | 204.49 | 144.45 | 101.21 | 43.01 | 74.22 | 15.85 | 90.6 | 11.05 | 四 川 | 84 |
2.01 | 2.03 | 25.04 | 69.97 | 40.86 | 36.45 | 27.02 | 13.8 | 26.83 | 2.86 | 25.63 | 6.76 | 贵 州 | 48 |
6.43 | 6.08 | 88.9 | 170.15 | 88.86 | 89.84 | 33.66 | 29.2 | 51.25 | 8.6 | 40.47 | 4.81 | 云 南 | 261 |
1.91 | 0.98 | 5.08 | 11.13 | 0.67 | 1.69 | 1.94 | 2.95 | 5.02 | 0.89 | 7.59 | 0.17 | 西 藏 | 33 |
5.49 | 9.9 | 115.42 | 94.63 | 76.57 | 53.14 | 47.88 | 22.08 | 56.97 | 14.02 | 48.64 | 38.17 | 陕 西 | 247 |
3.97 | 7.8 | 39.32 | 99.23 | 41.64 | 50.55 | 11.41 | 8.81 | 15.98 | 6.33 | 16.46 | 7.02 | 甘 肃 | 30 |
1.31 | 3.08 | 13.67 | 18.79 | 18.37 | 18.57 | 3.15 | 3.14 | 8.66 | 1.26 | 14.3 | 1.2 | 青 海 | 3 |
1.1 | 2.1 | 16.11 | 19.64 | 17.85 | 16.52 | 4.16 | 3.03 | 6.76 | 1.06 | 7.52 | 3.18 | 宁 夏 | 1 |
4.58 | 10.35 | 92.03 | 103.34 | 49.19 | 50.2 | 28.14 | 11.82 | 37.95 | 4.52 | 39.49 | 3.53 | 新 疆 | 82 |
向前向后略,仅展示逐步
模型摘要 |
|||||||||||
模型 |
R |
R 方 |
调整后 R 方 |
标准估算的错误 |
更改统计 |
||||||
R 方变化量 |
F 变化量 |
显著性 F 变化量 |
AIC(Eviews结果) |
||||||||
1 |
.741a |
.549 |
.533 |
455.9279 |
.549 |
35.261 |
.000 |
15.14489 |
|||
2 |
.835b |
.697 |
.675 |
380.4405 |
.148 |
13.650 |
.001 |
14.81230 |
|||
3 |
.860c |
.739 |
.710 |
359.3347 |
.042 |
4.386 |
.046 |
14.72630 |
|||
4 |
.885d |
.783 |
.749 |
334.0439 |
.044 |
5.243 |
.030 |
14.60711 |
|||
5 |
.908e |
.824 |
.789 |
306.8386 |
.041 |
5.815 |
.024 |
14.46251 |
|||
6 |
.901f |
.812 |
.783 |
310.9102 |
-.012 |
1.695 |
.205 |
14.46358 |
|||
7 |
.889g |
.791 |
.768 |
321.5075 |
-.021 |
2.872 |
.102 |
14.50383 |
|||
a. 预测变量:(常量), x7 |
|||||||||||
b. 预测变量:(常量), x7, x4 |
|||||||||||
c. 预测变量:(常量), x7, x4, x10 |
|||||||||||
d. 预测变量:(常量), x7, x4, x10, x3 |
|||||||||||
e. 预测变量:(常量), x7, x4, x10, x3, x11 |
|||||||||||
f. 预测变量:(常量), x4, x10, x3, x11 |
|||||||||||
g. 预测变量:(常量), x10, x3, x11 |
|||||||||||
系数a |
||||||
模型 |
未标准化系数 |
标准化系数 |
t |
显著性 |
||
B |
标准错误 |
Beta |
||||
1 |
(常量) |
-209.535 |
124.469 |
-1.683 |
.103 |
|
x7 |
6.907 |
1.163 |
.741 |
5.938 |
.000 |
|
2 |
(常量) |
-96.142 |
108.300 |
-.888 |
.382 |
|
x7 |
13.791 |
2.101 |
1.479 |
6.564 |
.000 |
|
x4 |
-2.520 |
.682 |
-.832 |
-3.695 |
.001 |
|
3 |
(常量) |
-174.886 |
108.984 |
-1.605 |
.120 |
|
x7 |
11.152 |
2.351 |
1.196 |
4.744 |
.000 |
|
x4 |
-2.034 |
.685 |
-.672 |
-2.970 |
.006 |
|
x10 |
10.761 |
5.139 |
.260 |
2.094 |
.046 |
|
4 |
(常量) |
-228.815 |
104.015 |
-2.200 |
.037 |
|
x7 |
8.786 |
2.417 |
.942 |
3.635 |
.001 |
|
x4 |
-3.261 |
.832 |
-1.077 |
-3.919 |
.001 |
|
x10 |
13.864 |
4.965 |
.335 |
2.792 |
.010 |
|
x3 |
2.849 |
1.244 |
.647 |
2.290 |
.030 |
|
5 |
(常量) |
-140.625 |
102.304 |
-1.375 |
.181 |
|
x7 |
3.910 |
3.003 |
.419 |
1.302 |
.205 |
|
x4 |
-1.997 |
.927 |
-.660 |
-2.154 |
.041 |
|
x10 |
18.431 |
4.939 |
.446 |
3.732 |
.001 |
|
x3 |
5.090 |
1.473 |
1.157 |
3.455 |
.002 |
|
x11 |
-7.442 |
3.086 |
-.551 |
-2.411 |
.024 |
|
6 |
(常量) |
-127.159 |
103.130 |
-1.233 |
.229 |
|
x4 |
-1.289 |
.761 |
-.426 |
-1.695 |
.102 |
|
x10 |
22.650 |
3.776 |
.548 |
5.998 |
.000 |
|
x3 |
6.375 |
1.108 |
1.448 |
5.753 |
.000 |
|
x11 |
-10.148 |
2.312 |
-.751 |
-4.389 |
.000 |
|
7 |
(常量) |
-117.497 |
106.482 |
-1.103 |
.280 |
|
x10 |
21.479 |
3.839 |
.519 |
5.595 |
.000 |
|
x3 |
4.975 |
.764 |
1.130 |
6.516 |
.000 |
|
x11 |
-11.264 |
2.292 |
-.834 |
-4.916 |
.000 |
|
a. 因变量:y |
分析:
最终得到 y=-117.497+21.479x10+4.975x3-11.264x11
对比
前向法:y=-140.625+3.910x7-1.997x4+18.431x10+5.090x3-7.442x11
后向法:y=-184.69+4.325x3-20.188x8+17.334x9+11.644x10-12.998x11
可以发现x3 x10 x11最后均在三种方法中保存下来,再一次验证了这三个变量更适合进行回归。
根据上述统计量R^2、R^2调整、AIC:
我们发现前五步和前向法一样,R^2继承了变量增多就增大的传统,一如既往地在变量最多的第五步是数值最大的,而R^2调整不落后尘因为在之前前向法的分析中就是第五步的情况最好,即使后来删减了变量,依然无法撼动x3 x4 x7 x10 x11这一组合的地位!但是真的那么顺利吗?从其他角度(AIC统计量)来看,果真如此,AIC最低值落在了第五步。因此我们有理由确定第五步的情况非常适合拟合回归。
在Eviews下 示例(仅最后一步验证):
Dependent Variable: Y |
||||
Method: Stepwise Regression |
||||
Date: 10/26/20 Time: 20:36 |
||||
Sample: 1 31 |
||||
Included observations: 31 |
||||
Number of always included regressors: 1 |
||||
Number of search regressors: 12 |
||||
Selection method: Stepwise forwards |
||||
Stopping criterion: p-value forwards/backwards = 0.05/0.051 |
||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob.* |
C |
-117.4965 |
106.4821 |
-1.103439 |
0.2796 |
X11 |
-11.26444 |
2.291584 |
-4.915569 |
0.0000 |
X3 |
4.975142 |
0.763533 |
6.515946 |
0.0000 |
X10 |
21.47859 |
3.838694 |
5.595287 |
0.0000 |
R-squared |
0.791069 |
Mean dependent var |
347.0968 |
|
Adjusted R-squared |
0.767854 |
S.D. dependent var |
667.2840 |
|
S.E. of regression |
321.5075 |
Akaike info criterion |
14.50383 |
|
Sum squared resid |
2790910. |
Schwarz criterion |
14.68886 |
|
Log likelihood |
-220.8094 |
Hannan-Quinn criter. |
14.56415 |
|
F-statistic |
34.07639 |
Durbin-Watson stat |
1.242992 |
|
Prob(F-statistic) |
0.000000 |
|||
Selection Summary |
||||
Added X7 |
||||
Added X4 |
||||
Added X10 |
||||
Added X3 |
||||
Added X11 |
||||
Removed X7 |
||||
Removed X4 |
||||
*Note: p-values and subsequent tests do not account for stepwise |
||||
selection. |
对数据进行岭回归,lasso,pca分析
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
______ ______ ________ ________ ________ ________ ________ ________ ________ ________ ________ ________ ________ ________
.00000 .87481 -.012491 .022873 .749084 -.312414 -.962825 .759538 .446284 -.519848 1.037980 .221303 -.780227 .041865
.01000 .86789 -.055610 .027677 .719018 -.255572 -.437414 .293662 .441002 -.505298 .786637 .287679 -.611372 .013926
.02000 .85976 -.072465 .038023 .657698 -.220189 -.298092 .180214 .464919 -.476889 .638421 .315486 -.513426 .006697
.03000 .85231 -.081208 .046847 .608603 -.190878 -.229206 .128640 .475058 -.448808 .541643 .331856 -.452919 .000636
.04000 .84548 -.086395 .053850 .568792 -.166619 -.186798 .099777 .477484 -.422877 .473334 .342069 -.411422 -.005267
.05000 .83915 -.089680 .059310 .535619 -.146433 -.157441 .081835 .475775 -.399303 .422456 .348511 -.380745 -.011018
.06000 .83322 -.091812 .063540 .507358 -.129465 -.135565 .069969 .471786 -.377934 .383053 .352488 -.356796 -.016545
.07000 .82761 -.093180 .066799 .482864 -.115043 -.118424 .061811 .466521 -.358540 .351621 .354782 -.337326 -.021796
.08000 .82227 -.094013 .069294 .461342 -.102654 -.104497 .056063 .460552 -.340887 .325957 .355890 -.321000 -.026744
.09000 .81717 -.094454 .071183 .442221 -.091906 -.092868 .051953 .454219 -.324766 .304602 .356142 -.306981 -.031380
.10000 .81228 -.094598 .072588 .425075 -.082500 -.082952 .048998 .447729 -.309990 .286554 .355766 -.294715 -.035706
.11000 .80757 -.094512 .073606 .409582 -.074202 -.074354 .046876 .441214 -.296399 .271099 .354920 -.283822 -.039732
.11000 .80757 -.094512 .073606 .409582 -.074202 -.074354 .046876 .441214 -.296399 .271099 .354920 -.283822 -.039732
.12000 .80302 -.094244 .074312 .395489 -.066831 -.066798 .045369 .434753 -.283859 .257715 .353722 -.274031 -.043472
.13000 .79863 -.093833 .074764 .382596 -.060240 -.060082 .044324 .428399 -.272249 .246011 .352257 -.265143 -.046940
.14000 .79437 -.093306 .075011 .370741 -.054314 -.054059 .043628 .422183 -.261471 .235687 .350589 -.257008 -.050154
.15000 .79025 -.092686 .075089 .359792 -.048958 -.048614 .043200 .416124 -.251435 .226513 .348766 -.249512 -.053129
.16000 .78624 -.091990 .075031 .349641 -.044095 -.043659 .042979 .410232 -.242068 .218305 .346827 -.242563 -.055882
.17000 .78234 -.091232 .074860 .340195 -.039661 -.039124 .042919 .404512 -.233303 .210918 .344801 -.236090 -.058428
.18000 .77854 -.090425 .074597 .331377 -.035601 -.034953 .042984 .398965 -.225084 .204232 .342710 -.230034 -.060781
.19000 .77484 -.089578 .074260 .323122 -.031872 -.031099 .043147 .393589 -.217359 .198151 .340572 -.224347 -.062955
.20000 .77124 -.088699 .073861 .315373 -.028435 -.027525 .043384 .388380 -.210085 .192596 .338403 -.218989 -.064963
.21000 .76772 -.087796 .073413 .308082 -.025258 -.024200 .043680 .383334 -.203223 .187501 .336212 -.213926 -.066816
.22000 .76428 -.086873 .072925 .301206 -.022313 -.021095 .044021 .378446 -.196738 .182808 .334011 -.209128 -.068526
.23000 .76091 -.085935 .072404 .294709 -.019576 -.018190 .044396 .373709 -.190599 .178473 .331805 -.204572 -.070102
.24000 .75762 -.084987 .071859 .288557 -.017027 -.015463 .044796 .369118 -.184779 .174454 .329601 -.200236 -.071555
.25000 .75441 -.084032 .071294 .282722 -.014646 -.012899 .045214 .364668 -.179254 .170717 .327404 -.196101 -.072892
.26000 .75125 -.083073 .070713 .277179 -.012419 -.010483 .045645 .360352 -.174000 .167232 .325218 -.192152 -.074122
.27000 .74816 -.082112 .070122 .271905 -.010331 -.008202 .046083 .356165 -.168998 .163975 .323046 -.188372 -.075253
.28000 .74513 -.081151 .069524 .266879 -.008371 -.006044 .046525 .352102 -.164230 .160922 .320890 -.184751 -.076290
.29000 .74216 -.080193 .068920 .262083 -.006527 -.004001 .046969 .348156 -.159680 .158056 .318752 -.181276 -.077241
.30000 .73925 -.079238 .068314 .257502 -.004789 -.002062 .047411 .344323 -.155332 .155357 .316635 -.177938 -.078111
因为不知道X1~X12实际背景下各变量的意义,所以应该根据实际情况(各变量与因变量在实际生活或专业知识中是否是正相关或负相关)以及K-RSQ图,k(即lambda)由小到大来选择,k在0.1~0.2时,回归系数开始趋于稳定。比如当K取0.2是,得到的方程为:
y = -0.088699x1 +0.073861x2 +0.315373x3 -0.028435x4 -0.027525x5 +0.043384x6 +0.388380x7 -0.210085x8 +0.192596x9 +0.338403x10 -0.218989x11 -0.064963x12
通过下图对比,可以进一步验证,k=0.2时,各变量的岭迹趋于平稳,再回看上图,k=0.2之后也没有明显的波动,所以两者结论一致。在k=0.2时,虽然RSQ不如k=0时高,但是我们通过减少部分信息换来更好的估计效果,这是值得的。
LASSO
通过Eviews进行Lasso回归,因为Eviews没有直接给LASSO的方法,所以我们可以通过弹性网进行计算,
只需要α=1时,可以演变成LASSO方法。
得到以下数据:
Dependent Variable: Y |
||||
Method: Elastic Net Regularization |
||||
Date: 11/10/20 Time: 20:06 |
||||
Sample: 1 31 |
||||
Included observations: 31 |
||||
Penalty type: LASSO (alpha = 1) |
||||
Lambda at minimum error: 92.69 |
||||
Regressor transformation: Std Dev (smpl) |
||||
Cross-validation method: K-Fold (number of folds = 5), rng=kn, |
||||
seed=99713398 |
||||
Selection measure: Mean Squared Error |
||||
(minimum) |
(+ 1 SE) |
(+ 2 SE) |
||
Lambda |
92.69 |
465.3 |
465.3 |
|
Variable |
Coefficients |
|||
X1 |
2.10E-08 |
0.000000 |
0.000000 |
|
X10 |
10.62391 |
0.329137 |
0.329137 |
|
X11 |
0.000000 |
0.000000 |
0.000000 |
|
X12 |
-0.331988 |
0.000000 |
0.000000 |
|
X2 |
0.000000 |
0.000000 |
0.000000 |
|
X3 |
0.392510 |
0.008381 |
0.008381 |
|
X4 |
0.000000 |
0.003180 |
0.003180 |
|
X5 |
2.21E-09 |
0.000000 |
0.000000 |
|
X6 |
0.035251 |
0.000000 |
0.000000 |
|
X7 |
2.285083 |
0.046742 |
0.046742 |
|
X8 |
4.62E-09 |
0.000000 |
0.000000 |
|
X9 |
0.900589 |
0.203648 |
0.203648 |
|
C |
-126.1446 |
323.2102 |
323.2102 |
|
d.f. |
9 |
5 |
5 |
|
L1 Norm |
140.7139 |
323.8013 |
323.8013 |
|
R-squared |
0.573399 |
0.034777 |
0.034777 |
|
该数据表面最佳lambda取92.69(Eviews中对lambda的解释是Ratio of minimum to maximum lambda for EViews-supplied list,实际上它只能在0~1之间,这里我对min/max lambda=0.0001),然而此时x11 x2 x4被去除,而x1 x5 x8的系数对回归方程的影响也微乎其微,我们可以联想到曾经做前进、后退和逐步回归。
因为lasso回归是使用收缩的线性回归,对于最后一项L1范数,事实上约束了模型参数,使得某些变量回归系数缩小为零,也就是之前提到的“收缩”。
经过处理高相关性变量后只留下了9个变量。
通过上图我们可以看出x10在lambda=92之后依然有较大的起伏,但是其他变量都逐渐趋于平稳。
也进一步证明了对于lambda既要取得小又要取得好的92是可行的。
得到以下统计量
Forecast: YF |
|
Actual: Y |
|
Forecast sample: 1 31 |
|
Included observations: 31 |
|
Root Mean Squared Error |
428.7473 |
Mean Absolute Error |
267.1796 |
Mean Absolute Percentage Error |
570.8096 |
Theil Inequality Coef. |
0.344282 |
Bias Proportion |
0.000000 |
Variance Proportion |
0.465991 |
Covariance Proportion |
0.534009 |
Theil U2 Coefficient |
0.520825 |
Symmetric MAPE |
102.9197 |
我们可以对比普通最小二乘时的结果:
Forecast: YF |
|
Actual: Y |
|
Forecast sample: 1 31 |
|
Included observations: 31 |
|
Root Mean Squared Error |
232.2607 |
Mean Absolute Error |
197.1669 |
Mean Absolute Percentage Error |
1009.038 |
Theil Inequality Coef. |
0.160419 |
Bias Proportion |
0.000000 |
Variance Proportion |
0.033425 |
Covariance Proportion |
0.966575 |
Theil U2 Coefficient |
1.324975 |
Symmetric MAPE |
113.5775 |
可以发现在添加LASSO正则项后,MSE、平均绝对误差和平均绝对百分误差都上升了。
PCA
通过SPSS可以得到以下特征值贡献率情况:
成分 |
初始特征值a |
|||
总计 |
方差百分比 |
累积 % |
||
原始 |
1 |
96887.647 |
87.246 |
87.246 |
2 |
9689.193 |
8.725 |
95.971 |
|
3 |
2103.445 |
1.894 |
97.865 |
|
4 |
1479.046 |
1.332 |
99.197 |
|
5 |
446.118 |
.402 |
99.598 |
|
6 |
184.926 |
.167 |
99.765 |
|
7 |
143.417 |
.129 |
99.894 |
|
8 |
43.857 |
.039 |
99.933 |
|
9 |
31.613 |
.028 |
99.962 |
|
10 |
27.888 |
.025 |
99.987 |
|
11 |
9.475 |
.009 |
99.996 |
|
12 |
4.896 |
.004 |
100.000 |
从上表可知,特征值前两个对总数据表达的贡献程度较高(第一个甚至独占了87.246%的比重,而第二个虽然对比重体来说也比较高(8.725%))然而相比较第一特征值,还是逊色许多。如果从尽可能地包含原信息的角度来说,也可以将第三和第四个特征纳入我们的考虑范围内,但是一般来说,既然都做PCA降维了,没必要还留那么多信息,重点还是希望减少信息得到他们共有的表达变量,从而以少量的变量进行新的表示。
以上碎石图也很直观的能看出前两个特征值对总体表达的占比。
原始 |
||
成分 |
||
1 |
2 |
|
x1 |
4.195 |
-.852 |
x2 |
3.970 |
-1.257 |
x3 |
144.276 |
-29.159 |
x4 |
215.711 |
-36.110 |
x5 |
101.999 |
55.366 |
x6 |
105.668 |
65.480 |
x7 |
64.468 |
-7.777 |
x8 |
20.878 |
-1.153 |
x9 |
37.351 |
2.572 |
x10 |
7.254 |
8.335 |
x11 |
42.440 |
-5.373 |
x12 |
9.850 |
3.595 |
因此,SPSS也自动地取了前两个特征,其中由第二列(第一特征值)可以看出它由x3 x4 x5 x6较高程度地影响着,并且是正相关;第三列(第二特征值)其中由x3 x4 x5 x6较高程度地影响着,但是因为这两个特征值所代表的现实意义不同,所以这次只是巧合也是这几个变量影响较大,而且他们也没有第一特征值的时候影响得大,x3 x4和其他几个变量甚至在第二特征值的情况下产生了负相关影响。所以第一第二特征值的实际意义还依赖于现实常识和专业知识的理解。
最后回到协方差矩阵分析:
相关性矩阵 |
|||||||||||||
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
x8 |
x9 |
x10 |
x11 |
x12 |
||
相关性 |
x1 |
1.000 |
.640 |
.691 |
.738 |
.582 |
.519 |
.663 |
.691 |
.719 |
.150 |
.758 |
.301 |
x2 |
.640 |
1.000 |
.773 |
.658 |
.502 |
.464 |
.602 |
.660 |
.686 |
.118 |
.760 |
.337 |
|
x3 |
.691 |
.773 |
1.000 |
.934 |
.742 |
.710 |
.885 |
.867 |
.889 |
.314 |
.855 |
.457 |
|
x4 |
.738 |
.658 |
.934 |
1.000 |
.780 |
.743 |
.887 |
.926 |
.892 |
.348 |
.849 |
.437 |
|
x5 |
.582 |
.502 |
.742 |
.780 |
1.000 |
.989 |
.740 |
.790 |
.850 |
.630 |
.705 |
.515 |
|
x6 |
.519 |
.464 |
.710 |
.743 |
.989 |
1.000 |
.703 |
.753 |
.821 |
.646 |
.666 |
.493 |
|
x7 |
.663 |
.602 |
.885 |
.887 |
.740 |
.703 |
1.000 |
.781 |
.834 |
.541 |
.649 |
.190 |
|
x8 |
.691 |
.660 |
.867 |
.926 |
.790 |
.753 |
.781 |
1.000 |
.931 |
.404 |
.906 |
.548 |
|
x9 |
.719 |
.686 |
.889 |
.892 |
.850 |
.821 |
.834 |
.931 |
1.000 |
.569 |
.895 |
.533 |
|
x10 |
.150 |
.118 |
.314 |
.348 |
.630 |
.646 |
.541 |
.404 |
.569 |
1.000 |
.241 |
.155 |
|
x11 |
.758 |
.760 |
.855 |
.849 |
.705 |
.666 |
.649 |
.906 |
.895 |
.241 |
1.000 |
.613 |
|
x12 |
.301 |
.337 |
.457 |
.437 |
.515 |
.493 |
.190 |
.548 |
.533 |
.155 |
.613 |
1.000 |
我们发现之前所说的x3 x4 以及x5 x6两两之间高度相关,我们有理由怀疑,他们两者在多重共线性去重后,再次进行PCA,各变量对第一特征值和第二特征值的影响有可能还是和目前情况差不多。
在岭回归中,dj的缩减对PCA造成何种影响?
对于带有L2正则项的OLS,有以下损失函数:
易解:
现在我们需要做SVD分解:
使得
其中U为n*p维正交矩阵,D为p*p维主对角线矩阵,V为p*p维转置正交矩阵
得到:
其中dj为D中对角线上的元素。
通过上式括号内的第一项改写:
因此可以得到:
由主成分分析法的公式联想到:设γj为Z矩阵第j个主成分,于是得到以下关系:
γj = Z vj = uj dj
我们发现,
1.uj作为新的变量并向每个进行投影。
2.使用它缩减投影。特征值dj较小的方向会产生更大的相对收缩,而变量的大小决定了dj的大小,因此会影响收缩率。当lambda=0时,这一项等于1,而解将退化成最小二乘解,当lambda充分大时,这一项趋于0,等于0
数据分析课设(SPSS,EVIEWS,R)【理论】相关推荐
- 金融数据挖掘Jupyter—北京市二手房数据分析—课设
基于北京市各区二手房的数据分析 (1)房源数据分析与可视化 1.北京二手房房源分布 2.户型分布关系 3.楼层与房源的分布关系 (2)房价数据分析与可视化 1.房价与房屋户型的关系 2.房价与楼层的关 ...
- 大数据分析课程(数据分析课设--包含代码)
该项目为疫情数据的分析,数据集为公开的数据集,效果图如下: 图一:对中国疫情数据的地图化显示,光标在对应的地区上会显示该地区的数据 图二:对中国所有数据的统计 图三:疫情的发展情况演变图(点击播放会递 ...
- R语言数据分析笔记——t检验(含正态性检验和方差齐性检验在SPSS和R语言中的操作t检验(单样本、双独立样本、配对样本)在Excel、SPSS、R语言中的操作)
前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①假设分析的基础知识.②正态性检验和方差齐性检验在SPSS和R语言中的操作.③t检验(单样本.双独立样本.配对样本)在Excel. ...
- 数据分析包的比较:R,Matlab,SciPy,Excel,SAS,SPSS,Stata
数据分析包的比较:R,Matlab,SciPy,Excel,SAS,SPSS,Stata (2010-11-02 12:35:29) 标签: 数据分析 机器学习 it 分类: 数据挖掘 数据分析包的比 ...
- Python课设实验 之 爬虫应用——校园网搜索引擎(使用bs4进行数据分析.)
题目要求: 第3题 爬虫应用--校园网搜索引擎 本题旨在使用Python建立一个适合校园网使用的Web搜索引擎系统,它能在较短时间内爬取页面信息,具有有效准确的中文分词功能,实现对校园网上新闻信息的 ...
- C/C++程序设计课设题[2023-05-20]
C/C++程序设计课设题[2023-05-20] ATM仿真系统-薛景 背单词-叶水仙-理科实验班 电信优惠套餐推荐系统的设计与实现-朱立华-通信工程 多媒体文件管理及检索系统-刘林峰-广播电视工程 ...
- python课设答辩ppt_如何制作优秀的毕业论文答辩PPT
首答于知乎,链接:https://www.zhihu.com/question/23221029/answer/717686184 特此作为up主我的第一篇专栏文稿 ╭(●`∀´●)╯. 顺便纪念自己 ...
- C语言课设物资管理系统,C语言课设之物资管理系统.doc
C语言课设之物资管理系统 C语言课程设计 目 录 1.需求分析: 2.系统总框图: 3.每个模块的设计分析: 4.列出所有定义的函数及说明: 5.举例说明1.2个比较有特点的算法: 6.数据分析.完备 ...
- 简单行编辑程序设计文档(数据结构)课设
数据结构课设 摘要 1 绪论 1.1 设计任务 1.2 设计思想 1.3 基础知识 1.3.1栈的概念和特性 1.3.2栈的存储结构 1.3.3对栈的几种运算的实现方法 2 相关数据类型的类C语言定义 ...
最新文章
- java getrecord_Java TCType.getRecord方法代码示例
- android防治方法被反射,通过去classLoader避免Android P反射限制后还原classLoader的方法...
- Spark之SQL解析(源码阅读十)
- NYOJ 536 开心的mdd
- C语言再学习 -- linux 压缩与解压缩含义
- 面对枯燥的源码,如何才能看得下去
- TortoiseSVN菜单项功能说明
- Java并发编程实战~ThreadLocal
- pysimplegui 显示 html,PySimpleGUI 的第一个桌面软件
- 【网络安全面试题】—如何注入攻击Java Python PHP等主流语言
- 标签地址src路径拼接_第二十四天HTML一些常见的标签
- HDFS中JAVA API的使用
- Java异步NIO框架Netty实现高性能高并发
- 新版掌上阅读小说源码+支持公众号/分站/封装APP
- 中山大学2016年数学分析高等代数考研试题参考解答及其讲解
- 小程序 Vant Weapp 使用插槽自定义 Cell 的左侧图标
- 调用Gmaps根据地址显示对应的Google地图(对控件进行隐藏和改变)
- python 气泡图 聚类_R可视化 | 气泡图
- android计时器
- 运用区块链溯源有什么意义呢?