数据分析

维度初步整理好以后,可以尝试用R去做一些相关性分析,不过效果太差,因为实际情况中,线性回归的效果是很差的。
这里我定义了1个CHANCE的列(Factor),当买入天数(BuyRK)和卖出天数(SellRK)都存在时,则机会为1,否则为0。
当然,这是一个分类的问题,也就少不了用SVM和朴素贝叶斯尝试去做分类,不过效果都非常差(无法整体分类),所以都不展示了。如果第一篇所述,这里选择决策树来分析。
针对1万多条数据,统计的基本情况如下:

>round(prop.table(summary(dzjy$CHANCE)),3)0     1
0.792 0.208 

可以看到,只有21%的大宗交易是有机会的。之前看到有人分析,说大宗交易对于股价的影响为0(涨跌概率50%),这点算是符合的。机会远小于风险(指从逻辑上无法解释,不会产生机会的情况),其中有几类风险是要规避的:
1. 交易量不能超过流通股本的百分之二,这是因为这种行为不太可能是短期的,不符合假设;
2. 距离上一次大宗交易超过5个交易日,因为超频繁的大宗交易不符合假设;
3. 不存在同席位交易,同席位意味着大概率上是自导自演;
4. 近3日波动幅度低于15%,因为中间出现某只股票连续涨/跌停。

在过滤掉以上数据后,得到如下结果:

(b=rpart(CHANCE~Discount+BuyerCount+SellerCount+TradeToSelf+VolumeToCapital+LastDZJYDays+ClosedDays+ZSCloseToMA20+ZSCloseToMA5+CloseToMA20+CloseToMA5+FluctRange3, data=dzjy))n= 3355 node), split, n, loss, yval, (yprob)* denotes terminal node1) root 3355 736 0 (0.7806259 0.2193741) *

虽然有机会的概率只提高了1%,但去掉那些数据毫无疑问是必需的。
再来查看折扣率(存在2.17是因为复权),波动幅度等数据:

summary(dzjy$Discount)Min.   1st Qu.    Median      Mean   3rd Qu.      Max.
-0.181000 -0.074000 -0.011000  0.004642  0.001500  2.172000 summary(dzjy$FluctRange3)Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
0.00470 0.03430 0.04990 0.05634 0.07220 0.14980 

对这部分数据尝试用决策树求解,找到这样的叶节点:当折扣率介于 [-4%, 0.0%],3日内波动幅度>=3%,交易量占流通股本的比例超过0.013%,指数在其20日线之下11%时(大盘超跌):

rpart(CHANCE~Discount+BuyerCount+SellerCount+TradeToSelf+VolumeToCapital+LastDZJYDays+ClosedDays+ZSCloseToMA20+ZSCloseToMA5+CloseToMA20+CloseToMA5+FluctRange3, data=dzjy[ind1, ])
n= 12 node), split, n, loss, yval, (yprob)* denotes terminal node1) root 12 1 1 (0.08333333 0.91666667) *

查看具体是哪几天:

> unique(dzjy[ind1, ]$TradeDate)[1] "2017-04-25" "2017-11-03" "2017-12-11" "2017-11-30" "2017-10-19" "2017-04-20" "2017-05-09"[8] "2017-05-26" "2017-06-01" "2017-06-06" "2017-11-29"

同样,按照这种方法,也找到另一些数据集,如:

rpart(CHANCE~Discount+BuyerCount+SellerCount+TradeToSelf+VolumeToCapital+LastDZJYDays+ClosedDays+ZSCloseToMA20+ZSCloseToMA5+CloseToMA20+CloseToMA5+FluctRange3, data=dzjy2)n= 95 node), split, n, loss, yval, (yprob)* denotes terminal node1) root 95 13 1 (0.13684211 0.86315789)  2) ZSCloseToMA20< 0.0015 42  9 1 (0.21428571 0.78571429)  4) ZSCloseToMA5>=-0.0033 25  8 1 (0.32000000 0.68000000)  8) VolumeToCapital>=0.00055 7  3 0 (0.57142857 0.42857143) *9) VolumeToCapital< 0.00055 18  4 1 (0.22222222 0.77777778) *5) ZSCloseToMA5< -0.0033 17  1 1 (0.05882353 0.94117647) *3) ZSCloseToMA20>=0.0015 53  4 1 (0.07547170 0.92452830) *

综合几种情况后,就得到一些较高成功率的筛选规则,剩下的就是止损点的计算了,这是一个反复尝试的过程,估计出止损点是-7%,在买入后第5个交易日止损。

大宗交易数据挖掘(四)相关推荐

  1. 大宗交易数据挖掘(一)

    思路 在网上可以看到很多关于股票的数据挖掘,其中也包括了一些大宗交易的数据挖掘和分析.本人之前也做过比较长时间的学习,所以出于好奇,尝试对这类数据进行挖掘: 最开始的想法 来看下百度百科对于大宗交易的 ...

  2. 数据竞赛技巧|数据挖掘(四):常用trick介绍

    本文为数据挖掘竞赛技巧篇之常用trick介绍. 1.特征选择策略 特征选择(按重要程度排序)对数据分析非常重要.好的特征能够改善模型.提升模型的性能,特征选择主要有两个功能: 减少特征数量.降维,使模 ...

  3. 大宗交易数据挖掘(二)

    获取数据 上一篇的流程图中介绍了大致思路,实际实现的时候,数据需要分成2个部分,历史数据和每日更新的数据.其中每日更新的数据量较小,直接从第三方数据网站获取,单线程爬虫即可搞定:历史数据用来做模型训练 ...

  4. 大宗交易数据挖掘(三)

    计算维度 数据集字段如下: 1. [CurClose],当前收盘价: 2. [TradePrice],大宗交易成交价: 3. [FluctRange3],近3日波动幅度(中途发现波动幅度太大,止损点不 ...

  5. 对于数据挖掘的几点认识[转]

    赖 锋 一.数据挖掘的理解 数据挖掘是从大量的.不完全的.有噪声的.模糊的.随机的数据集中识别出有效的.新颖的.潜在有用的,以及最终可理解的知识的非平凡过程.这个定义包括几层含义:数据源必须是真实的. ...

  6. 一名数据挖掘工程师给新人整理的入门资料

    数据挖掘 四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,今天我把数据挖掘入门资料整理了一下,希望能够对新人有帮助 ...

  7. AI 博士生获201万最高档年薪,华科学子连续三年入选华为“天才少年”!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 文末送5本北京大学出版社<GAN生成对抗神经网络> 来源 ...

  8. hive 增加表字段语录_Hive改表结构的两个坑|避坑指南

    Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑! 坑一:改变字段 ...

  9. R循环有两个_R语言数据分析与挖掘(第九章):聚类分析(2)——层次聚类

    层次聚类(hierarchical clustering)基于簇间的相似度在不同层次上分析数据,从而形成树形的聚类结构,层次聚类一般有两种划分策略:自底向上的聚合(agglomerative)策略和自 ...

最新文章

  1. 自定义Realm实现认证
  2. 使用 SASS Mixin 编写 clean code
  3. python数据结构《排序专题复习》
  4. html如何查看文档,查看文档
  5. 我的职业生涯规划学习日记(软件工程)整理时间线
  6. BGP/MPLS *** Option B 跨域研究实验
  7. Android(java)学习笔记69:短信发送器
  8. python一年一度的校园好歌声_歌声满校园
  9. 常用的Linux操作命令
  10. Android UI(一)Layout 背景局部Shape圆角设计
  11. [LeetCode][easy]Create Target Array
  12. loadrunner 及 QTP 下载地址
  13. (C++后台面经)网络编程1
  14. 记录几个视频处理软件
  15. JavaScript 实现雪花效果
  16. 幽默感七个技巧_如何让自己变得幽默-16个聊天幽默技巧
  17. 02计蒜客 002蓝桥模拟
  18. 用针式打印机打印快递单子代替手写
  19. 智慧电力视频监控系统解决电力安全巡检难题
  20. 第十五次Java作业

热门文章

  1. 服装企业如何保持品牌的影响力
  2. ssm框架连接两个MySQL数据库随笔
  3. 现场直播信号进播出服务器,网络视频直播平台是如何搭建的
  4. 电商平台 ——功能测试
  5. 【YOLOV5-5.x 源码解读】torch_utils.py
  6. ASCII码中blank与space的区别
  7. 单片机STM8S测量电压电路_稳压二极管稳压值测量电路
  8. 侠众道武功最佳练级方案_侠众道武功选择攻略
  9. Device Mapper系列基础教程:Thin Provisioning 实践
  10. MFC vc_mbcsmfc.exe安装失败