本篇的主题是分段线性拟合,也叫回归树,是一种集成算法,它同时使用了决策和线性回归的原理,其中有两点不太容易理解,一个是决策树中熵的概念,一个是线性拟合时求参数的公式为什么是由矩阵乘法实现的。如需详解,请见前篇:

《机器学习_决策树与信息熵》
《机器学习_最小二乘法,线性回归与逻辑回归》

1. 画出股票的趋势线

 我们常在股票节目里看到这样的驱势线:

 比如说平台突破就可以买入了,几千支股票,能不能用程序的方式筛选哪支突破了呢?需要解决的主要问题是:怎么判断一段时间内股票的涨/跌/横盘,以及一段趋势的起止点和角度呢?

 这里我们使用分段线性拟合,图中蓝色的点是某支股票每日的收盘价,红色的直线为程序画出的趋势线。稍做修改,还可以轻松地画出每段趋势所在的箱体,阻力线和支撑线,以及判断此前一般时间的趋势。下面我们就来看看原理和具体算法。

2. 线性回归

 先看看线性回归(Linear regression),线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。简单地说,二维中就是画一条直线,让它离所有点都尽量地近(距离之和最小),用线抽象地表达这些点。具体请见《机器学习_最小二乘法,线性回归与逻辑回归》。

3. 决策树

 我们再看看决策树,决策树(Decision Tree)决策树是一个预测模型;它是通过一系列的判断达到决策的方法。具体请见《机器学习_决策树与信息熵》。

4. 树回归

 树回归把决策树和线性回归集成在一起,先决策树,在每个叶节点上构建一个线性方程。比如说数据的最佳拟合是一条折线,那就把它切成几段用线性拟合,每段切多长呢?我们定义一个步长(以忽略小的波动,更好地控制周斯),在整个区域上遍历,找最合适的点(树的分叉点),用该点切分成两段后,分别线性拟合,取整体误差和最小的点,以此类拟,再分到三段,四段……,为避免过拟合,具体实现一般同时使用前剪枝和后剪枝。

5. 代码

# -*- coding: utf-8 -*-import tushare as ts
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt# 用feature把dataSet按value分成两个子集
def binSplitDataSet(dataSet, feature, value):mat0 = dataSet[np.nonzero(dataSet[:,feature] > value)[0],:]mat1 = dataSet[np.nonzero(dataSet[:,feature] <= value)[0],:]return mat0,mat1# 求给定数据集的线性方程
def linearSolve(dataSet):m,n = np.shape(dataSet)X = np.mat(np.ones((m,n))); # 第一行补1,线性拟合要求Y = np.mat(np.ones((m,1)))X[:,1:n] = dataSet[:,0:n-1];Y = dataSet[:,-1] # 数据最后一列是yxTx = X.T*Xif np.linalg.det(xTx) == 0.0:raise NameError('This matrix is singular, cannot do inverse,\n\try increasing dur')ws = xTx.I * (X.T * Y) # 公式推导较难理解return ws,X,Y# 求线性方程的参数
def modelLeaf(dataSet):ws,X,Y = linearSolve(dataSet)return ws# 预测值和y的方差
def modelErr(dataSet):ws,X,Y = linearSolve(dataSet)yHat = X * wsreturn sum(np.power(Y - yHat,2))def chooseBestSplit(dataSet, rate, dur):# 判断所有样本是否为同一分类if len(set(dataSet[:,-1].T.tolist()[0])) == 1:return None, modelLeaf(dataSet)m,n = np.shape(dataSet)S = modelErr(dataSet) # 整体误差bestS = np.infbestIndex = 0bestValue = 0for featIndex in range(n-1): # 遍历所有特征, 此处只有一个# 遍历特征中每种取值for splitVal in set(dataSet[:,featIndex].T.tolist()[0]):mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal) if (np.shape(mat0)[0] < dur) or (np.shape(mat1)[0] < dur): continue # 样本数太少, 前剪枝newS = modelErr(mat0) + modelErr(mat1) # 计算整体误差if newS < bestS: bestIndex = featIndexbestValue = splitValbestS = newSif (S - bestS) < rate: # 如差误差下降得太少,则不切分 return None, modelLeaf(dataSet)mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)return bestIndex,bestValuedef isTree(obj):return (type(obj).__name__=='dict')# 预测函数,数据乘模型,模型是斜率和截距的矩阵
def modelTreeEval(model, inDat):n = np.shape(inDat)[1]X = np.mat(np.ones((1,n+1)))X[:,1:n+1]=inDatreturn float(X*model)# 预测函数
def treeForeCast(tree, inData):if not isTree(tree):return modelTreeEval(tree, inData)if inData[tree['spInd']] > tree['spVal']:if isTree(tree['left']):return treeForeCast(tree['left'], inData)else:return modelTreeEval(tree['left'], inData)else:if isTree(tree['right']):return treeForeCast(tree['right'], inData)else:return modelTreeEval(tree['right'], inData)# 对测试数据集预测一系列结果, 用于做图
def createForeCast(tree, testData):m=len(testData)yHat = np.mat(np.zeros((m,1)))for i in range(m): # m是item个数yHat[i,0] = treeForeCast(tree, np.mat(testData[i]))return yHat# 绘图
def draw(dataSet, tree):plt.scatter(dataSet[:,0], dataSet[:,1], s=5) # 在图中以点画收盘价yHat = createForeCast(tree, dataSet[:,0])plt.plot(dataSet[:,0], yHat, linewidth=2.0, color='red')plt.show()# 生成回归树, dataSet是数据, rate是误差下降, dur是叶节点的最小样本数
def createTree(dataSet, rate, dur):# 寻找最佳划分点, feat为切分点, val为值feat, val = chooseBestSplit(dataSet, rate, dur)if feat == None:return val # 不再可分retTree = {}retTree['spInd'] = featretTree['spVal'] = val lSet, rSet = binSplitDataSet(dataSet, feat, val) # 把数据切给左右两树retTree['left'] = createTree(lSet, rate, dur)retTree['right'] = createTree(rSet, rate, dur)return retTreeif __name__ == '__main__':df = ts.get_k_data(code = '002230', start = '2017-01-01') # 科大讯飞今年的股票数据e = pd.DataFrame()e['idx'] = df.index # 用索引号保证顺序X轴e['close'] = df['close'] # 用收盘价作为分类标准Y轴, 以Y轴高低划分X成段,并分段拟合arr = np.array(e)tree = createTree(np.mat(arr), 100, 10)
draw(arr, tree)

6. 分析:

 算法的拟合度和复杂度是使用步长,误差下降和最小样本数控制的,计算的时间跨度(一月/一年)也影响着程序运行时间。例程中计算的是“科大讯飞”近一年来的股价趋势,计算用时约十秒左右(我的机器速度还可以)。
 要计算所有的股票,也需要不少时间。所以具体实现时,一方面可以利用当前价格和移动均线的相对位置过滤掉一些股票,另一方面,也可以将计算结果存储下来,以避免对之前数据的重复计算。

技术文章定时推送
请关注公众号:算法学习分享

机器学习_用树回归方法画股票趋势线相关推荐

  1. 机器学习算法实践-树回归-转

    原文地址:http://python.jobbole.com/88822/ 通常决策树树分裂选择特征的方法有ID3, C4.5算法, C5.0算法和CART树.本文主要使用决策树解决回归问题,使用CA ...

  2. 机器学习实战_09_树回归_源代码错误修正

    <机器学习实战>第9章的树回归运行时频繁出错,这里主要有两点: 1. TypeError: unhashable type: 'matrix' 出错的代码行是: for splitVal ...

  3. 【机器学习实战 第九章】树回归 CART算法的原理与实现 - python3

    本文来自<机器学习实战>(Peter Harrington)第九章"树回归"部分,代码使用python3.5,并在jupyter notebook环境中测试通过,推荐c ...

  4. 【机器学习】树回归和聚类算法解析和应用

    [机器学习]树回归和聚类算法解析和应用 文章目录 1 树回归 2 CART ( Classification And Regression Tree) 分类回归树 3 K-means3.1 合理选择 ...

  5. 机器学习数据倾斜的解决方法_机器学习并不总是解决数据问题的方法

    机器学习数据倾斜的解决方法 总览 (Overview) I was given a large dataset of files, what some would like to call big d ...

  6. 机器学习笔记——决策树之回归树

    (参考资料:菜菜的sklearn) 重要参数,属性及接口 criterion 1)输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均 ...

  7. 《机器学习实战》(八)-- 树回归

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: 目录 绪言 Xmind 模块语法 NumPy linspace() tkinter ...

  8. 机器学习——07树回归

    机器学习--07树回归 参考资料 AIlearning Machine-Learning-in-Action 机器学习实战(美)哈林顿(Harrington,P.)著:李锐等译.-北京:人民邮电出版社 ...

  9. 机器学习实战(九)树回归

    第九章 树回归 9.1 CART(Classification And Regression Trees)算法用于回归 9.1.1 用CART算法选择最佳分类特征 9.1.2 利用所选的两个变量创建回 ...

最新文章

  1. python生成有条件的列表_python复杂列表生成式教程
  2. 2020秋季-人工神经网络课程报告
  3. Spring@Configuration、@Bean、@Import 、@ImportResource、@DependsOn 说明
  4. ora-14400插入的分区关键字未映射到任何分区---oracle数据库表过期问题
  5. mysql隔离级别 简书_数据库事务和四种隔离级别
  6. Git简介及其下载 安装 卸载
  7. C++ int与string类型相互转化
  8. 一次bug调试经验----To prevent a memory leak, the JDBC Driver has been forcibly unregistered.
  9. Access context of data source and work center view do not match
  10. [折半搜索][has] Jzoj P4250 路径
  11. select函数(一)
  12. ssh oracle id native,hibernate解决oracle的id自增?
  13. mysql 出现 quot_mysql 出现 quot;the table is fullquot;的问题 - tmuffamd - ITeye博客
  14. Hibernate获取'上一条'和'下一条'记录
  15. 计算机本地组策略编辑器在哪里,win7系统本地组策略编辑器在哪的操作方法
  16. MOEA/D原理及pyton实现
  17. 万字深度报告丨数据中心投资价值全解析
  18. 软件著作权申请:【01】账号申请
  19. 计算机excel保留一位小数,excel表格数据取一位小数-excel保留一位小数
  20. 1076: 三位数求解 C语言

热门文章

  1. Nginx server_name 参数配置
  2. 上海创蓝253董事长_宝剑锋从磨砺出,创蓝253召开第四季度誓师大会
  3. 计算机病毒感染情况登记表,国土资源数档案管理规范.doc
  4. linux逐行扫描,FFmpeg怎么区分识别视频是逐行扫描还是隔行扫描
  5. 深入理解MySQL索引之B+Tree
  6. 高分子PEG分子量从1000-40000不等,DSPE-PEG9-Mal
  7. Jsp+Servlet基于B2C的网上拍卖系统_秒杀与竞价
  8. 电阻、电容、电感的高频特性
  9. DP接口和HDMI接口哪个传输视频更好用
  10. h61 nvme硬盘_英特尔E3处理器网友发来咨询:H81B85老主板上NVME固态支持5775C