参考书目:深入浅出Python量化交易实战


在机器学习里面的X叫做特征变量,在统计学里面叫做协变量也叫自变量,在量化投资里面则叫做因子,所谓多因子就是有很多的特征变量。

本次带来的就是多因子模型,并且使用的是机器学习的强大的非线性模型,集成学习里面的随机森林和LGBM模型,带来因子的选择策略和股票的选择策略。


由于股票数据的获取都需要第三方库或者是专业的量化投资框架,很多第三方库某些功能需要收费(Tushare),而免费的一些库(证券宝)获取的数据特征变量又没那么多。所以这里是用聚宽量化投资框架,是可以免费使用一些功能的(只需要注册一个账号)。这里获取数据就采用聚宽平台的功能了。


数据获取

本次使用沪深300作为股票池,选获取一些财务指标:

#创建query对象,指定获取股票的代码、市值、净运营资本
#净债务、产权比率、股东权益比率、营收增长率、换手率、
#市盈率(PE)、市净率(PB)、市销率(PS)、总资产收益率因子

#还是先导入jqdata和技术分析工具
import jqdata
from jqlib.technical_analysis import *
#同样选择沪深300成分股做股票池
stocks = get_index_stocks('000300.XSHG')q = query(valuation.code, valuation.market_cap,balance.total_current_assets- balance.total_current_liability,balance.total_liability- balance.total_assets,balance.total_liability/balance.equities_parent_company_owners,(balance.total_assets-balance.total_current_assets)/balance.total_assets,balance.equities_parent_company_owners/balance.total_assets,indicator.inc_total_revenue_year_on_year,valuation.turnover_ratio,valuation.pe_ratio,valuation.pb_ratio,valuation.ps_ratio,indicator.roa).filter(valuation.code.in_(stocks))
#将获得的因子值存入一个数据表
df = get_fundamentals(q, date = None)
#把数据表的字段名指定为对应的因子名
df.columns = ['code', '市值', '净营运资本', '净债务', '产权比率','非流动资产比率','股东权益比率', '营收增长率','换手率','PE','PB','PS','总资产收益率']
#检查结果
df.head()

需要在聚宽的环境才能获得上面的数据,本地Python是出不来的。

设置一下股票代码作为索引,获取一些时间格式。

#将股票代码作为数据表的index
df.index = df.code.values
#使用del也可以删除列
del df['code']
#下面来把时间变量都定义好
today = datetime.datetime.today()
#设定3个时间差,分别是50天,1天和2天
delta50 = datetime.timedelta(days=50)
delta1 = datetime.timedelta(days=1)
delta2 = datetime.timedelta(days=2)
#50日前作为一个历史节点
history = today - delta50
#再计算昨天和2天前的日期
yesterday = today - delta1
two_days_ago = today - delta2

再然后获取一些技术指标数据:

#下面就获取股票的动量线、成交量、累计能量线、平均差、
#指数移动平均、移动平均、乖离率等因子
#时间范围都设为10天


df['动量线']=list(MTM(df.index, two_days_ago, timeperiod=10, unit = '1d', include_now = True, fq_ref_date = None).values())df['成交量']=list(VOL(df.index, two_days_ago, M1=10 ,unit = '1d', include_now = True, fq_ref_date = None)[0].values())df['累计能量线']=list(OBV(df.index,check_date=two_days_ago, timeperiod=10).values())df['平均差']=list(DMA(df.index, two_days_ago, N1 = 10, unit = '1d', include_now = True, fq_ref_date = None)[0].values())df['指数移动平均']=list(EMA(df.index, two_days_ago, timeperiod=10, unit = '1d', include_now = True, fq_ref_date = None).values())df['移动平均']=list(MA(df.index, two_days_ago, timeperiod=10, unit = '1d', include_now = True, fq_ref_date = None).values())df['乖离率']=list(BIAS(df.index,two_days_ago, N1=10, unit = '1d', include_now = True, fq_ref_date = None)[0].values())
#把数据表中的空值用0来代替
df.fillna(0,inplace=True)
#检查是否成功
df.head()

这样就获得了很多X,即特征变量,即因子。

下面构建y,我们的响应变量是一个分类的变量,即是否获得了超过市场的平均回报的收益率,是的话为1,不是为0 。

这里使用前一日的收盘价除以前50天的收盘价 然后减去1,作为收益率的值,计算出那些收益率大于均值的样本股则y为1 ,否则为0 。

#获取股票前一日的收盘价
df['close1']=list(get_price(stocks, end_date=yesterday, count = 1,fq='pre',panel=False)['close'])
#获取股票50日前的收盘价
df['close2']=list(get_price(stocks,  end_date=history, count = 1,fq ='pre',panel=False)['close'])#计算出收益
df['return']=df['close1']/df['close2']-1
#如果收益大于平均水平,则标记为1
#否则标记为0
df['signal']=np.where(df['return']<df['return'].mean(),0,1)
#检查是否成功
df.head()

可以看到最后一列是我们的响应变量y。


模型构建

将X和y都准备好。划分训练集和测试集,导入随机森林分类器。

#导入数据集拆分工具
from sklearn.model_selection import train_test_split
#导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
#把因子值作为样本的特征,所以要去掉刚刚添加的几个字段
X = df.drop(['close1', 'close2', 'return', 'signal'], axis = 1)
#把signal作为分类标签
y = df['signal']
#将数据拆分为训练集和验证集
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size = 0.2)
#创建随机森林分类器实例,指定random_state便于复现
clf = RandomForestClassifier(n_estimators=5000,random_state=100)
#拟合训练集数据
clf.fit(X_train, y_train)
#查看分类器在训练集和验证集中的准确率
print(clf.score(X_train, y_train),clf.score(X_test, y_test))

分类问题,所以采用随机森林分类器,然后进行拟合和评价。

可以看到在训练集上的准确率为100%,在测试集删高的准确率为0.9333,说明模型的拟合效果很不错。


因子重要性

接下来使用随机森林的变量的重要性排序,原理是基础学习器决策树分裂时,若一个变量分裂时让损失函数下降得越多,说明这个变量越重要。

#为了便于观察,我们创建一个数据表
#数据表有两个字段,分别是特征名和重要性
#特征名就是因子的名称


factor_weight = pd.DataFrame({'features':list(X.columns),'importance':clf.feature_importances_}).sort_values(#这里根据重要程度降序排列,一遍遍找到重要性最高的特征by='importance', ascending = False)
#检查结果
factor_weight

可以看到最重要的变量是技术指标平均差。这也是肯定的,因为平均差里面包含了过去和现在的股价信息最多,和我们的响应变量最为相似。

画图更加直观的查看变量重要性排序。

import seaborn as sns
plt.figure(figsize=(6,4),dpi=128)
sns.barplot(y=factor_weight['features'],x=factor_weight['importance'],orient="h")
plt.xlabel('重要程度')
plt.ylabel('因子名称')
plt.xticks(fontsize=10,rotation=35)
plt.title("因子重要性对比")
plt.show()

和上面结论一样,技术指标平均差对我们的响应变量是否获得超额回报的影响最大,然后是公司本身的财务指标,营业收入增长率,净收运营资本等。


选股策略

接下来我们使用对于表格数据最强的机器学习方法,轻量梯度提升方法——LGBM模型,对我们的股票市值进行预测,然后选取实际值和预测值差距最大的股票作为选股策略。即选取价值被低估的股票。

此时y是股票市值,X是前面那些财务技术指标

X=df.iloc[:,1:-3]
y=df.iloc[:,0]

构建回归器

from lightgbm import LGBMRegressor
model = LGBMRegressor(n_estimators=100,objective='regression', random_state=0)
model.fit(X, y)
model.score(X, y)

整体模型的拟合优度为86%,还不错。

用真实值减去预测值,然后进行排序,算的找出前10 的被低估的公司

diff = pd.DataFrame(np.array(y)-model.predict(X), index = y.index, columns = ['预测值和真实值的差值'])
#将该数据表中的值,按生序进行排列
diff = diff.sort_values(by = '预测值和真实值的差值', ascending = True)
#找到市值被低估最多的10只股票
diff.head(10)

前十都是被低估了,负得越多说明被低估的越厉害。


受限于框架的使用,该策略我本人没有进行回测检验其收益率。书上的收益率大概是年化6%,不高,但是也算不错了。

(本案例仅作为策略研究,不构成任何投资意见。)

Python量化交易05——基于多因子选择和选股策略(随机森林,LGBM)相关推荐

  1. Python量化交易04——基于机器学习的交易策略

    参考书目:深入浅出Python量化交易实战 学量化肯定要用的上机器学习这种强大的预测技术.本次使用机器学习构建一些简单的预测进行量化交易,使用Python进行回测. 获取数据 import panda ...

  2. python 量化交易_基于Python的量化交易工具清单(上)

    -- Python量化工具清单 -- 以下内容来源于Wilson Freitas的Github项目"Awesome Quant".原文中包含了丰富的语言类别,但是后续介绍主要针对P ...

  3. Python量化交易学习笔记(14)——均线交叉策略

    本文使用均线交叉策略,对平安银行自2018年1月1日至2020年2月28日的日线数据进行回测分析. 策略会用到短期移动均线及长期移动均线两个技术指标,在backtrader自定义策略init方法中,添 ...

  4. python统计套利_清华编程高手尹成带你基于算法实践python量化交易

    清华编程高手尹成带你基于算法实践python量化交易 量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种"大概率"事件以制定策 ...

  5. python一元线性回归算法_6一元线性回归_清华编程高手尹成带你基于算法实践python量化交易_其他视频-51CTO学院...

    清华编程高手尹成带你基于算法实践python量化交易 量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种"大概率"事件以制定策 ...

  6. python算法交易工程师_清华编程高手尹成带你基于算法实践python量化交易

    清华编程高手尹成带你基于算法实践python量化交易 量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种"大概率"事件以制定策 ...

  7. 很燃基于掘金量化平台的《Python量化交易实战》新书介

    原 很燃!基于掘金量化平台的<Python量化交易实战>新书简介 内容简介: 在目前不断变化.蓬勃发展的中国资本市场,量化投资作为新兴的投资方法,引来越来越多的关注,使用量化投资技术的证券 ...

  8. 你应该知道的21大Python量化交易工具

    技术可用性的快速增长使个人交易者也能够进行系统和算法交易.下面为大家分享2022年 Python 量化交易使用最广泛的21大交易平台和框架.经纪自营商.数据提供商和其他有用的交易库等,这些交易库适用于 ...

  9. Python量化交易06——Fama-French三因子模型(Rmt,SMB,HML)

    参考书目:深入浅出Python量化交易实战 本次带来的是著名的获得了诺贝尔奖的三因子模型. 因子模型介绍 Fama和French从可以解释股票收益率的众多因素中提取出了三个重要的影响因子,即市场风险溢 ...

最新文章

  1. numa节点_漫步云端NUMA调度
  2. 红帽虚拟化RHEV-架构简介
  3. 霸榜各大CV任务榜单,Swin Transformer横空出世!
  4. boost::make_shared_noinit相关的测试程序
  5. [TCP/IP] SSL的通讯原理
  6. 二十四种设计模式:代理模式(Proxy Pattern)
  7. byteman_Byteman –用于字节码操纵的瑞士军刀
  8. java静态类和非静态类的区别_Java中静态内部类和非静态内部类到底有什么区别?...
  9. vb.net 同时给多个属性赋值_系统小技巧:充分用好文件的时间属性
  10. 分享一个超棒的免费jQuery幻灯插件:Nivo Slider
  11. Atitit 完整知识体系表 attilax总结 要读哪些书
  12. 物联网之NB-IoT技术实践开发二
  13. sd卡驱动 android,sd卡驱动异常怎么办 sd卡驱动程序无法使用【详解】
  14. ArcGis——raster calculator
  15. 【学习笔记】密码学入门(3) 密钥,随机数,PGP软件
  16. 【数据分析】—— 指标与指标体系
  17. APP-iOS和Android的尺寸规范
  18. python sort 多级排序_python sort、sorted高级排序技巧
  19. 100道iOS面试题
  20. 什么是PWM 和PFM?

热门文章

  1. php number_format金钱 价格 格式处理 由分单位转换成元(保留2为小数)
  2. 爬虫手册05 异步爬虫
  3. 易课寄在线购课系统开发笔记(三十一)--登录注册页面实现
  4. java四则出题判分_C#编程之自动出题判分——c#学习实践
  5. 如何使用ArcGIS制作气温空间分布图
  6. 南邮通达计科软件工程考试2022.1
  7. 南京php工资8000怎么样,南京工资7000-8000什么水平?
  8. 国外大学生用AI写论文,还次次拿到A
  9. 6-2 简单实现x的n次方 (10 分)
  10. MAT工具分析java堆内存