什么是选股?

选股(stock selection)是一种主动性投资策略,先按照某种规则或算法分析单只股票的前景,然后构建一个投资组合,长期持有。一般情况下要求组合的股票具有低相关性,这样才能对冲系统性风险,否则在大盘走弱的时候投资组合也会面临巨大的下跌风险。

运用什么模型?

关于如何选股,学术界提出过很多不同的模型,最经典的莫过于马科维茨投资组合理论。这里我们使用MM趋势模型(Mark Minervini’s Trend Template),这是国外一位传奇投资大师提出的技术面选股方法,核心思想是通过技术指标来度量股票动能,从中筛选最有潜力的股票,买入并持有。

MM趋势模型

  1. 股票价格高于150天均线和200天均线
  2. 150日均线高于200日均线
  3. 200日均线上升至少1个月
  4. 50日均线高于150日均线和200日均线
  5. 股票价格高于50日均线
  6. 股票价格比52周低点高30%
  7. 股票价格在52周高点的25%以内
  8. 相对强弱指数(RS)大于等于70,这里的相对强弱指的是股票与大盘对比,RS = 股票1年收益率 / 基准指数1年收益率

关于Mark Minervini

全美最富盛名的交易员之一,曾经获得30000%的收益率,在34岁前称为亿万富翁,详情见<金融怪杰>一书。

选股面临的技术性难题?

  1. 从哪里获取大量股票的历史数据?
  2. 当股票数量很多时,如何提高计算性能?

本文将用Python实现MM模型的量化选股,并解决上述提出的两个技术难题。

  1. import os

  2. import datetime as dt

  3. import time

  4. from typing import Any, Dict, Optional, List

  5. import requests

  6. import pickle

  7. import numpy as np

  8. import pandas as pd

  9. import matplotlib.pyplot as plt

  10. import seaborn as sns

  11. import talib

  12. import multiprocessing as mp

  13. from requests.exceptions import ConnectionError, Timeout

  14. %matplotlib inline

  15. plt.style.use("fivethirtyeight")

1. 从蜂鸟数据获取历史数据

蜂鸟数据是新兴的金融数据提供商,提供包括股票,外汇,商品期货和数字货币的实时报价和历史数据,并提供API接口,是所有金融从业者获取免费数据的便捷渠道。

  1. ## 撰写自定义函数,通过API获取数据

  2. def fetch_trochil(url: str,

  3. params: Dict[str, str],

  4. attempt: int = 3,

  5. timeout: int = 3) -> Dict[str, Any]:

  6. """装饰requests.get函数"""

  7. for i in range(attempt):

  8. try:

  9. resp = requests.get(url, params, timeout=timeout)

  10. resp.raise_for_status()

  11. data = resp.json()["data"]

  12. if not data:

  13. raise Exception("empty dataset")

  14. return data

  15. except (ConnectionError, Timeout) as e:

  16. print(e)

  17. i += 1

  18. time.sleep(i * 0.5)

  19. def fetch_cnstocks(apikey: str) -> pd.DataFrame:

  20. """从蜂鸟数据获取A股产品列表"""

  21. url = "https://api.trochil.cn/v1/cnstock/markets"

  22. params = {"apikey": apikey}

  23. res = fetch_trochil(url, params)

  24. return pd.DataFrame.from_records(res)

  25. def fetch_daily_ohlc(symbol: str,

  26. date_from: dt.datetime,

  27. date_to: dt.datetime,

  28. apikey: str) -> pd.DataFrame:

  29. """从蜂鸟数据获取A股日图历史K线"""

  30. url = "https://api.trochil.cn/v1/cnstock/history"

  31. params = {

  32. "symbol": symbol,

  33. "start_date": date_from.strftime("%Y-%m-%d"),

  34. "end_date": date_to.strftime("%Y-%m-%d"),

  35. "freq": "daily",

  36. "apikey": apikey

  37. }

  38. res = fetch_trochil(url, params)

  39. return pd.DataFrame.from_records(res)

  40. def fetch_index_ohlc(symbol: str,

  41. date_from: dt.datetime,

  42. date_to: dt.datetime,

  43. apikey: str) -> pd.DataFrame:

  44. """获取股指的日图历史数据"""

  45. url = "https://api.trochil.cn/v1/index/daily"

  46. params = {

  47. "symbol": symbol,

  48. "start_date": date_from.strftime("%Y-%m-%d"),

  49. "end_date": date_to.strftime("%Y-%m-%d"),

  50. "apikey": apikey

  51. }

  52. res = fetch_trochil(url, params)

  53. return pd.DataFrame.from_records(res)

1.1 产品列表

先获取沪深A股上市企业的所有股票ID。

  1. apikey = os.getenv("TROCHIL_API") # use your apikey

  2. cnstocks = fetch_cnstocks(apikey)

  3. cnstocks

成功获取沪深A股3789只股票的产品信息,前缀'SH'代表上海证券交易所股票,'SZ'代表在深圳证券交易所的股票。建模时仅使用上证交易所的股票。

  1. # 筛选前缀为'SH'的股票

  2. cnstocks_shsz = cnstocks.query("symbol.str.startswith('SH')")

  3. cnstocks_shsz

1.2 个股历史数据

从蜂鸟数据获取上海证券交易所股票的日图历史价格。根据MM趋势模型,我们最少需要过去260天的历史数据,部分新上市或已退市的股票可能不符合要求,所以剔除K线数量少于260的股票。

  1. %%time

  2. # 下载2019年至今的历史数据

  3. # 下载时剔除K线少于260个交易日的股票

  4. date_from = dt.datetime(2019, 1, 1)

  5. date_to = dt.datetime.today()

  6. symbols = cnstocks_shsz.symbol.to_list()

  7. min_klines = 260

  8. # 逐个下载,蜂鸟数据的API没有分钟请求限制

  9. # 先把数据存储在列表中,下载完成后再合并和清洗

  10. ohlc_list = []

  11. for symbol in symbols:

  12. try:

  13. ohlc = fetch_daily_ohlc(symbol, date_from, date_to, apikey)

  14. if ohlc is not None and len(ohlc) >= min_klines:

  15. ohlc.set_index("datetime", inplace=True)

  16. ohlc_list.append(ohlc)

  17. except Exception as e:

  18. pass

  19. CPU times: user 21.7 s, sys: 349 ms, total: 22 s

  20. Wall time: 49.3 s

下载1500多只股票的历史数据(约400多个交易日)只需要不到1分钟的时间。接下来我们整合和清洗数据,然后存储在本地,方便后续分析。

  1. ohlc_joined = pd.concat(ohlc_list)

  2. ohlc_joined.info()

  3. <class 'pandas.core.frame.DataFrame'>

  4. Index: 532756 entries, 2019-01-02 to 2020-07-29

  5. Data columns (total 6 columns):

  6. # Column Non-Null Count Dtype

  7. --- ------ -------------- -----

  8. 0 open 532756 non-null float64

  9. 1 high 532756 non-null float64

  10. 2 low 532756 non-null float64

  11. 3 close 532756 non-null float64

  12. 4 volume 532756 non-null float64

  13. 5 symbol 532756 non-null object

  14. dtypes: float64(5), object(1)

  15. memory usage: 28.5+ MB

查看是否存在缺失值。

  1. ohlc_joined.isnull().sum()

  2. open 0

  3. high 0

  4. low 0

  5. close 0

  6. volume 0

  7. symbol 0

  8. dtype: int64

保存到本地,以csv格式存储。后面可以直接从本地读取数据,避免API请求带来的时间浪费。

ohlc_joined.to_csv("cnstock_daily_ohlc.csv", index=True)

1.3 上证指数

获取上证指数的历史价格,计算过去1年的累计收益率,用于计算个股的相对强弱。

  1. benchmark = fetch_index_ohlc("shci", date_from, date_to, apikey)

  2. benchmark.tail()

  1. # 计算1年累计收益率,1年以252个交易日计算

  2. benchmark_ann_ret = benchmark.close.pct_change(252).iloc[-1]

  3. benchmark_ann_ret

  4. 0.12150312157460808

2. 选股

  1. def screen(close: pd.Series, benchmark_ann_ret: float) -> pd.Series:

  2. """实现MM选股模型的逻辑,评估单只股票是否满足筛选条件

  3. Args:

  4. close(pd.Series): 股票收盘价,默认时间序列索引

  5. benchmark_ann_ret(float): 基准指数1年收益率,用于计算相对强弱

  6. """

  7. # 计算50,150,200日均线

  8. ema_50 = talib.EMA(close, 50).iloc[-1]

  9. ema_150 = talib.EMA(close, 150).iloc[-1]

  10. ema_200 = talib.EMA(close, 200).iloc[-1]

  11. # 200日均线的20日移动平滑,用于判断200日均线是否上升

  12. ema_200_smooth = talib.EMA(talib.EMA(close, 200), 20).iloc[-1]

  13. # 收盘价的52周高点和52周低点

  14. high_52week = close.rolling(52 * 5).max().iloc[-1]

  15. low_52week = close.rolling(52 * 5).min().iloc[-1]

  16. # 最新收盘价

  17. cl = close.iloc[-1]

  18. # 筛选条件1:收盘价高于150日均线和200日均线

  19. if cl > ema_150 and cl > ema_200:

  20. condition_1 = True

  21. else:

  22. condition_1 = False

  23. # 筛选条件2:150日均线高于200日均线

  24. if ema_150 > ema_200:

  25. condition_2 = True

  26. else:

  27. condition_2 = False

  28. # 筛选条件3:200日均线上升1个月

  29. if ema_200 > ema_200_smooth:

  30. condition_3 = True

  31. else:

  32. condition_3 = False

  33. # 筛选条件4:50日均线高于150日均线和200日均线

  34. if ema_50 > ema_150 and ema_50 > ema_200:

  35. condition_4 = True

  36. else:

  37. condition_4 = False

  38. # 筛选条件5:收盘价高于50日均线

  39. if cl > ema_50:

  40. condition_5 = True

  41. else:

  42. condition_5 = False

  43. # 筛选条件6:收盘价比52周低点高30%

  44. if cl >= low_52week * 1.3:

  45. condition_6 = True

  46. else:

  47. condition_6 = False

  48. # 筛选条件7:收盘价在52周高点的25%以内

  49. if cl >= high_52week * 0.75 and cl <= high_52week * 1.25:

  50. condition_7 = True

  51. else:

  52. condition_7 = False

  53. # 筛选条件8:相对强弱指数大于等于70

  54. rs = close.pct_change(252).iloc[-1] / benchmark_ann_ret * 100

  55. if rs >= 70:

  56. condition_8 = True

  57. else:

  58. condition_8 = False

  59. # 判断股票是否符合标准

  60. if (condition_1 and condition_2 and condition_3 and

  61. condition_4 and condition_5 and condition_6 and

  62. condition_7 and condition_8):

  63. meet_criterion = True

  64. else:

  65. meet_criterion = False

  66. out = {

  67. "rs": round(rs, 2),

  68. "close": cl,

  69. "ema_50": ema_50,

  70. "ema_150": ema_150,

  71. "ema_200": ema_200,

  72. "high_52week": high_52week,

  73. "low_52week": low_52week,

  74. "meet_criterion": meet_criterion

  75. }

  76. return pd.Series(out)

2.1 同步

首先我们用同步的方法进行筛选,将相同的筛选函数应用于1400只股票。

  1. # 仅仅筛选有足够历史数据的股票

  2. symbols_to_screen = list(ohlc_joined.symbol.unique())

  3. # 将数据框的格式从long-format转化为wide-format

  4. ohlc_joined_wide = ohlc_joined.pivot(columns="symbol", values="close").fillna(method="ffill")

  5. ohlc_joined_wide.head()

  1. %%time

  2. results = ohlc_joined_wide.apply(screen, benchmark_ann_ret=benchmark_ann_ret)

  3. results = results.T

  4. CPU times: user 2.97 s, sys: 6.47 ms, total: 2.98 s

  5. Wall time: 2.97 s

同步计算大约需要3秒的时间,在研究阶段是可以接受的,但生产阶段不行。试想您把选股系统做成一个产品,用户选定条件后点击筛选,要等待至少3秒的时间才能得到结果,将导致非常糟糕的用户体验,接下来我们尝试用多进程来解决这个问题。

我们先看看满足条件的股票有哪些?

results.query("meet_criterion == True").sort_values("rs", ascending=False)

有389个股票符合条件,从量化交易的角度来看,似乎并没有成功挑选出有潜力的股票,当然这与参数的选择有关系。

模型是否有效并不是本文要探讨的主题(我们会在其它文章中进行探索),所以先不要过度关注这点。

2.2 多进程

接下来尝试用多进程来加速选股的过程,看是否能把筛选时间降到1秒以内。多进程计算的核心思想是分而治之,将相似的计算任务分发到不同的CPU,最后汇总结果。这里用multiprocessing实现多进程。

  1. %%time

  2. # 定义worker函数

  3. def screen_stocks(df: pd.DataFrame, benchmark_ann_ret: float) -> pd.DataFrame:

  4. results = df.apply(screen, benchmark_ann_ret=benchmark_ann_ret)

  5. return results.T

  6. # 拆分数据框,先尝试用四条进程,将数据框拆分为四个部分(按列划分)

  7. df_chunks = np.array_split(ohlc_joined_wide, 4, axis=1)

  8. # 用multiprocessing.Pool对象管理进程池

  9. with mp.Pool(processes=4) as p:

  10. future_results = [p.apply_async(

  11. screen_stocks, kwds={"df": df, "benchmark_ann_ret": benchmark_ann_ret}) for df in df_chunks]

  12. results = pd.concat([r.get() for r in future_results])

  13. CPU times: user 934 ms, sys: 204 ms, total: 1.14 s

  14. Wall time: 1.06 s

利用四条进程,我们成功把计算时间缩短到1秒左右,并且获得完全相同的结果。

results.query("meet_criterion == True").sort_values("rs", ascending=False)

接下来测试一下进程数量和计算时间的关系,决定最优的进程数量。

  1. max_processors = mp.cpu_count()

  2. time_used = {}

  3. for processors in range(1, max_processors + 1):

  4. df_chunks = np.array_split(ohlc_joined_wide, processors, axis=1)

  5. t0 = time.time()

  6. with mp.Pool(processors) as p:

  7. future_results = [p.apply_async(

  8. screen_stocks, kwds={"df": df, "benchmark_ann_ret": benchmark_ann_ret}) for df in df_chunks]

  9. results = pd.concat([r.get() for r in future_results])

  10. elapsed = time.time() - t0

  11. time_used[processors] = elapsed

  12. fig, ax = plt.subplots(figsize=(12, 7))

  13. ax = sns.pointplot(x=list(time_used.keys()), y=list(time_used.values()))

  14. ax.set_xlabel("CPU cores")

  15. ax.set_ylabel("Time used(seconds)")

  16. ax.set_title("Computation time vs CPU Cores", loc="left")

从上图可以看出,使用两个进程时计算时间削减了一半(跟预期相符)。随着进程数逼近最大进程数,计算时间的递减不断下降,这并不难理解,因为计算机同时在处理其它任务,所以即便设置processors=12,也不可能把全部进程全部利用起来。从目前的情况来看,用4条进程处理是合适的,能够把时间从3.5秒降低至约1秒左右。

3. 总结

本文介绍了如何使用Python进行量化选股,包括:

  1. 从蜂鸟数据获取沪深A股的历史数据。
  2. 自定义函数实现MM模型的选股逻辑。
  3. 多进程计算,大幅减少筛选的时间。

接下来的研究方向是回溯检验,根据MM模型构建投资组合,优化筛选参数,看是否能带来超额收益。

如果喜欢我们的文章,记得点赞和收藏哦,我们会持续为大家带来数据科学和量化交易领域的精品文章。

【关于我们】

蜂鸟数据:开源金融数据库,聚合主流金融市场10000+时间序列,为广大金融从业者提供高质量的免费数据。我们的优势:1. 同时提供股票,外汇,商品期货的实时报价和历史数据;2. 提供高度统一的API接口,您可以把数据整合到自己的程序中,查看我们的API文档。

这是属于大数据的时代,蜂鸟数据的使命:用数据创造财富。

【转】Python实现量化选股相关推荐

  1. Python实现量化选股

    什么是选股? 选股(stock selection)是一种主动性投资策略,先按照某种规则或算法分析单只股票的前景,然后构建一个投资组合,长期持有.一般情况下要求组合的股票具有低相关性,这样才能对冲系统 ...

  2. python 回归 显著_指南 | 量化选股with Python(2) 回归分析

    2000年,美国著名经济学家罗伯特·席勒在<非理性繁荣>一书中指出:"我们应当牢记,股市定价并未形成一门完美的科学." 回归分析  pearson相关系数: 用来描述两 ...

  3. python怎样实现量化选股?

    什么是量化选股? 量化量化选股(stock selection)是一种主动性投资策略,先按照Python某种规则或算法分析单只股票的前景,然后构建一个投资组合,长期持有.一般情况下要求组合的股票具有低 ...

  4. python多因子量化选股模型_【邢不行|量化小讲堂系列12-Python量化入门】法码三因子选股模型,有多少人可以跑赢...

    引言: 邢不行的系列帖子"量化小讲堂",通过实际案例教初学者使用python进行量化投资,了解行业研究方向,希望能对大家有帮助. 个人微信:xingbuxing0807,有问题欢迎 ...

  5. python选股源代码_【一点资讯】Python实现行业轮动量化选股【附完整源码】 www.yidianzixun.com...

    1.背景 大量研究表明,A股行业有明显的轮动现象,并且与A股相反,行业指数通常呈现动量特征,即前期涨幅高的行业,会延续上涨的趋势,比前期涨幅低的行业有明显超额收益. 此外,也有大量研究表明,A股市场存 ...

  6. python量化选股策略 源码_【一点资讯】Python实现行业轮动量化选股【附完整源码】...

    1.背景 大量研究表明,A股行业有明显的轮动现象,并且与A股相反,行业指数通常呈现动量特征,即前期涨幅高的行业,会延续上涨的趋势,比前期涨幅低的行业有明显超额收益. 此外,也有大量研究表明,A股市场存 ...

  7. Python实现行业轮动量化选股【附完整源码】

    编者荐语: 所谓山不转水转,行业中的动量也存在一定的轮换效应.今天给大家分享一篇来自<量化小白上分记>的研报复现文章,基于因子动量.波动率.偏度.峰度来刻画行业轮动,对于构建行业轮动量化选 ...

  8. Python量化选股入门:资本资产定价模型(CAPM)

    Markowitz的均值-方差模型告诉我们如何构建自己的投资组合,并且他本人凭借这一贡献获得了诺贝尔经济学奖.其核心目标是在达成投资目标的前提下,最小化资产的风险. 不过由于其计算量大.难度高.成本高 ...

  9. python量化选股策略 源码_常见的十大量化投资策略(附源码)

    量化投资策略是利用量化的方法,进行金融市场的分析.判断和交易的策略.算法的总称.著名的量化投资策略有以下10种(注:策略源码模板不能直接用于实盘交易,仅供探讨交流) 01.海龟交易策略 海龟交易策略是 ...

最新文章

  1. Python中如何拷贝一个对象?(赋值、深拷贝、浅拷贝的区别)
  2. 图像处理之基础---高斯低通滤波在指定区域画放大圆形图
  3. 摩托罗拉能否追回逝去的那些年?
  4. (z) 傅里叶分析之掐死教程(完整版)
  5. AspNetCoreRateLimit - ASP.NET Core 速率限制中间件。
  6. [EDA]FPGA/CPLD 设计流程步骤及步骤概念
  7. python中变量的类型是动态的随时可以变化_python动态类型简介
  8. 分布式数据库数据一致性的原理、与技术实现方案
  9. could not find driver和PDO drivers = no value
  10. Linux 多线程编程使用pthread_creat()函数条件
  11. poj 3461 Oulipo (KMP)
  12. 并查集——村村通(洛谷 P1536)
  13. android 评分条 RatingBar 使用及自定义
  14. XML数据库与db4o的简要对比
  15. java 链表_java数据结构与算法之顺序表与链表深入分析(一)
  16. Redhat=》中文
  17. Docker的镜像操作命令
  18. Linux源码安装pgadmin4,linux安装pgadmin3
  19. 造一个智能语音音箱!!!太简单了【语音智能管家】
  20. 如何防范SQL注入 SQL注入测试

热门文章

  1. 对于大数据的发展,主要划分为哪几大阶段?
  2. MES系统中常见的数据采集方法
  3. 认识Innodb存储引擎
  4. Python——信号量、条件变量、事件
  5. 鼠标经过——图片放大效果
  6. IESM项目实训四——Web Audio录音和字符串转拼音
  7. SiC MOSFET驱动电压的分析
  8. Linux环境下Nginx不支持中文文件名解决办法
  9. 基于嵌入式ARM工控主板与X86工控主板的比较
  10. Tomcat的基本配置