量化选股策略搭建(一)(股票数据获取)

接触股市一年多，能力有限并未赚钱，目前个人时间渐渐宽裕起来，准备开发一些量化策略，包括股价预测、股票选取、股票操作等。创立这个公众号的目的是为了记载一些个人在量化策略上的研究，目前还未正式学习，暂时都是凭着本人在数据挖掘、机器学习和股市上的一些理解进行的研究。在接下来的一段时间里，个人将在选股策略上进行一定的研究。
虽然目前有很多的量化回测系统，但这些系统都是集成好的，所能提供的策略指标都是很传统的策略指标，无法进行一些数据挖掘的工作，无法使用自己所相使用的模型。本人在github上也查找了一下代码也并未找到让自己满意的可以用来学习的代码（看别人代码也太累了），因此决定从0到1开发一个属于自己的策略。
既然要进行一个数据挖掘的任务，那么首先就是需要数据获取，tushare提供了一个很好的数据获取接口。如下图我们可以通过tushare获取一些股票数据。具体可以获取的数据可以看接口，这里放一个tushare接口数据的链接：tushare

数据获取

导入一些包：

import tushare as ts
import pandas as pd
import os
import time

Token 获取权限：

mytoken = '**********'
ts.set_token(mytoken)
ts.set_token(mytoken)
save_path = 'F:\stock'
pro = ts.pro_api()

这个token需要到tushare网址那申请一个账号获取token，链接：https://tushare.pro/
注册完之后到个人主页可以查看token，如下图

然后是个股的行情获取，这里我们只考虑获取主板和中小板的股票，至于创业板和科创板，个人无法购买这个股票，这里就不获取了。

#获取基础信息数据，包括股票代码、名称、上市日期、退市日期等
pool = pro.stock_basic(exchange='',list_status='L',adj='qfq',fields='ts_code,symbol,name,area,industry,fullname,list_date, market,exchange,is_hs')
#print(pool.head())# 因为穷没开通创业板和科创板权限，这里只考虑主板和中心板
pool = pool[pool['market'].isin(['主板', '中小板'])].reset_index()
pool.to_csv(os.path.join(save_path, 'company_info.csv'), index=False, encoding='ANSI')

对于每个field的含义，可以去接口平台查看，这里我们所获取的是一些日线的行情概括，各个字段含义如下图。

然后就是数据循环获取，因为接口限制了访问，这里用sleep暂停数据获取。除此之外，因为后期我们需要更新每天的股市信息，所以对得到的dataframe按日期排了下序，后期再更新时只需要获取当天行情即可，然后直接在末尾追加写入即可。

for i in pool.ts_code:print('正在获取第%d家，股票代码%s.' % (j, i))#接口限制访问200次/分钟，加一点微小的延时防止被banpath = os.path.join(save_path, 'OldData', i + '_NormalData.csv')j += 1# if os.path.exists(path):#     continuetime.sleep(0.301)df = pro.daily(ts_code=i,start_date=startdate,end_date=enddate,fields='ts_code, trade_date, open, high, low, close, pre_close, change, pct_chg, vol, amount')df = df.sort_values('trade_date', ascending=True)df.to_csv(path, index=False)

同样的，我们可以获取一些指数的日线行情：

def getIndexData():# 上交所指数信息df = pro.index_basic(market='SSE')df.to_csv(os.path.join(save_path, 'SSE.csv'), index=False, encoding='ANSI')# 深交所指数信息df = pro.index_basic(market='SZSE')df.to_csv(os.path.join(save_path, 'SZSE.csv'), index=False, encoding='ANSI')# 获取指数历史信息# 这里获取几个重要的指数 【上证综指，上证50，上证A指，深证成指，深证300，中小300，创业300，中小板综，创业板综】index = ['000001.SH', '000016.SH', '000002.SH', '399001.SZ', '399007.SZ', '399008.SZ', '399012.SZ', '399101.SZ','399102.SZ']for i in index:path = os.path.join(save_path, 'OldData', i + '_NormalData.csv')df = pro.index_daily(ts_code=i,start_date=startdate,end_date=enddate,fields='ts_code, trade_date, open, high, low, close, pre_close, change, pct_chg, ''vol, amount')df = df.sort_values('trade_date', ascending=True)df.to_csv(path, index=False)

以上就是初始数据获取的关键代码展示。
完整代码今天暂时还传不上去（github好像有点崩了），后面再传。这里先放出完整代码。

import tushare as ts
import pandas as pd
import os
import time"""
获取历史数据
"""mytoken = '*******'
ts.set_token(mytoken)
ts.set_token(mytoken)
save_path = 'F:\stock'
pro = ts.pro_api()def getNoramlData():#获取基础信息数据，包括股票代码、名称、上市日期、退市日期等pool = pro.stock_basic(exchange='',list_status='L',adj='qfq',fields='ts_code,symbol,name,area,industry,fullname,list_date, market,exchange,is_hs')#print(pool.head())# 因为穷没开通创业板和科创板权限，这里只考虑主板和中心板pool = pool[pool['market'].isin(['主板', '中小板'])].reset_index()pool.to_csv(os.path.join(save_path, 'company_info.csv'), index=False, encoding='ANSI')print('获得上市股票总数：', len(pool)-1)j = 1for i in pool.ts_code:print('正在获取第%d家，股票代码%s.' % (j, i))#接口限制访问200次/分钟，加一点微小的延时防止被banpath = os.path.join(save_path, 'OldData', i + '_NormalData.csv')j += 1# if os.path.exists(path):#     continuetime.sleep(0.301)df = pro.daily(ts_code=i,start_date=startdate,end_date=enddate,fields='ts_code, trade_date, open, high, low, close, pre_close, change, pct_chg, vol, amount')df = df.sort_values('trade_date', ascending=True)df.to_csv(path, index=False)def getIndexData():# 上交所指数信息df = pro.index_basic(market='SSE')df.to_csv(os.path.join(save_path, 'SSE.csv'), index=False, encoding='ANSI')# 深交所指数信息df = pro.index_basic(market='SZSE')df.to_csv(os.path.join(save_path, 'SZSE.csv'), index=False, encoding='ANSI')# 获取指数历史信息# 这里获取几个重要的指数 【上证综指，上证50，上证A指，深证成指，深证300，中小300，创业300，中小板综，创业板综】index = ['000001.SH', '000016.SH', '000002.SH', '399001.SZ', '399007.SZ', '399008.SZ', '399012.SZ', '399101.SZ','399102.SZ']for i in index:path = os.path.join(save_path, 'OldData', i + '_NormalData.csv')df = pro.index_daily(ts_code=i,start_date=startdate,end_date=enddate,fields='ts_code, trade_date, open, high, low, close, pre_close, change, pct_chg, ''vol, amount')df = df.sort_values('trade_date', ascending=True)df.to_csv(path, index=False)if __name__ == '__main__':#设置起始日期startdate = '20120101'enddate = '20191226'#主程序getNoramlData()getIndexData()

个人公众号,这里放一个个人公众号,后期策略成熟将会在公众号中分享个股.