最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据。因此考虑利用 Python 做一个小的爬虫程序获取相关数据。

数据来源

简单的搜索了一下,发现网上推荐的网站多数指向一个叫理财收益网 的网站,这里的较为详细的数据,不过这个网站的数据仅仅提供到2016年的12月底,17年的1月到2月并没有,所以不怎么符合条件。

然后再看了一下天天基金网 ,进入余额宝页面,在走势图旁边有一个 历史收益 的栏目,点击进去,可以看到有 历史净值 的数据,而且数据从 2013-5-30 到最近一天的数据,这里的数据比较适合,因此就选择从这里爬取数据。

网页分析

在编写爬虫程序之前,我们先分析一下这个网页。

Paste_Image.png

我们可以看到,这张表格下面有一个分页栏,点击下面的页数切换数据。到这里,一般思路是先看看能不能找到这个网页的数据更新的 api,如果有,就可以直接通过拼接 url 传入参数来获取数据,如果不能的话,那可以考虑使用 selenium 之类的工具模拟点击实现。

我们先用 chrome 浏览器自带的开发者工具,尝试是否能够获取的数据更新的 api 。比较幸运,这个网站是可以获取到更新数据的 url 的。url 如下:

http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=000198&page=1&per=20

然后这个 url 的返回值如下:

var apidata=

{ content:"

净值日期 每万份收益 7日年化收益率(%) 申购状态 赎回状态 分红送配
2017-03-17 1.0213 3.7480% 开放申购 开放赎回
2017-03-16 1.0147 3.7360% 开放申购 开放赎回
2017-03-15 1.0082 3.7230% 开放申购 开放赎回
2017-03-14 1.0066 3.7120% 开放申购 开放赎回
2017-03-13 1.0191 3.6990% 开放申购 开放赎回
2017-03-12 0.9931 3.6830% 开放申购 开放赎回
2017-03-11 0.9934 3.6740% 开放申购 开放赎回
2017-03-10 0.9998 3.6660% 开放申购 开放赎回
2017-03-09 0.9904 3.6540% 开放申购 开放赎回
2017-03-08 0.9873 3.6500% 开放申购 开放赎回
2017-03-07 0.9836 3.6460% 开放申购 开放赎回
2017-03-06 0.9882 3.6460% 开放申购 开放赎回
2017-03-05 0.9775 3.6420% 开放申购 开放赎回
2017-03-04 0.9777 3.6440% 开放申购 开放赎回
2017-03-03 0.9786 3.6450% 开放申购 开放赎回
2017-03-02 0.9829 3.6500% 开放申购 开放赎回
2017-03-01 0.9804 3.6500% 开放申购 开放赎回
2017-02-28 0.9821 3.6510% 开放申购 开放赎回
2017-02-27 0.9814 3.6520% 开放申购 开放赎回
2017-02-26 0.9806 3.6520% 开放申购 开放赎回

"

,records:1386

,pages:70

,curpage:1};

我们可以通过返回数据得到总页数,然后通过更改 url 中的page参数,再解释 content 里面的内容就可以获取到我们想要的数据了。

Python 爬虫程序

有了上面的分析和思路,我们就可以开始编写程序了。我的 python 环境为基于 Anaconda2 的 python 2.7.12 版本,代码在 macOS Sierra 10.12.3 通过。

第一步,我们首先要拿到数据的总页数,这里有个小 Tips,这个获取数据的 url 可以不需要 per 参数,然后它的输出是默认一页10行,我在代码中为了让 url 更短小好看,因此就省略了 per 参数。

获取总记录,总页数,当前页面的代码如下:

def obtain_info_of_data(symbol):

response = requests.get('http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=' + str(symbol))

# return format: var apidata={...};

# filter the tag

content = str(response.text.encode('utf8')[13:-2])

content_split = content.split(',')

# obtain the info of data, curpage, pages, records

curpage = content_split[-1].split(':')[-1]

pages = content_split[-2].split(':')[-1]

records = content_split[-3].split(':')[-1]

return {'curpage': curpage, 'pages': pages, 'records': records}

在这段代码中,有几个地方需要稍微注意一下。首先这个返回值要注意编码的问题 (python2.7),然后这个返回值的格式有点像 json 格式但其实它并不是,它的前面有一个 **var apidata = ** 以及最后多了一个 ; 。 我们可以选择把它整理成 json 的格式,然后再做处理,不过我这里直接把前面到 { 的内容切掉,然后后面把 } 后的内容切掉,这样就可以得到一个以 , 分割的字符串,我们通过 split 函数对 , 进行分割,这样既可方便的把返回的字符串截取成 4 个我们需要的部分,然后后面的处理就比较简单了。

拿到这个数据相关描述信息后,我们可以开始接着爬去数据了,相关代码如下:

def obtain_data(symbol, dict_data_info):

cur_pages = int(dict_data_info['pages'])

pages = dict_data_info['pages']

records = dict_data_info['records']

data_return = []

url = 'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=%s&page=%s'

for cp in range(int(pages), 0, -1):

response = requests.get(url % (symbol, str(cp)))

content = response.text.encode('utf8')[13:-2]

data = content.split(',')[0][10:-1]

data_soup = bs4.BeautifulSoup(data, 'lxml')

line_of_data = len(data_soup.select('table > tbody > tr'))

for i in range(line_of_data, 0, -1):

row_of_data = []

date = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(1)' % i)[0].text

earning_per_10k = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(2)' % i)[0].text

annualized_return = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(3)' % i)[0].text

row_of_data.append(date)

row_of_data.append(earning_per_10k)

row_of_data.append(annualized_return)

data_return.append(row_of_data)

print 'Finished %i' % cp

cur_pages -= 1

if cur_pages == 1 and len(data_return) != int(records):

print 'Data Missing..'

return pd.DataFrame(data_return)

这段代码主要分为两个部分,一个是遍历页面,另一个是在页面用遍历每一行的数据。这里我们用到了 BeautifulSoup 库来处理 HTML 的内容,然后在函数的最后添加了一个简单的数据完整性炎症,最后以 pandas DataFrame 的格式返回。

小结

这个获取余额宝历史收益数据的小爬虫其实并不难,只要耐心分析一个网站的结构,理顺思路就可以完成,不过代码到这里,其实并不是很完善。如果希望将这些数据更方便的用于量化交易以及其他的一些实验,还需要把 Dataframe 里面的数据再做一些处理,如万分收益率转为以1为单位的收益率可能更方便计算,然后年化收益率规整话,去掉那个百分号等。

以上代码已经上传的 Github,可以下载运行。

通达信行情数据获取--python_利用 Python 获取余额宝历史收益数据相关推荐

  1. 利用 Python 获取余额宝历史收益数据

    最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据.因此考虑 ...

  2. 通达信行情数据获取--python_股票量化交易-获取数据的两种方法

    量化交易第一步就是获取数据,介绍两种免费的方法 1.通过pytdx获取本地通达信数据 2.通过requests爬虫爬取腾讯财经数据 通过python第三方库pytdx获取 这是个很强大的第三方库,原理 ...

  3. 通达信行情数据获取--python_[python]沪深龙虎榜数据导入通达信的自选板块,并标注于K线图上...

    1 #coding=utf-8 2 3 #读取'[paint]'开头的csv文件 4 #copyright @ WangXinsheng 5 #http://www.cnblogs.com/wangx ...

  4. 通达信行情数据获取--python

    通达信行情数据获取方法,其中可以通过通达信每天下载导自身文件获取(通过c或者c++写一个接口就可以了),但是每天需要手动同步数据.下面介绍一个比较好网上接口.需要到"Tushare金融大数据 ...

  5. 可转债代码交流第二期:利用Python获取集思录数据(改)

    上期内容讲解了宁稳网数据获取的方法(用于初步计算未上市可转债价格),具体方法参考第一期:可转债代码交流第一期:利用Python获取宁稳网数据(包含基本的环境搭建与Python编辑器安装方法) 本人并非 ...

  6. 通达信行情数据获取--python_Python读取通达信数据

    Python读取通达信数据 一.介绍 python获取股票数据的方法很多,其中Tushare 财经数据接口包很好用,当然,也可以通过通达信本地的数据获取,这样更为方便. 日线数据存在这路径下D:\通达 ...

  7. mysql数据导入python_利用python将mysql中的数据导入excel

    原博文 2017-06-29 13:29 − Python对Excel的读写主要有xlrd.xlwt.xlutils.openpyxl.xlsxwriter几种. 如下分别利用xlwt和openpyx ...

  8. 【python量化】用Python获取基金历史净值数据

    写在前面 股票期货等历史数据可以通过很多接口以及库来获取,而针对基金数据获取的方式则比较少.下面这篇文章的主要内容是介绍如何通过Python爬取天天基金网的基金历史数据,以便于我们对基金进行数据分析以 ...

  9. python刷网易云_利用Python获取网易云音乐数据,python

    #!/usr/bin/env python # -*- coding: utf-8 -*- import json import re import urllib.request import pan ...

最新文章

  1. 工程师文化:BAT 为什么不喊老板
  2. 句法分析是什么?成分句法分析、依存句法分析又是什么?他们之间有什么区别?
  3. 【年终总结】2019年有三AI知识星球做了什么,明年又会做什么
  4. go获取项目内所有proto_gRPC学习之三:初试GO版gRPC开发
  5. redis 队列_Redis与Rabbitmq消息队列的区别
  6. err_cleartext_not_permitted
  7. 简述使jdbc连接mysql数据库_java中简述使用JDBC完成数据库操作的基本步骤。
  8. 网页加密编码的几种常见方法
  9. BaseAdapter使用的三种形式,逗比式,普通式,文艺式
  10. 设计模式-抽象工厂模式
  11. 建议收藏,最全ChatGPT 中文调教指南:提供各个领域的角色提示词(prompts)及使用技巧,当然也有不正经指南
  12. 弘辽科技:拼多多推广单元和推广计划是一样的吗?
  13. Nice UI - Hacked.io
  14. php判断是否节假日,php 排除周末与节假日程序实例代码
  15. 几何光学中近轴光学与高斯光学的区别
  16. 计算机中的正负数表示
  17. 假期最后一天!Go1.16 重磅发布,新版本特性一览
  18. 浅析如何在Nancy中使用Swagger生成API文档
  19. 吴穹:金融行业已来到全面推行数字化研发管理的时点
  20. 2022-2028全球公关公司行业调研及趋势分析报告

热门文章

  1. PHP实现一个简单的图书管理系统
  2. ThinkPad全系列恢复光盘(官方链接)(转)
  3. Access 2000 数据库密码格式
  4. 如何实现计算机网络资源共享,计算机网络最主要的功能是实现网络资源共享
  5. ibm服务器开不了机维修,IBM X3500服务器故障开不了机
  6. 论文中公式居中编号右对齐以及左下角基金的插入方法
  7. 轻松实现部分背景半透明的呈现效果
  8. 什么是暂时性死区(TDZ)?
  9. AutoCAD2014的安装与激活
  10. [量子客]3月全球量子计算发展内参