最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据。因此考虑利用 Python 做一个小的爬虫程序获取相关数据。

数据来源

简单的搜索了一下,发现网上推荐的网站多数指向一个叫理财收益网 的网站,这里的较为详细的数据,不过这个网站的数据仅仅提供到2016年的12月底,17年的1月到2月并没有,所以不怎么符合条件。

然后再看了一下天天基金网 ,进入余额宝页面,在走势图旁边有一个 历史收益 的栏目,点击进去,可以看到有 历史净值 的数据,而且数据从 2013-5-30 到最近一天的数据,这里的数据比较适合,因此就选择从这里爬取数据。

网页分析

在编写爬虫程序之前,我们先分析一下这个网页。

我们可以看到,这张表格下面有一个分页栏,点击下面的页数切换数据。到这里,一般思路是先看看能不能找到这个网页的数据更新的 api,如果有,就可以直接通过拼接 url 传入参数来获取数据,如果不能的话,那可以考虑使用 selenium 之类的工具模拟点击实现。

我们先用 chrome 浏览器自带的开发者工具,尝试是否能够获取的数据更新的 api 。比较幸运,这个网站是可以获取到更新数据的 url 的。url 如下:

http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=000198&page=1&per=20

然后这个 url 的返回值如下:

var apidata=
{ content:"<table class='w782 comm lsjz'><thead><tr><th class='first'>净值日期</th><th>每万份收益</th><th>7日年化收益率(%)</th><th>申购状态</th><th>赎回状态</th><th class='tor last'>分红送配</th></tr></thead><tbody><tr><td>2017-03-17</td><td class='tor bold'>1.0213</td><td class='tor bold'>3.7480%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-16</td><td class='tor bold'>1.0147</td><td class='tor bold'>3.7360%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-15</td><td class='tor bold'>1.0082</td><td class='tor bold'>3.7230%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-14</td><td class='tor bold'>1.0066</td><td class='tor bold'>3.7120%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-13</td><td class='tor bold'>1.0191</td><td class='tor bold'>3.6990%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-12</td><td class='tor bold'>0.9931</td><td class='tor bold'>3.6830%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-11</td><td class='tor bold'>0.9934</td><td class='tor bold'>3.6740%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-10</td><td class='tor bold'>0.9998</td><td class='tor bold'>3.6660%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-09</td><td class='tor bold'>0.9904</td><td class='tor bold'>3.6540%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-08</td><td class='tor bold'>0.9873</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-07</td><td class='tor bold'>0.9836</td><td class='tor bold'>3.6460%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-06</td><td class='tor bold'>0.9882</td><td class='tor bold'>3.6460%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-05</td><td class='tor bold'>0.9775</td><td class='tor bold'>3.6420%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-04</td><td class='tor bold'>0.9777</td><td class='tor bold'>3.6440%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-03</td><td class='tor bold'>0.9786</td><td class='tor bold'>3.6450%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-02</td><td class='tor bold'>0.9829</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-03-01</td><td class='tor bold'>0.9804</td><td class='tor bold'>3.6500%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-28</td><td class='tor bold'>0.9821</td><td class='tor bold'>3.6510%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-27</td><td class='tor bold'>0.9814</td><td class='tor bold'>3.6520%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr><tr><td>2017-02-26</td><td class='tor bold'>0.9806</td><td class='tor bold'>3.6520%</td><td>开放申购</td><td>开放赎回</td><td class='red unbold'></td></tr></tbody></table>"
,records:1386
,pages:70
,curpage:1};

我们可以通过返回数据得到总页数,然后通过更改 url 中的page参数,再解释 content 里面的内容就可以获取到我们想要的数据了。

Python 爬虫程序

有了上面的分析和思路,我们就可以开始编写程序了。我的 python 环境为基于 Anaconda2 的 python 2.7.12 版本,代码在 macOS Sierra 10.12.3 通过。

第一步,我们首先要拿到数据的总页数,这里有个小 Tips,这个获取数据的 url 可以不需要 per 参数,然后它的输出是默认一页10行,我在代码中为了让 url 更短小好看,因此就省略了 per 参数。

获取总记录,总页数,当前页面的代码如下:

def obtain_info_of_data(symbol):response = requests.get('http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=' + str(symbol))# return format: var apidata={...};# filter the tagcontent = str(response.text.encode('utf8')[13:-2])content_split = content.split(',')# obtain the info of data, curpage, pages, recordscurpage = content_split[-1].split(':')[-1]pages = content_split[-2].split(':')[-1]records = content_split[-3].split(':')[-1]return {'curpage': curpage, 'pages': pages, 'records': records}

在这段代码中,有几个地方需要稍微注意一下。首先这个返回值要注意编码的问题 (python2.7),然后这个返回值的格式有点像 json 格式但其实它并不是,它的前面有一个 var apidata = 以及最后多了一个 ; 。 我们可以选择把它整理成 json 的格式,然后再做处理,不过我这里直接把前面到 { 的内容切掉,然后后面把 } 后的内容切掉,这样就可以得到一个以 , 分割的字符串,我们通过 split 函数对 , 进行分割,这样既可方便的把返回的字符串截取成 4 个我们需要的部分,然后后面的处理就比较简单了。

拿到这个数据相关描述信息后,我们可以开始接着爬去数据了,相关代码如下:

def obtain_data(symbol, dict_data_info):cur_pages = int(dict_data_info['pages'])pages = dict_data_info['pages']records = dict_data_info['records']data_return = []url = 'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=%s&page=%s'for cp in range(int(pages), 0, -1):response = requests.get(url % (symbol, str(cp)))content = response.text.encode('utf8')[13:-2]data = content.split(',')[0][10:-1]data_soup = bs4.BeautifulSoup(data, 'lxml')line_of_data = len(data_soup.select('table > tbody > tr'))for i in range(line_of_data, 0, -1):row_of_data = []date = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(1)' % i)[0].textearning_per_10k = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(2)' % i)[0].textannualized_return = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(3)' % i)[0].textrow_of_data.append(date)row_of_data.append(earning_per_10k)row_of_data.append(annualized_return)data_return.append(row_of_data)print 'Finished %i' % cpcur_pages -= 1if cur_pages == 1 and len(data_return) != int(records):print 'Data Missing..'return pd.DataFrame(data_return)

这段代码主要分为两个部分,一个是遍历页面,另一个是在页面用遍历每一行的数据。这里我们用到了 BeautifulSoup 库来处理 HTML 的内容,然后在函数的最后添加了一个简单的数据完整性炎症,最后以 pandas DataFrame 的格式返回。

小结

这个获取余额宝历史收益数据的小爬虫其实并不难,只要耐心分析一个网站的结构,理顺思路就可以完成,不过代码到这里,其实并不是很完善。如果希望将这些数据更方便的用于量化交易以及其他的一些实验,还需要把 Dataframe 里面的数据再做一些处理,如万分收益率转为以1为单位的收益率可能更方便计算,然后年化收益率规整话,去掉那个百分号等。

以上代码已经上传的 Github,可以下载运行。


本文为原创内容,由同一作者于早前发表于简书,利用 Python 获取余额宝历史收益数据

利用 Python 获取余额宝历史收益数据相关推荐

  1. 通达信行情数据获取--python_利用 Python 获取余额宝历史收益数据

    最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据.因此考虑 ...

  2. 可转债代码交流第二期:利用Python获取集思录数据(改)

    上期内容讲解了宁稳网数据获取的方法(用于初步计算未上市可转债价格),具体方法参考第一期:可转债代码交流第一期:利用Python获取宁稳网数据(包含基本的环境搭建与Python编辑器安装方法) 本人并非 ...

  3. 【python量化】用Python获取基金历史净值数据

    写在前面 股票期货等历史数据可以通过很多接口以及库来获取,而针对基金数据获取的方式则比较少.下面这篇文章的主要内容是介绍如何通过Python爬取天天基金网的基金历史数据,以便于我们对基金进行数据分析以 ...

  4. python刷网易云_利用Python获取网易云音乐数据,python

    #!/usr/bin/env python # -*- coding: utf-8 -*- import json import re import urllib.request import pan ...

  5. 实战教程!利用Python获取数据,并在地图上批量标注

    我们想要在地图上批量标注某一类的大量点位,该怎么操作呢?没有它的坐标数据,就没有办法批量标注.今天给大家介绍下,来自图新地球用户王泽的原创教程--利用Python获取数据,并在地图上批量标注的方法! ...

  6. 利用python获取微信企业号打卡数据,并生成windows计划任务

    利用python获取微信企业号打卡数据,并生成windows计划任务 安装python 安装第三方库 写主程序 设置Windows计划任务 由于公司的系统用的是Java版本,开通了企业号打卡之后又没有 ...

  7. 利用python获取word图表数据和修改图表信息

    利用python获取word图表数据和修改图表信息 起因咸鱼有个人问word怎么修改图表信息,想用docx库找不到关于图表的方法,这里用了Win32com. import time import wi ...

  8. python爬去百度文库_利用Python语言轻松爬取数据[精品文档]

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  9. python爬取百度文库_利用Python语言轻松爬取数据

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

最新文章

  1. 一段代码到可执行程序所有经历
  2. lightroom安卓_安卓可以用的一款PS
  3. 如何利用jquery实现一句话全选/取消全选的实例代码
  4. python List交集、并集、差集
  5. ubuntu xfce下面两个终端合并为一个终端
  6. HTTP协议详解(转载)
  7. HBase Java API 代码开发
  8. 框架 butterknife
  9. zabbix监控TCP连接数
  10. PHP file_get_contents与file_put_contents
  11. 全球及中国无线硬盘行业发展前景与投资战略规划分析报告2022-2028年
  12. 人工智能 深度学习 机器学习
  13. mount的挂载远程服务器文件夹
  14. 迁移公众号和个人博客
  15. c语言json库如何编译,C语言的JSON库Jansson
  16. MyBatis-Plus插件
  17. 【 IntelliJ IDEA 】设置主题和字体
  18. 有没有讲python模块的书_python - 模块,包
  19. html在浏览器显示图片,html - 在所有Web浏览器中显示TIFF图像
  20. Flex入门学习教程

热门文章

  1. Hadoop完全分布式实现WordCount
  2. 从生命周期角度聊聊2B与2C
  3. SVN 删除文件后恢复
  4. 联诚发|一封来自中国中小企业国际合作协会的感谢信
  5. 【以太坊开发-01】必备环境
  6. RestFul接口设计
  7. python实现restful接口_使用python为mysql实现restful接口
  8. 充一次电使用一年的手机_手机用一年,要用多少电费,这个你们算过吗?
  9. Android Studio无法Share Project
  10. object对象转数组