本文针对以下链接进行学习
链接: 爬取东方财富网上的股票信息.
由于后来发现爬的都是指数基金的股票,便转向观看其它文章

目前发现一个比较好的python开源的财经数据包接口,Tushare

Tushare简介

Tushare是一个免费、开源的python财经数据接口包。拥有丰富的数据内容,如股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据,后续开通债券、外汇、行业、大数据、区块链。Tushare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。

官网:https://tushare.pro/register?reg=361791

金融数据爬虫实现过程

  • Tushare简介
  • 了解各个模块
    • pandas简介
    • JSON简介
      • JSON的由来
  • 添加写excel功能
  • 疑问

了解各个模块

pandas简介

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

链接: pandas 简单使用与语法.

JSON简介

JSON定义:JSON是轻量级的数据交换格式,全称JavaScript 对象表示法
(JavaScript Object Notation)

JSON 数据的书写格式是:名称/值对

"firstName" : "John"
{"employees": [`在这里插入代码片`
{ "firstName":"John" , "lastName":"Doe" },
{ "firstName":"Anna" , "lastName":"Smith" },
{ "firstName":"Peter" , "lastName":"Jones" }
]
}

JSON的由来

将JAVA对象存储到硬盘或将其进行网络传输,首先需要将其序列化为二进制的字节流,在使用时又要将其反序列化,把字节流变成JAVA对象。
为避免在网络传输过程中双方必须均使用JAVA,且序列化与反序列化的类必须一致的问题,产生了JSON。JSON语言中立,无论客户端使用什么语言,都支持解析。且,相比XML数据精简,传输效率更高。

JSON入门教程: JSON入门看这一篇就够了.

添加写excel功能

一篇比较好的pandas.dataFrame对excel的操作文章
Pandas.DataFrame对Excel操作笔记.
由于pandas在写入excel时,会把原来sheet中的内容擦除,且只保留一个sheet,为了解决这个问题,有以下这种的解决办法。需要使用到xlrd,xlwt,pandas和openpyxl四个模块。需要使用到writer。

import pandas
from openpyxl import load_workbookdf = pandas.read_excel('test.xlsx')
print df
book = load_workbook('test2.xlsx')
writer = pandas.ExcelWriter('test2.xlsx', engine='openpyxl')
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
df.to_excel(writer, "Main",index=0,startrow=0,startcol=0)
writer.save()

有时需要对dataframe进行合并其方法在下面链接中有描述
将pandas.dataframe进行合并、连接的方法.

除此之外python写入excel还有以下链接
链接: python 写入Excel文件.

疑问

1.为什么PYPI(The Python package index)里面的安装包,whl文件会比tar.gz压缩包小

python金融数据爬虫与数据分析学习(一)相关推荐

  1. 数据爬虫爬数据时常遇到的问题

    第一,可能不能直接通过pyppeteer简单的直接page.querySelectorAll()获取所有元素然后直接 str(await (await element_songer_name.getP ...

  2. Python金融数据分析_3_读取数据并分析

    Tushare Tushare是一个免费.开源的python财经数据接口包.主要实现对股票等金融数据从数据采集.清洗加工到数据存储的过程,能够为金融分析人员提供快速.整洁.和多样的便于分析的数据,在数 ...

  3. 中国大学mooc实战项目之淘宝商品信息提取 python《网络爬虫与数据提取》

    *获取页面里没有商品信息而是登录页面是因为没有cookie信息,所以想要获取淘宝商品信息需要先登录自己的账号得到自己的cookie 获取淘宝cookie的方法: 首先先登录我们自己的淘宝账号 淘宝搜索 ...

  4. python爬boss网站_python之requests爬虫Boss数据

    python之requests爬虫Boss数据 需要用到的库:reqeusts.lxml 没有的可以用直接下载 pip install requests pip install lxm 这里以pyth ...

  5. 女生学python工作累吗_数据分析师女生做累么 工资一般多少

    数据分析师女生做累么,工资一般多少,小编整理了相关信息,希望会对大家有所帮助! 数据分析师女生做累不累 女生还是很适合做数据分析的,数据分析师因为敲的代码少,相比起天天敲代码的职业更适合女生一些,没那 ...

  6. 用Python写了个金融数据爬虫,半小时干了全组一周的工作量

    最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已经不是一个问题了.Python已成为国内很多顶级投行.基金.咨询等泛金融.商科 ...

  7. python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...

    原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...

  8. 微博指定日期舆情数据爬虫获取—基于中文金融词典(python)

    最近在做一个微博舆情与金融市场分析的课题,需要爬取微博的舆情数据.因此需要根据关键词爬取指定日期的微博.现在代码写完了,实测还行,sleep设置得比较久,但爬取的数据很完整.硕士三年在CSDN学到了很 ...

  9. python如何爬虫网页数据-python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  10. python金融大数据分析师工资待遇_国内数据分析待遇如何?

    本文用数据分析的方法告诉你,数据分析师在不同阶段分别是值多少钱! 项目简介 自学数据分析的相关技能有一段时间,到现在也算学到不少内容,接下来打算慢慢找工作.在这之前打算将之前学的东西,练习一遍,慢慢增 ...

最新文章

  1. Windows7上使用VS2013编译Caffe源码(不带GPU支持)步骤
  2. 如何找到数字数组的总和
  3. Swift5版本以上#selector报错解决
  4. Objective-C Runtime 运行时之五:协议与分类
  5. 数学家出身的阿拉伯语诗人
  6. Python 进程互斥锁 Lock - Python零基础入门教程
  7. java nio集群_java – Hazelcast:连接到远程集群
  8. 以太坊上DeFi协议总锁仓量环比上升4.37%
  9. Soul 网关源码阅读(三)请求处理概览
  10. xe5 android sample 中的 SimpleList 是怎样绑定的
  11. 【安全风险通告】Apache ShardingSphere远程代码执行漏洞安全风险通告
  12. ndk 编译 ffmpeg
  13. Android Intent常用方法详细介绍,显示Intent,隐式Intent,调用浏览器,拨号,发短信,传递数据
  14. php常量的声明和使用
  15. abb变频器以太网适配器,ABB以太网适配器 Ethernet Adapter现货FENA-01
  16. kali PHP网站渗透,小白日记35:kali渗透测试之Web渗透
  17. Mac连接京瓷打印机Fs-1030MFP/DP
  18. Java实现鉴权失败达到一定次数锁定IP并释放到期IP
  19. 进程管理工具—— Sloth
  20. unity 卡通动物 shader 包含边缘光,ramp,描边

热门文章

  1. Birds in Forest
  2. css透明度兼容问题opacity
  3. 杂货机器人翻车实录:会被路人“吓”到,还会跟错主人!3千美元怕是买了个寂寞?
  4. python查看微信撤回消息_python轻松实现查看微信撤回消息代码实例
  5. matlab gui 作者,MATLAB GUI设计学习手记(第4版)
  6. Linux服务器开通443端口
  7. 交换机接口的双工模式
  8. 全国海选第三期:广州赛区节目视频
  9. JVM学习笔记(4)-运行时数据区详解之程序计数器与虚拟机栈
  10. 学习fullpage的使用