(一)python金融数据爬虫项目

爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=cn&firstname=1&secondname=1_0&page=1)

爬取内容:雪球网深沪股市情况

使用工具:requests库实现发送请求、获取响应。

json格式的动态加载数据实现数据解析、提取。

pymysql进行数据存储

思路:对该网站的动态加载数据的请求方式进行控制变量的发送请求,最终得到实际有效的参数。

项目重点:使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点

直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):

1 import requests

2 import json

3 import pymysql

4

5 class mysql_conn(object):

6 # 魔术方法, 初始化, 构造函数

7 def __init__(self):

8 self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')

9 self.cursor = self.db.cursor()

10 # 执行modify(修改)相关的操作

11 def execute_modify_mysql(self, sql):

12 self.cursor.execute(sql)

13 self.db.commit()

14 # 魔术方法, 析构化 ,析构函数

15 def __del__(self):

16 self.cursor.close()

17 self.db.close()

18

19 headers = {

20 # 使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点

21 'cookie': xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a;

22 'user-agent': 'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/67.0.3396.99 safari/537.36',

23 }

24 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'

25

26 response = requests.get(url,headers=headers)

27

28 res_dict = json.loads(response.text)

29

30 list_lsit = res_dict['list']

31

32 db ={}

33 for list_item_dict in list_lsit:

34 data_dict = json.loads(list_item_dict['data'])

35

36 db['id'] = data_dict['id']

37 db['title'] = data_dict['title']

38 db['description'] = data_dict['description']

39 db['target'] = data_dict['target']

40 try:

41 sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)

42 mc = mysql_conn()

43 mc.execute_modify_mysql(sql)

44 except:

45 pass

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

python爬虫金融数据_python爬虫项目-爬取雪球网金融数据(关注、持续更新)相关推荐

  1. 【爬虫】4.5 实践项目——爬取当当网站图书数据

    目录 1. 网站图书数据分析 2. 网站图书数据提取 3. 网站图书数据爬取 (1)创建 MySQL 数据库 (2)创建 scrapy 项目 (3)编写 items.py 中的数据项目类 (4)编写 ...

  2. Python爬虫 爬取雪球网部分数据

    import requests import jsonurl = {'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?s ...

  3. python 写数值模拟器_python实现模拟器爬取抖音评论数据的示例代码

    目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...

  4. PyQt5制作一个爬虫小工具,爬取雪球网上市公司的财务数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于可以叫我才哥 ,作者:可以叫我才哥 最近有朋友需要帮忙写个爬虫脚本,爬取雪球网一些上 ...

  5. 简单使用resquests爬取雪球网数据,分析股票走势

    简单使用resquests爬取雪球网数据,分析股票走势 import requests import pymongo import json # 数据库初始化 client = pymongo.Mon ...

  6. 【爬虫】2.6 实践项目——爬取天气预报数据

    1. 项目简介 在中国天气网(http://www.weather.com.cn)中输入一个城市的名称,例如输入深圳,那么会转到地址http://www.weather.com.cn/weather1 ...

  7. python爬取抖音用户评论_python实现模拟器爬取抖音评论数据的示例代码

    目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...

  8. python爬虫天天基金_不使用Python爬虫框架,多线程+代理池爬取天天基金网、股票数据...

    提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金网进行 ...

  9. python爬虫外贸客户_python实战成功爬取海外批发商价格信息并写入记事本

    运行平台:windows Python版本:Python 3.7.0 用到的第三方库:requests ,Beautiful Soup,re IDE:jupyter notebook 浏览器:Chro ...

最新文章

  1. 不能用了 重装系统git_重装新版gitlab时遇到gitlab-rails database初始化失败
  2. iOS 蓝牙开发和注意点
  3. 第十章 PX4-Pixhawk-姿态控制
  4. PAT、PMT、SDT详解
  5. 【Java学习笔记一】类和对象
  6. oracle怎么设置出蓝色边,Oracle 数据库入门之———————-,多行函数-蓝色留心...
  7. MySQL 性能优化 分布式
  8. Java-Collections的sort方法对 list 进行排序
  9. XE中rectangle实现渐变
  10. MacBook进阶技巧,如何在触控栏添加一键截屏?
  11. sqlserver2010教程百度云盘_SQLServer数据库基础教程(72集),全套视频教程学习资料通过百度云网盘下载...
  12. Java学习之json篇——json介绍
  13. 明解java.pdf_明解C语言:中级篇 PDF下载
  14. 3 staruml 流程图,staruml流程图(staruml怎么画顺序图)
  15. C++:Timer类实现
  16. 麻雀爱上凤凰在线播放,麻雀爱上凤凰详细剧情
  17. CCS7.3安装,关闭win10家庭版自带杀毒
  18. 为什么会有BFC?BFC是什么?如何触发?BFC解决了什么问题?
  19. [宋史学习] 对西夏战争中暴露出的积弱形势 范仲淹
  20. ssh登录提示RSA Host key认证失败的解决方法

热门文章

  1. 所有controller interceptor_阿里二面:filter、interceptor、aspect应如何选择?很多人中招...
  2. C++结构体实例和类实例的初始化 .
  3. my stackoverflow
  4. EDC(Enterprise Data Center 企业数据中心)
  5. WriteFile API简介
  6. TimeOut 超时问题解决方案
  7. mysql查第二行,MYSQL查找第二行具有给定值的所有行
  8. 知道一点怎么设直线方程_直线初步
  9. typeof---JavaScript
  10. Python使用标准库itertools中count类求解数苹果问题