python爬虫金融数据_python爬虫项目-爬取雪球网金融数据(关注、持续更新)
(一)python金融数据爬虫项目
爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=cn&firstname=1&secondname=1_0&page=1)
爬取内容:雪球网深沪股市情况
使用工具:requests库实现发送请求、获取响应。
json格式的动态加载数据实现数据解析、提取。
pymysql进行数据存储
思路:对该网站的动态加载数据的请求方式进行控制变量的发送请求,最终得到实际有效的参数。
项目重点:使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点
直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):
1 import requests
2 import json
3 import pymysql
4
5 class mysql_conn(object):
6 # 魔术方法, 初始化, 构造函数
7 def __init__(self):
8 self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')
9 self.cursor = self.db.cursor()
10 # 执行modify(修改)相关的操作
11 def execute_modify_mysql(self, sql):
12 self.cursor.execute(sql)
13 self.db.commit()
14 # 魔术方法, 析构化 ,析构函数
15 def __del__(self):
16 self.cursor.close()
17 self.db.close()
18
19 headers = {
20 # 使用抓包工具分析发送数据请求到json格式的cookie数据,这是此次动态抓取的重点
21 'cookie': xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a;
22 'user-agent': 'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/67.0.3396.99 safari/537.36',
23 }
24 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'
25
26 response = requests.get(url,headers=headers)
27
28 res_dict = json.loads(response.text)
29
30 list_lsit = res_dict['list']
31
32 db ={}
33 for list_item_dict in list_lsit:
34 data_dict = json.loads(list_item_dict['data'])
35
36 db['id'] = data_dict['id']
37 db['title'] = data_dict['title']
38 db['description'] = data_dict['description']
39 db['target'] = data_dict['target']
40 try:
41 sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)
42 mc = mysql_conn()
43 mc.execute_modify_mysql(sql)
44 except:
45 pass
如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!
python爬虫金融数据_python爬虫项目-爬取雪球网金融数据(关注、持续更新)相关推荐
- 【爬虫】4.5 实践项目——爬取当当网站图书数据
目录 1. 网站图书数据分析 2. 网站图书数据提取 3. 网站图书数据爬取 (1)创建 MySQL 数据库 (2)创建 scrapy 项目 (3)编写 items.py 中的数据项目类 (4)编写 ...
- Python爬虫 爬取雪球网部分数据
import requests import jsonurl = {'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?s ...
- python 写数值模拟器_python实现模拟器爬取抖音评论数据的示例代码
目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...
- PyQt5制作一个爬虫小工具,爬取雪球网上市公司的财务数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于可以叫我才哥 ,作者:可以叫我才哥 最近有朋友需要帮忙写个爬虫脚本,爬取雪球网一些上 ...
- 简单使用resquests爬取雪球网数据,分析股票走势
简单使用resquests爬取雪球网数据,分析股票走势 import requests import pymongo import json # 数据库初始化 client = pymongo.Mon ...
- 【爬虫】2.6 实践项目——爬取天气预报数据
1. 项目简介 在中国天气网(http://www.weather.com.cn)中输入一个城市的名称,例如输入深圳,那么会转到地址http://www.weather.com.cn/weather1 ...
- python爬取抖音用户评论_python实现模拟器爬取抖音评论数据的示例代码
目标: 由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理,最近时间充裕后,在这里做个笔记. 提示:大体思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理 ...
- python爬虫天天基金_不使用Python爬虫框架,多线程+代理池爬取天天基金网、股票数据...
提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金网进行 ...
- python爬虫外贸客户_python实战成功爬取海外批发商价格信息并写入记事本
运行平台:windows Python版本:Python 3.7.0 用到的第三方库:requests ,Beautiful Soup,re IDE:jupyter notebook 浏览器:Chro ...
最新文章
- 不能用了 重装系统git_重装新版gitlab时遇到gitlab-rails database初始化失败
- iOS 蓝牙开发和注意点
- 第十章 PX4-Pixhawk-姿态控制
- PAT、PMT、SDT详解
- 【Java学习笔记一】类和对象
- oracle怎么设置出蓝色边,Oracle 数据库入门之———————-,多行函数-蓝色留心...
- MySQL 性能优化 分布式
- Java-Collections的sort方法对 list 进行排序
- XE中rectangle实现渐变
- MacBook进阶技巧,如何在触控栏添加一键截屏?
- sqlserver2010教程百度云盘_SQLServer数据库基础教程(72集),全套视频教程学习资料通过百度云网盘下载...
- Java学习之json篇——json介绍
- 明解java.pdf_明解C语言:中级篇 PDF下载
- 3 staruml 流程图,staruml流程图(staruml怎么画顺序图)
- C++:Timer类实现
- 麻雀爱上凤凰在线播放,麻雀爱上凤凰详细剧情
- CCS7.3安装,关闭win10家庭版自带杀毒
- 为什么会有BFC?BFC是什么?如何触发?BFC解决了什么问题?
- [宋史学习] 对西夏战争中暴露出的积弱形势 范仲淹
- ssh登录提示RSA Host key认证失败的解决方法
热门文章
- 所有controller interceptor_阿里二面:filter、interceptor、aspect应如何选择?很多人中招...
- C++结构体实例和类实例的初始化 .
- my stackoverflow
- EDC(Enterprise Data Center 企业数据中心)
- WriteFile API简介
- TimeOut 超时问题解决方案
- mysql查第二行,MYSQL查找第二行具有给定值的所有行
- 知道一点怎么设直线方程_直线初步
- typeof---JavaScript
- Python使用标准库itertools中count类求解数苹果问题