python爬取同花顺_Python爬虫-同花顺行业历史数据及成分股

所有板块

板块历史走势

成分股

行业历史数据

成分股爬取存储

1. Q:如何获取板块日线K线图中的数据？

A：图中的K线图不是flash动画，鼠标移动，是会显示每天的价格情况，因此猜测是JS动态加载生成的通过F12抓包无找到相应的js文件运气使然无意间点到K线图的+-缩放键新增了两个文件 2017.js、2018.js 里面便有想要的数据，分别是17年和18年每天的数据数据格式对应为日期、开盘价、最高价、最低价、收盘价、成交量、成交额获取即可

2. Q：2017.js和2018.js的网址打开或者requests后并无相应数据，如何解决？如半导体及元件板块的js网址是http://d.10jqka.com.cn/v4/line/bk_881121/01/2017.js 打开后是404

A:requests添加headers属性 headers属性中添加user-agent、Referer和Cookie

headers属性

3. Q：cookie容易失效没爬几个网址就失效了，该如何解决？

A：因为没有登录所以网址给的是临时cookie 极其容易失效两个解决办法：1：注册一个同花顺账号登陆后给的cookie失效更长 2.用 selenium模拟浏览器登录，获取每次的临时cookie 这样就不会失效

我选择了第二种方法第一种方法使用账号的cookie，容易被封账号，也懒得注册一个账号第二种方法的缺点就是每次都会打开一个浏览器有点耗内存不过实测没问题

4. Q:用selenium模拟登陆，每次都会弹出浏览器一闪一闪光速开始又光速关闭就像老有人在眼前晃如何解决？

A：使用无头模式即表面不看到浏览器和PhantomJS一样那为啥不用PhantomJS呢因为selenium不再支持了嘛

Chrome无头模式

5.Q:获取成分股中有的板块只有一个有的有多页如何批量处理？

不同板块的成分股

A：判断有没有“1/N”这样的标签如果有则保存N 循环每一页到N位置如图中是1/4 获取4这个数然后从1,2,3,4 循环到4 修改网页中的page即可没有标签则默认取第一页

用try except 实现判断有无标签并用yield url 保存网址

6.Q:抓取行业历史数据及成分股耗时比较长如单一个成分股先保存所有的行业代码再进入行业的主页再获取当前页成分股再点击下一页直到没有共有保存了3500多只股票及对应的成分股耗时半小时有没有办法加快爬取速度？

作者：丨像我这样的人丨

链接：https://www.jianshu.com/p/13381aac9245

python爬取同花顺_Python爬虫-同花顺行业历史数据及成分股相关推荐

python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解
这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言喜马拉雅是专业的音频分享平台,汇集 ...
python爬取方式_Python 爬虫入门（三）—— 寻找合适的爬取策略
写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...
python爬取网页内容_Python爬虫原理解析
笔者公众号:技术杂学铺笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫如今互联网上存储着大量的信息. 作为普通网民,我 ...
python爬取拉勾网_python爬虫—爬取拉钩网
本人自学python,小试牛刀,爬取广州片区拉钩网招聘信息.仅用于学习参考文章:https://blog.csdn.net/SvJr6gGCzUJ96OyUo/article/details/805 ...
python 爬取直播_python爬虫，轻快爬取直播平台热度排行
''' 需求分析 1.爬取页面 2.获取单个房间的数据 3.从上面数据中提取主播昵称和查看次数 4.格式化数据 5.按查看次数排序数据 6.添加序号 7.打印输出 ''' ''' 理解面向对象的封装思 ...
python爬取天天基金_Python爬虫日记二：爬取天天基金网
一.前言这次的实验的任务是要爬取天天基金网的6000多个基金,并把爬取的数据存放到Mongodb数据库中,数据以供下次分析使用.而此次需要采集的数据来自两个页面页面1:从该页面爬取所有基金代码 ...
python爬取物流信息_python爬虫快递查询系统（源码）
import requests import json def get_express_type(postid): '''根据快递单号来智能判断快递类型''' url = 'http://www.ku ...
python爬取简历_python爬虫爬取智联简历？
一.网页请求方式 GET方法和POST 方法.与 POST 相比,GET 的安全性较差,因为所发送的数据是 URL 的一部分.在发送密码或其他敏感信息时绝不要使用 GET 方法.POST 比 GET ...
python爬取前程无忧_Python爬虫获取51job的51job代码,python,抓取,前程无忧
为了结果直观,做的简单网页地址: https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1 ...
python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

python爬取同花顺_Python爬虫-同花顺行业历史数据及成分股

python爬取同花顺_Python爬虫-同花顺行业历史数据及成分股相关推荐

最新文章

热门文章