所有板块

板块历史走势

成分股

行业历史数据

成分股爬取存储

1. Q:如何获取板块日线K线图中的数据?

A:图中的K线图不是flash动画,鼠标移动,是会显示每天的价格情况,因此猜测是JS动态加载生成的 通过F12抓包 无找到相应的js文件 运气使然 无意间点到K线图的+-缩放键 新增了两个文件 2017.js、2018.js 里面便有想要的数据,分别是17年和18年每天的数据 数据格式对应为日期、开盘价、最高价、最低价、收盘价、成交量、成交额  获取即可

2. Q:2017.js和2018.js的网址 打开或者requests后并无相应数据,如何解决? 如半导体及元件板块的js网址是http://d.10jqka.com.cn/v4/line/bk_881121/01/2017.js 打开后是404

A:requests添加headers属性 headers属性中添加user-agent、Referer和Cookie

headers属性

3. Q:cookie容易失效 没爬几个网址就失效了,该如何解决?

A:因为没有登录 所以网址给的是临时cookie 极其容易失效 两个解决办法:1:注册一个同花顺账号 登陆后 给的cookie失效更长 2.用 selenium模拟浏览器登录,获取每次的临时cookie 这样就不会失效

我选择了第二种方法 第一种方法使用账号的cookie,容易被封账号,也懒得注册一个账号 第二种方法的缺点就是每次都会打开一个浏览器 有点耗内存 不过实测没问题

4. Q:用selenium模拟登陆,每次都会弹出浏览器 一闪一闪  光速开始又光速关闭 就像老有人在眼前晃 如何解决?

A:使用无头模式 即表面不看到浏览器 和PhantomJS一样 那为啥不用PhantomJS呢 因为selenium不再支持了嘛

Chrome无头模式

5.Q:获取成分股中 有的板块只有一个 有的有多页 如何批量处理?

不同板块的成分股

A:判断有没有“1/N”这样的标签 如果有则保存N 循环每一页到N位置 如 图中是1/4 获取4这个数 然后从1,2,3,4 循环到4  修改网页中的page即可 没有标签则默认取第一页

用try except 实现判断有无标签  并用yield url 保存网址

6.Q:抓取行业历史数据及成分股 耗时比较长 如单一个成分股 先保存所有的行业代码 再进入行业的主页 再获取当前页成分股 再点击下一页 直到没有 共有保存了3500多只股票及对应的成分股 耗时半小时 有没有办法加快爬取速度?

作者:丨像我这样的人丨

链接:https://www.jianshu.com/p/13381aac9245

python爬取同花顺_Python爬虫-同花顺行业历史数据及成分股相关推荐

  1. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

  2. python爬取方式_Python 爬虫入门(三)—— 寻找合适的爬取策略

    写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...

  3. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  4. python爬取拉勾网_python爬虫—爬取拉钩网

    本人自学python,小试牛刀,爬取广州片区拉钩网招聘信息.仅用于学习 参考文章:https://blog.csdn.net/SvJr6gGCzUJ96OyUo/article/details/805 ...

  5. python 爬取直播_python爬虫,轻快爬取直播平台热度排行

    ''' 需求分析 1.爬取页面 2.获取单个房间的数据 3.从上面数据中提取主播昵称和查看次数 4.格式化数据 5.按查看次数排序数据 6.添加序号 7.打印输出 ''' ''' 理解面向对象的封装思 ...

  6. python爬取天天基金_Python爬虫日记二:爬取天天基金网

    一.前言 这次的实验的任务是要爬取天天基金网的6000多个基金,并把爬取的数据存放到Mongodb数据库中,数据以供下次分析使用.而此次 需要采集的数据来自两个页面 页面1:从该页面爬取 所有基金代码 ...

  7. python爬取物流信息_python爬虫快递查询系统(源码)

    import requests import json def get_express_type(postid): '''根据快递单号来智能判断快递类型''' url = 'http://www.ku ...

  8. python爬取简历_python爬虫爬取智联简历?

    一.网页请求方式 GET方法和POST 方法.与 POST 相比,GET 的安全性较差,因为所发送的数据是 URL 的一部分.在发送密码或其他敏感信息时绝不要使用 GET 方法.POST 比 GET ...

  9. python爬取前程无忧_Python爬虫获取51job的51job代码,python,抓取,前程无忧

    为了结果直观,做的简单 网页地址: https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1 ...

  10. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

最新文章

  1. python将字符串写入csv_用Python将字符串值写入CSV文件
  2. 【原】使用Bmob作为iOS后台开发心得——查询关联关系(BmobRelation)
  3. 【转载】linux下如何使用sftp命令
  4. 【C++】C++中substr的用法
  5. 2010工作代码总结之三(repostioryItemGridLookUpEdit下拉框)
  6. 计算机显示不出来验证码,如何解决网页图片红叉显示不出来验证码图片没显示的电脑故障...
  7. 适合计算机的音乐,好听的适合做电脑开机音乐的歌
  8. Androidstudio 连接夜神模拟器
  9. ASP.NET Session详细介绍
  10. 2017年Q1中国无线路由器市场研究报告
  11. TP-LINK TL-WDN6200 USB无线网卡驱动程序安装方法
  12. 顺序图和活动图的一个区别
  13. 达内python培训班靠谱吗
  14. 利用虚拟机配置SDN网络实验平台(virtual box+Ubuntu+jdk配置+mininet+floodlight/openDaylight)
  15. 导数与偏导数的推导过程
  16. xmind各版本区别_制图心法 | 一文读懂XMind 8 和 XMind: ZEN的真正区别
  17. myeclipes10.7+maven+myBatis+spring+springMvc
  18. consul java connect_accumulation
  19. SQL Server2019还原.bak文件为数据库且更改数据库的存放位置
  20. 轻松实现Android 更换皮肤(主题)

热门文章

  1. 数据采集笔记(八爪鱼)-task1
  2. Muzli – 所有你需要的设计灵感都在这
  3. 【UCSC Genome Browser】Genes and Gene Predictions - GENCODE
  4. pojo和vo的含义
  5. Android 集成google地图
  6. 如何删除ppt自带背景音乐_ppt模板里自带的背景乐怎么去掉?
  7. 告别枯燥,ppt背景音乐怎么设置?
  8. python函数算面积_面积函数python
  9. 计算机取消补考,2005级《计算机文化基础》补考通知
  10. 京东广告联盟android,卓越、当当、京东三大广告联盟比较