前言:

编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中

系统环境:

64位win10系统,64位python3.6,IDE位pycharm

预备知识:

BeautifulSoup的基本知识,re正则表达式的基本知识

代码:

代码解释:

第一个getHTMLText函数的作用是获得所需的网页源代码

第二个getStockList函数的作用是获得东方财富网上面上海股票的全部代码,查看网页源代码可知,股票代码的数据放在'a'标签里面,如下图所示:

因此,首先用find_all方法遍历所有'a'标签,然后在'a'标签里面提取出href部分信息,在提取出来的href信息里面,用正则表达式匹配所需的信息,“sh\d{6}”,即徐亚匹配例如sh200010的信息

第三个函数需要根据第二个函数得到的股票代码,拼接出一个url,在这个特定的url的网页里,使用第一个函数解析网页,首先加一个判断,如果遇到html为空,那么要继续执行下去,同样,我们也需要再加一个判断(关键之处),遇到网页不存在,

但html源代码仍然是存在的,因此接下去这个命令

stockInfo = soup.find('div',attrs = {'class':'stock-bets'})

可能为空,如果不加判断,程序执行到这里就会报错而无法继续执行,因此添加:

if stockInfo == None:

continue

python如何爬虫股票数据_用python爬虫爬取股票数据相关推荐

  1. python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  2. Python爬虫实战,requests+tqdm模块,爬取漫画数据(附源码)

    前言 今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取 ...

  3. Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)

    前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...

  4. 踩坑的Python爬虫:新手如何在一个月内学会爬取大规模数据?

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...

  5. python大神-python大神教你在最短时间内学会爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...

  6. 爬虫实战:bilibili番剧排名爬取并数据可视化

    爬取bilibili的国创动漫的追番人数排行番剧,爬取该网页的番剧信息和各自番播放网页里的简介信息后,将数据存储到Excel和Database,最后通过网页将数据可视化. 1.爬取网页.数据解析.数据 ...

  7. 爬虫技术python流程图_爬虫学多久能爬取大规模数据!神级程序员:这篇够你学一个月!...

    利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: 在目标的驱动下,你的学习才会更加精准和高效.那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的.这里给你一条平 ...

  8. python爬虫教程下载-Python爬虫入门教程!手把手教会你爬取网页数据

    其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据.这里的"技术手段"就是网络爬虫.今天就给大家分享一篇爬虫基础知识 ...

  9. python爬虫好友图片_用itchat库爬取你所有微信好友的头像,并合成一张大图

    几年前,我们给爸妈手机上下载了一款神奇的软件,他的名字叫微信.几年后,爸妈就开始吐槽我们的微信头像了. 爸妈对我们微信头像的关注程度远胜过我们的衣食住行,我在新浪微博上看到了这张统计图. 图片来源:新 ...

  10. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

最新文章

  1. Ansible的安装及部署
  2. 湖南网络推广教大家如何“挽回”网站被降权的排名和权重?
  3. linux7 security,SECURITY-centos7下NFS使用与配置
  4. linux 产生0~2之间的随机数
  5. ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注
  6. iOS学习 NSString常用技巧
  7. 0.00...1是个什么数?
  8. 几十行python代码构建一个前后端分离的目标检测演示网站,代码开源
  9. 两种获取python版本的方法
  10. 微信项目直播开发(一)
  11. LPC1788 UART-DMA遇到的问题
  12. 222Beta多样性限制性排序CPCoA/CCA/RDA/LDA
  13. Cascade:自动化测试“旅程”
  14. micrium ucprobe使用笔记
  15. 点击百度网盘安装包无反应
  16. web前端基础 html5+css3(七.PS切图与项目实战(学成在线))
  17. 小学计算机课后作业,“互联网+”背景下小学信息技术课后作业设计研究
  18. 【附源码】计算机毕业设计java兴发农家乐服务管理系统设计与实现
  19. Spring如何用“声明式事务”保护亿万数据安全?【万字解决并发冲突】
  20. html 页面自动滚动,打开网页后屏幕自动滚动代码

热门文章

  1. 用HTML做一个注册页面
  2. 关于H5 图片上传(全篇)
  3. Linux实验一报告
  4. 网易云歌词居中滚动、点击/滑动进度条对应滚动、当前播放歌词高亮
  5. 打造高质量的App——《App研发录》
  6. [原]长城T2000D5B笔记本电脑使用报告
  7. Cookie Session Token 与 JWT 解析
  8. SQL优化的基本思路
  9. 只需1分钟,快速在无人机航测成果数据上提取“高程点”
  10. android通过NFC读取公交卡的余额和交易记录