文末赠书活动,欢迎参加

中国A股2019年开年市场火爆,随着股市大涨,沪市指数逼近3000点大关,三大股指均创下本轮反弹新高,股市单日成交过万亿,许多人跑步进入股市。

要想在股市中获得收益,对股票数据进行分析非常重要,要进行数据分析必须有数据,然而数据收集是很费时费力的事情,有些网站中会有我们需要的数据,如果能把这些数据下载到电脑中,对后面使用机器学习算法处理非常有用。例如下图是某一日的股票行情信息:

如果想得到上面表格中的数据,可以使用网络爬虫实现。网络爬虫,又被称为网页蜘蛛,网络机器人,有时也称为网页追逐者,是一种按照一定的规则,自动地抓取互联网上网页中相应信息(文本、图片等)的程序或者脚本,然后把抓取的信息存储到自己的计算机上。

程序主要由三部分组成:网页源码的获取、删除冗余的内容和标签和结果的显示。

实现步骤如下:

1、网页源码的获取

url='http://quote.stockstar.com/stock/ranklist_a_3_1_1.html'  #目标网址headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)"} #伪装浏览器请求报头request=urllib.request.Request(url=url,headers=headers)  #请求服务器response=urllib.request.urlopen(request)  #服务器应答content=response.read().decode('gbk')   #以一定的编码方式查看源码for page in range(1,8):    url='http://quote.stockstar.com/stock/ranklist_a_3_1_'+str(page)+'.html'request=urllib.request.Request(url=url,headers={"User-Agent":random.choice(user_agent)}) #随机从user_agent列表中抽取一个元素    content=response.read().decode('gbk')       #读取网页内容

2、删除冗余的内容

获取网页源码后,就可以从中提取我们所需要的数据了。如前所述,提取的网页内容中有很多html的标签,空格等内容,此时需要从源码删除这些信息,这里仍然使用正则表达式,代码如下:

  pattern=re.compile('<tbody[\s\S]*</tbody>')     body=re.findall(pattern,str(content))    pattern=re.compile('>(.*?)<')    stock_page=re.findall(pattern,body[0])      #正则匹配    stock_total.extend(stock_page)    time.sleep(random.randrange(1,4))   

3、结果的显示

print('代码','\t','简称','   ','\t','最新价','\t','涨跌幅','\t','涨跌额','\t','5分钟涨幅')for i in range(0,len(stock_last),13):        #网页总共有13列数据   print(stock_last[i],'\t',stock_last[i+1],' ','\t',stock_last[i+2],'  ','\t',stock_last[i+3],'  ','\t',stock_last[i+4],'  ','\t',stock_last[i+5])

下图是使用爬虫获取的数据。

有了上面数据之后,我们就可以使用机器学习算法,自己编制程序进行预测了。

文章节选自北京大学出版社出版的《Python 3 数据分析与机器学习实战》,这本书现在在京东参加满100减50的活动,点击阅读原文,即可了解更多。书香节优惠码 :G469NF,4月16号至25号可用,在每满100减50的基础上使用该优惠码满200元再减30元。

在文章底部留言区说说给你印象最深刻或你最喜欢的Python开发项目。本文留言区点赞数排名前5名的朋友,可以免费获得《Python3数据分析与机器学习实战》图书一本, 奖品图书由北京大学出版社提供。

活动截止日期:4月25日(周四)晚上22:00

Python股票数据爬虫解读相关推荐

  1. 股票数据爬虫进阶:免费、开源的股票爬虫Python库,实测真香

    ​​ 数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Pyth ...

  2. 股票数据爬虫(Scrapy框架与requests-bs4-re技术路线)

    Scrapy 中文名:抓取 一个功能强大.快速.优秀的第三方库 它是软件结构与功能组件的结合,可以帮助用户快速实现爬虫. Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站 ...

  3. python影视数据爬虫sqlite源码+论文(完整版和简洁版)

    python影视数据爬虫sqlite源码+论文(完整版和简洁版)-99源码网,程序代做,代写程序代码,代写编程,代写Java编程,代写php编程,计算机专业代做,计算机毕业设计,网站建设,网站开发,程 ...

  4. python自学-class20-爬取东方财富网股票数据(爬虫)

    前俩天学习了正则表达式以及爬虫基础应用,于是我再结合先前一些UI界面设计的知识做一个股票数据查询的小工具,不过还不具备数据分析的功能: 刚开始使用了一些博主提供的网址("http://quo ...

  5. python 股票数据_从互联网获取股票数据(历史数据,Python + MySQL)

    目标 从互联网(网易数据接口)获取股票历史数据,包括开盘价.最高价.最低价.收盘价等等 环境 Python 3.6 MySQL 5.6.34 table: stock_list 记录数:3592 条, ...

  6. python 股票数据下载_如何下载股票历史数据?

    1.准备 开始之前,你要确保Python和pip已经成功安装在电脑上噢,如果没有,请访问这篇文章:超详细Python安装指南 进行安装.如果你用Python的目的是数据分析,可以直接安装Anacond ...

  7. python股票数据预处理_PythonStock(14):使用pandas 批量处理股票数据,批量计算股票指标...

    前言 使用Python开发一个股票项目. 项目地址: https://github.com/pythonstock/stock 相关资料: http://www.voidcn.com/article/ ...

  8. python股票数据预处理_Python股票处理之六_数据预处理A

    1. 说明 在数据统计和预测的过程中,工程师基本都使用现成的算法,工程师的主要工作是根据具体业务逻辑预处理数据和选择算法. 首先要对数据预处理(数据清洗),包括数据的归一化,去除重复数据,修改错误数据 ...

  9. python股票数据简单分析

    一.简单说明 1.需求 2.数据 3. 部分结果 画的图 筛选的股票 二.学习收获 1.如何将DataFrame列的object类型转为自己需要float类型? 这里成交量为例子 转为相应float类 ...

最新文章

  1. s3cmd安装与使用
  2. Java之JDK和JRE
  3. redis在windows10上跑起来
  4. java控制台输入输出总结
  5. Android官方开发文档Training系列课程中文版:管理Activity的生命周期之停止和重启Activity
  6. python36 mysql_python-day36(初识MySQL数据库)
  7. flash代码_Flash如何处理常见的代码错误(AS3)(2)
  8. Kernel启动时 驱动是如何加载的module_init,加载的次序如何;略见本文
  9. PMP培训机构转个圈
  10. VS2012 MFC 入门
  11. 网页 游戏服务器连接超时,连接游戏服务器超时怎么解决
  12. 计算机分区的优点,NTFS分区格式的优点及其转换
  13. 招聘网探究分析报告(以描述性分析为主)
  14. ARTS-第二周(2019.07.08)
  15. ios - 7之状态栏黑底白字
  16. LC99 Recover Binary Search Tree
  17. H5+JavaScript 剪刀石头布小游戏完整代码
  18. 估值冰火两重天 互联网金融巨头“天价”冲刺上市
  19. 开启/关闭 移动数据连接 Mobile Data
  20. ChatGPT实现大麦抢票脚本

热门文章

  1. 计算机开机主机不停地重启,求救:电脑一直重启,开机自检后,一会就重启
  2. ktv系统服务器,ktv服务器主机系统
  3. D语言游戏编程(1):工作环境
  4. 防封链接,无投诉按钮链接,地推链接制作,活动链接制作,防封无投诉按钮链接制作方法。
  5. 手游传奇有挂吗_传奇手游辅助工具
  6. HP光影精灵3 TPN-Q193显卡驱动安装不上,鲁大师检测不到显卡
  7. 【Unity3D游戏开发】之游戏目录结构之最佳实践和优化 (十一)
  8. 如何用计算机做音乐,怎么制作音乐-手把手教你用废旧物品DIY音乐道具,超好玩!...
  9. 利用python对gif图片进行压缩处理,简单案例
  10. FTP协议是一种用于什么的协议