股票信息定向爬取

功能描述:

目标  获取上交所和深交所所有股票的名称和交易信息

输出  保存在文件中

技术路线  requests  bs4  re

候选爬取网站:

新浪股票  http://finance.sina.com.cn/stock/

百度股票  https://gupiao.baidu.com/stock/

网站选取:

原则  股票信息静态存在于HTML页面中,非js代码生成,没有robots协议限制

方法  浏览器F12,源代码查看等

不要纠结于某个网站,多找信息源尝试

(在视频里老师表示新浪股票的html文件里没有个股信息,现在其实是有的,在这里我先选用百度股票)

由于百度股票的页面里不包含所有股票,因此我们先从东方财富网中获得所有股票名称。

程序的结构设计:

1、从东方财富网获取股票列表

2、根据股票列表逐个到百度股票获取个股信息

3、将结果保存到文件

转载于:https://www.cnblogs.com/rayshaw/p/8625409.html

爬虫10-股票信息定向爬取相关推荐

  1. 第一个爬虫程序之定向爬取中国大学排名(收获良多,不仅仅是写个程序,更是编程的步骤方法)

    第一个爬虫程序之定向爬取中国大学排名(收获良多,不仅仅是写个程序,更是编程的想法) 名称:定向爬取--中国大学排名定向爬取 首先,爬之前,看看你要定向爬取的网站和数据是什么类型的? 打开你要爬取网站, ...

  2. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  3. 【期末课设】python爬虫基础与可视化,使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载。

    1.大作业的内容 本要求使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载. 2.案例需求 要求采用虚拟浏览器等动态爬虫技术,完 ...

  4. python爬虫学习 之 定向爬取 淘宝商品价格

    python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...

  5. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  6. python网络爬虫:股票数据定向爬取

    百度股票(https://gupiao.baidu.com/stock/)属于静态网页数据,适合定向数据爬取:新浪股票(http://finance.sina.com.cn/stock/)数据存取在j ...

  7. Python爬虫入门实例八之股票数据定向爬取并保存(优化版)

    文章目录 写在前面 一.准备工作 1.功能描述 2.候选数据网站的选择 3.程序的结构设计 4.本篇选取的数据网站 (1)网站链接 (2)网站内容 二.数据网站分析 1.股票列表的分析 2.个股信息的 ...

  8. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:         1.可以了解Python简单爬取图片的一些思路和方 ...

  9. [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容.         PubMed是一个免费的搜寻引擎,提供生物医学 ...

最新文章

  1. 整合Flex和Java(中)
  2. 三万字,Spark学习笔记
  3. jquery标签选择器应用示例
  4. 怎样实现全屏显示(vc)
  5. 自动判断浏览器的中英文版本自动跳转网站中英文页面代码
  6. python拨号_python 拨号代码(win10 系统亲测有效)
  7. 金山云纳斯达克敲钟上市 不负时代的机遇
  8. 错误 4 error C2220: 警告被视为错误 - 没有生成“object”文件
  9. 最大尺寸分辨率_全球最大尺寸、最高分辨率硅基OLED显示屏在合肥点亮!
  10. 布谷直播:仿富聊V聊、一对一社交APP、抖音短视频、社交APP源码
  11. 问题 D: Search Problem
  12. qprocess start怎么判断是否结束_致恋爱中的我们,怎么样来判断一个女人是否在骗你?...
  13. 实现微信摇一摇部分功能
  14. set 存放类或结构体的打印
  15. 服务器重装系统u盘启动不了怎么办,重装系统时BIOS不识别U盘启动盘怎么办
  16. Lens Shading成因及相关
  17. 记录学习 - 分区函数Partition By的使用
  18. CTP开发——登录/查询
  19. linux debian u盘安装,Debian U盘安装盘,debian安装盘
  20. 基于JSP的在线珠宝交易平台

热门文章

  1. [CF718C] Sasha and Array
  2. jquery自定义banner图滚动插件---(解决最后一张图片倒回第一张图片的bug)
  3. NOIP2013/day1/1/转圈游戏
  4. 数据库的持续集成和版本控制[转自INFOQ]
  5. ASP正则表达式对象 - New RegExp
  6. python api调用百度ai平台_Python 百度AI接口调用
  7. 3d标注_告别繁琐,浩辰3D「文本特征」让设计更智慧!
  8. Nginx之gzip压缩配置
  9. idea每次都要build_Lombok有啥牛皮的?SpringBoot和IDEA官方都要支持它!
  10. (14) ZYNQ AXI4-Lite总线简介(学无止境)