• 需修改output_file变量
  • 东方财富网 + 腾讯证券
import re
import requests
import traceback
from bs4 import BeautifulSoupdef getHtmlText(url):try:r = requests.get(url, timeout = 30)r.raise_for_statusr.encoding = r.apparent_encodingreturn r.textexcept:print("访问失败")return ""def getStockList(ls, stockurl):html = getHtmlText(stockurl)soup = BeautifulSoup(html, "html.parser")for i in soup.find_all('a'):try:href = i.attrs['href']ls.append(re.findall(r'[s][hz]\d{6}', href)[0])except:continuedef getStockInfo(ls, stockurl, fpath):for stock in ls:url = stockurl + stock + "/gp"html = getHtmlText(url)try:if html == "":continueinfoDict = {}soup = BeautifulSoup(html, 'html.parser')stockName = soup.find('div', attrs={'class':'title_bg'})stockInfo = soup.find('div', attrs={'class':'col-2 fr'})name = stockName.find_all(attrs={'class':'col-1-1'})[0]if name.text.split()[0] =='--':continueinfoDict.update({'股票名称':name.text.split()[0]})info = stockInfo.find_all('li')for i in info:key = re.findall('>.*?<', str(i))[1][1:-1]key = key.replace('\u2003','')key = key.replace('\xa0','')                try:val = re.findall('>.*?<', str(i))[3][1:-1]except:val = '--'infoDict[key] = valwith open(fpath, 'a', encoding='utf-8') as f:f.write(str(infoDict) + '\n')except:#traceback.print_exc()continuedef main():stock_list_url = 'http://quote.eastmoney.com/stock_list.html'stock_info_url = 'http://gu.qq.com/'output_file = '/home/lwy/Spiders/stockinfo.txt'slist = []getStockList(slist, stock_list_url)getStockInfo(slist, stock_info_url, output_file)main()

【爬虫入门】股票数据爬取相关推荐

  1. 爬虫项目3 - 股票数据爬取

    爬虫项目3 - 股票数据爬取 步骤 步骤 爬取股票名和股票列表,使用gucheng网进行爬取,网址: https://hq.gucheng.com/gpdmylb.html import reques ...

  2. python如何爬虫股票数据_简单爬虫:东方财富网股票数据爬取(python_017)

    需求:将东方财富网行情中心的股票数据爬取下来,包括上证指数.深圳指数.上证A股.深圳A股.新股.中小板.创业板 等 一.目标站点分析 东方财富网的行情中心页面包含了所有股票信息.在左侧的菜单栏中包含了 ...

  3. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  4. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  5. 使用python进行股票数据爬取中的时间限制和策略

    股票数据爬取中的时间限制和策略 在进行股票数据爬取时,时间限制和策略是非常重要的考虑因素.本文将介绍两个与此相关的函数:is_trade_day()和stock_work_day(). is_trad ...

  6. python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取

    爬虫原理和数据抓取 1.1 通用爬虫和聚焦爬虫 通用爬虫 聚焦爬虫 1.2 HTTP和HTTPS HTTP的请求与响应 浏览器发送HTTP请求的过程: 客户端HTTP请求 请求方法 常用的请求报头 服 ...

  7. python财务报表预测股票价格_机器学习股票价格预测从爬虫到预测-数据爬取部分...

    声明:本文已授权公众号「AI极客研修站」独家发布 前言 各位朋友大家好,小之今天又来给大家带来一些干货了.上篇文章机器学习股票价格预测初级实战是我在刚接触量化交易那会,因为苦于找不到数据源,所以找的一 ...

  8. 爬虫之websocket数据爬取

    收集了大家的问题.我又重新写了一篇websocket的代码,并添加了注释,在文章最后.希望可以解决大家遇到的问题- websocket是最近开发很常用的技术之一,他可以一直保持着连接不断,但是你的页面 ...

  9. 给小白的python爬虫入门之批量爬取别样网的视频素材

    网络爬虫,听起来很神秘,其实也不过如此,简单来说,只要网站开放了端口即用户能访问这个网站,那么无论这个网站的反爬机制做的有多么好,只要你的技术够,总会有机会破解它. 换句话说,不是你的网站很安全,而是 ...

  10. java爬虫入门--用jsoup爬取汽车之家的新闻

    概述 使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...

最新文章

  1. Echange配置企业邮件收发策略
  2. shell中基本正则表达式的元字符
  3. 汇编语言等号=伪指令
  4. Ubuntu下 5步安装nginx记录
  5. springboot static访问不到_Spring Boot 的静态资源处理
  6. signature=3e4864de0d5dd0316b95f8329f488c7d,一种农机车桥轮毂油封
  7. Oracle SQL 对象的命令和编写规范
  8. 推荐JS插件:imagesLoaded,监测图片加载情况并提供相应的事件(加载成功/失败)...
  9. 专门感染word文件的计算机病毒是什么,计算机病毒分类及详细介绍.doc
  10. 用计算机绘制阀体各零件步骤,机械制图之零件图(四)
  11. Excel使用频率较高的数据处理和分析-----数据透视表
  12. php投影,投影效果怎么做?PS制作逼真的投影效果
  13. 313day(服务器的一些问题)
  14. 计算机金融专业美国学校排名,美国金融专业都有哪些种类?
  15. Win10 笔记本显示器颜色太艳,如何将电脑屏幕颜色调淡
  16. 使用matlab显示图像的一个坑:文件名或 URL 参数必须为字符向量、uigetfile出现要串联的数组的维度不一致
  17. Thickbox使用中的一些问题
  18. 华为用c还是java,C语言和Java孰轻孰重!
  19. 对文件进行的操作命令
  20. 【读官方文档,学原味技术】SpringBoot-Staters和自定义Starter

热门文章

  1. 道路监控系统java代码_使用Java实现简单的监控系统
  2. 华为手机如何与台式计算机连接不上,华为智能手机与戴尔台式电脑连接不上怎么处理...
  3. 说到比心源码,不如讲讲比心源码实现聊天室功能该怎么做?
  4. leaflet加载OpenTopoMap地图(示例代码020)
  5. RTT-KEIL-AC6编译问题
  6. 数据结构堆的时间复杂度(最大堆,最小堆)
  7. 新IT赋能数实融合 联想全链智能场景亮相世界制造业大会(转载)
  8. 快讯 | 嘉益仕(Litins)应邀出席2018世界智能制造大会·江宁智能产业地标论坛
  9. lgv30屏幕参数_性能升级 LG V30 真旗舰 835+曲面屏
  10. 视频生成二维码操作指南(手把手操作教程)