【爬虫入门】股票数据爬取

需修改output_file变量
东方财富网 + 腾讯证券

import re
import requests
import traceback
from bs4 import BeautifulSoupdef getHtmlText(url):try:r = requests.get(url, timeout = 30)r.raise_for_statusr.encoding = r.apparent_encodingreturn r.textexcept:print("访问失败")return ""def getStockList(ls, stockurl):html = getHtmlText(stockurl)soup = BeautifulSoup(html, "html.parser")for i in soup.find_all('a'):try:href = i.attrs['href']ls.append(re.findall(r'[s][hz]\d{6}', href)[0])except:continuedef getStockInfo(ls, stockurl, fpath):for stock in ls:url = stockurl + stock + "/gp"html = getHtmlText(url)try:if html == "":continueinfoDict = {}soup = BeautifulSoup(html, 'html.parser')stockName = soup.find('div', attrs={'class':'title_bg'})stockInfo = soup.find('div', attrs={'class':'col-2 fr'})name = stockName.find_all(attrs={'class':'col-1-1'})[0]if name.text.split()[0] =='--':continueinfoDict.update({'股票名称':name.text.split()[0]})info = stockInfo.find_all('li')for i in info:key = re.findall('>.*?<', str(i))[1][1:-1]key = key.replace('\u2003','')key = key.replace('\xa0','')                try:val = re.findall('>.*?<', str(i))[3][1:-1]except:val = '--'infoDict[key] = valwith open(fpath, 'a', encoding='utf-8') as f:f.write(str(infoDict) + '\n')except:#traceback.print_exc()continuedef main():stock_list_url = 'http://quote.eastmoney.com/stock_list.html'stock_info_url = 'http://gu.qq.com/'output_file = '/home/lwy/Spiders/stockinfo.txt'slist = []getStockList(slist, stock_list_url)getStockInfo(slist, stock_info_url, output_file)main()

【爬虫入门】股票数据爬取相关推荐

爬虫项目3 - 股票数据爬取
爬虫项目3 - 股票数据爬取步骤步骤爬取股票名和股票列表,使用gucheng网进行爬取,网址: https://hq.gucheng.com/gpdmylb.html import reques ...
python如何爬虫股票数据_简单爬虫：东方财富网股票数据爬取(python_017)
需求:将东方财富网行情中心的股票数据爬取下来,包括上证指数.深圳指数.上证A股.深圳A股.新股.中小板.创业板等一.目标站点分析东方财富网的行情中心页面包含了所有股票信息.在左侧的菜单栏中包含了 ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
使用python进行股票数据爬取中的时间限制和策略
股票数据爬取中的时间限制和策略在进行股票数据爬取时,时间限制和策略是非常重要的考虑因素.本文将介绍两个与此相关的函数:is_trade_day()和stock_work_day(). is_trad ...
python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取
爬虫原理和数据抓取 1.1 通用爬虫和聚焦爬虫通用爬虫聚焦爬虫 1.2 HTTP和HTTPS HTTP的请求与响应浏览器发送HTTP请求的过程: 客户端HTTP请求请求方法常用的请求报头服 ...
python财务报表预测股票价格_机器学习股票价格预测从爬虫到预测-数据爬取部分...
声明:本文已授权公众号「AI极客研修站」独家发布前言各位朋友大家好,小之今天又来给大家带来一些干货了.上篇文章机器学习股票价格预测初级实战是我在刚接触量化交易那会,因为苦于找不到数据源,所以找的一 ...
爬虫之websocket数据爬取
收集了大家的问题.我又重新写了一篇websocket的代码,并添加了注释,在文章最后.希望可以解决大家遇到的问题- websocket是最近开发很常用的技术之一,他可以一直保持着连接不断,但是你的页面 ...
给小白的python爬虫入门之批量爬取别样网的视频素材
网络爬虫,听起来很神秘,其实也不过如此,简单来说,只要网站开放了端口即用户能访问这个网站,那么无论这个网站的反爬机制做的有多么好,只要你的技术够,总会有机会破解它. 换句话说,不是你的网站很安全,而是 ...
java爬虫入门--用jsoup爬取汽车之家的新闻
概述使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...

【爬虫入门】股票数据爬取

【爬虫入门】股票数据爬取相关推荐

最新文章

热门文章