北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...
目前很多网站对爬虫都有防范措施,传统的爬数据方法不一定有效。我们只能曲线救国,通过模拟网页浏览方式爬取数据,虽然速度慢,既能达到目标又不会网站服务器增加压力,双赢吧。
Python环境要先下载selenium模块,在工作目录下要下载相应浏览器的驱动,我这里用firefox,下载geckodriver。
具体代码如下:
from selenium import webdriver
import tushare as ts
#批量爬取北向资金数据函数
def getNorthFundDateData(brow,url,dates): #本函数金更新持有数量,另一函数刷新个股股价
tryTimes = 3
#brow.refresh()
#time.sleep(1)
brow.get(url)
time.sleep(1)
errorDate = []
for date in dates:
try:
inputDate = brow.find_element_by_id('txtShareholdingDate')
brow.execute_script("arguments[0].value = '" + date.replace('-','/') + "';", inputDate) # 直接用js修改input的值
brow.find_element_by_id('btnSearch').click()
brow.implicitly_wait(10)
#baseData = ts.get_stock_basics()
time.sleep(1)
text = brow.page_source #获取网页代码
#text = text.decode('utf-8')
text = text.replace('\r\n', '')
text = text.replace('\n', '')
text = text.replace(' ', '')
lines = re.findall(r'
.*?', text)
date = re.findall(r'txtShareholdingDate"type="text"value=.*?id="txtShareholdingDate', text)[0].split('value="')[
1].split('"id=')[0]
date = date.replace('/', '-')
result = []
for line in lines: #分析网页内容,获取并转换数据
if ('股份代號:') in line:
datas = re.findall(r'.*?
', line)
北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...相关推荐
- mysql 数据为空 none 网页显示空白_用python爬虫爬取股票数据
前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6, ...
- 爬取三千条数据需要多久_数字科学家赚多少钱?我爬取近 6 年三千份数据后发现了这些秘密...
数字科学家究竟能赚多少钱?这大概是数据科学领域最有趣.关注度最高的一个问题了.近期,美国一位对这个问题充满好奇的数据科学家 Tony Yiu,针对数据科学家的薪资水平做了一次数据分析.他爬取了 201 ...
- python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据?数据库会炸吧?...
2.页面分析 发现一共有88万多个问题,再看一下页面的列表规律,我们按照每页最大显示50个问题,一共有17776页,数据非常大 1).页面列表的构建 整个的stackoverflow上关于Python ...
- python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
- python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...
功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...
- python爬取知乎回答并进行舆情分析:爬取数据部分
python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...
- 大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取
大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...
- 爬虫入门—数据解析基础 bs4库使用之红楼梦全文文本爬取
爬虫入门-数据解析基础 bs4库使用之红楼梦全文文本爬取 Author: Labyrinthine Leo Init_time: 2021.02.23 Key Words: Spider.Beau ...
- Python 不用selenium 带你高效爬取京东商品评论
文章目录 一.项目说明 1.项目背景 2.项目环境 二.项目实施 1.项目分析 2.代码实现 导入模块和定义常量 爬取评论主体函数 主函数 三.项目分析和说明 1.运行测试 2.改进分析 3.其他说明 ...
- Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
最新文章
- 计算机网络谢希仁第七版课后答案第五章 传输层
- sqlAlchemy中的对象转换为dict
- [BZOJ3206][Apio2013]道路费用
- Python函数之初体验
- 全国高校MINI开发挑战赛结果出炉,99年的他们为什么能赢?
- 基于Mint UI和MUI开发VUE项目一之环境搭建和首页的实现
- java 包装类缺点_Java 自动拆箱和自动装箱学习笔记
- 34.Odoo产品分析 (四) – 工具板块(5) – 设备及联系人目录(1)
- opencv大津算法二值化
- 幼儿园连锁管理系统源码
- 基于WEB的PDF打印——浏览器中静默打印PDF文件
- 如何快速压缩PPT文件?
- 帝搜软件新功能发布:知乎关键词seo排名优化上线
- 删库跑路最佳实践总结
- 产品新人如何才能找到第一份产品工作?
- python批量修改Excel文件后缀csv为xlsx
- MySQL通过分组计算百分比
- timer延迟1us_STM32 Systick定时器在实现1us延时的问题与解决
- 第5章分数的位置及标准化分布
- 看历史涨知识!高速公路知多少?
热门文章
- 2008年度中国最佳MBA排行榜
- 计算机组成原理(三)存储器的层次结构
- [数据挖掘] 朴素贝叶斯 以及西瓜集特征工程
- 微型计算机8字节,八位字节是什么意思
- 2010年上半年5月份系统分析师上午试题答案(分析与解答)之十
- 美国计算机科学奥林匹克竞赛试题,2019USAAAO美国天文奥林匹克竞赛预赛试题(答案)...
- Excel如何从单元格中提取数值
- go 操作 kafka 实现发送和订阅
- 微信永久封号怎么解封?微信社交场景被限制解决办法
- python将电视剧按收视率进行排序_Python爬虫实现数据可视化,卫视实时收视率对比,就是如此强大!...