目前很多网站对爬虫都有防范措施,传统的爬数据方法不一定有效。我们只能曲线救国,通过模拟网页浏览方式爬取数据,虽然速度慢,既能达到目标又不会网站服务器增加压力,双赢吧。

Python环境要先下载selenium模块,在工作目录下要下载相应浏览器的驱动,我这里用firefox,下载geckodriver。

具体代码如下:

from selenium import webdriver

import tushare as ts

#批量爬取北向资金数据函数

def getNorthFundDateData(brow,url,dates): #本函数金更新持有数量,另一函数刷新个股股价

tryTimes = 3

#brow.refresh()

#time.sleep(1)

brow.get(url)

time.sleep(1)

errorDate = []

for date in dates:

try:

inputDate = brow.find_element_by_id('txtShareholdingDate')

brow.execute_script("arguments[0].value = '" + date.replace('-','/') + "';", inputDate) # 直接用js修改input的值

brow.find_element_by_id('btnSearch').click()

brow.implicitly_wait(10)

#baseData = ts.get_stock_basics()

time.sleep(1)

text = brow.page_source #获取网页代码

#text = text.decode('utf-8')

text = text.replace('\r\n', '')

text = text.replace('\n', '')

text = text.replace(' ', '')

lines = re.findall(r'

.*?', text)

date = re.findall(r'txtShareholdingDate"type="text"value=.*?id="txtShareholdingDate', text)[0].split('value="')[

1].split('"id=')[0]

date = date.replace('/', '-')

result = []

for line in lines: #分析网页内容,获取并转换数据

if ('股份代號:') in line:

datas = re.findall(r'.*?

', line)

北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...相关推荐

  1. mysql 数据为空 none 网页显示空白_用python爬虫爬取股票数据

    前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6, ...

  2. 爬取三千条数据需要多久_数字科学家赚多少钱?我爬取近 6 年三千份数据后发现了这些秘密...

    数字科学家究竟能赚多少钱?这大概是数据科学领域最有趣.关注度最高的一个问题了.近期,美国一位对这个问题充满好奇的数据科学家 Tony Yiu,针对数据科学家的薪资水平做了一次数据分析.他爬取了 201 ...

  3. python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据?数据库会炸吧?...

    2.页面分析 发现一共有88万多个问题,再看一下页面的列表规律,我们按照每页最大显示50个问题,一共有17776页,数据非常大 1).页面列表的构建 整个的stackoverflow上关于Python ...

  4. python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

  5. python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...

  6. python爬取知乎回答并进行舆情分析:爬取数据部分

    python爬取知乎回答并进行舆情分析:爬取数据部分 背景 Ajax原理介绍 Request URL分析 json报文结构分析 代码 参考链接 背景 近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...

  7. 大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取

    大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  8. 爬虫入门—数据解析基础 bs4库使用之红楼梦全文文本爬取

    爬虫入门-数据解析基础 bs4库使用之红楼梦全文文本爬取 Author: Labyrinthine Leo   Init_time: 2021.02.23 Key Words: Spider.Beau ...

  9. Python 不用selenium 带你高效爬取京东商品评论

    文章目录 一.项目说明 1.项目背景 2.项目环境 二.项目实施 1.项目分析 2.代码实现 导入模块和定义常量 爬取评论主体函数 主函数 三.项目分析和说明 1.运行测试 2.改进分析 3.其他说明 ...

  10. Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息

    对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

最新文章

  1. 计算机网络谢希仁第七版课后答案第五章 传输层
  2. sqlAlchemy中的对象转换为dict
  3. [BZOJ3206][Apio2013]道路费用
  4. Python函数之初体验
  5. 全国高校MINI开发挑战赛结果出炉,99年的他们为什么能赢?
  6. 基于Mint UI和MUI开发VUE项目一之环境搭建和首页的实现
  7. java 包装类缺点_Java 自动拆箱和自动装箱学习笔记
  8. 34.Odoo产品分析 (四) – 工具板块(5) – 设备及联系人目录(1)
  9. opencv大津算法二值化
  10. 幼儿园连锁管理系统源码
  11. 基于WEB的PDF打印——浏览器中静默打印PDF文件
  12. 如何快速压缩PPT文件?
  13. 帝搜软件新功能发布:知乎关键词seo排名优化上线
  14. 删库跑路最佳实践总结
  15. 产品新人如何才能找到第一份产品工作?
  16. python批量修改Excel文件后缀csv为xlsx
  17. MySQL通过分组计算百分比
  18. timer延迟1us_STM32 Systick定时器在实现1us延时的问题与解决
  19. 第5章分数的位置及标准化分布
  20. 看历史涨知识!高速公路知多少?

热门文章

  1. 2008年度中国最佳MBA排行榜
  2. 计算机组成原理(三)存储器的层次结构
  3. [数据挖掘] 朴素贝叶斯 以及西瓜集特征工程
  4. 微型计算机8字节,八位字节是什么意思
  5. 2010年上半年5月份系统分析师上午试题答案(分析与解答)之十
  6. 美国计算机科学奥林匹克竞赛试题,2019USAAAO美国天文奥林匹克竞赛预赛试题(答案)...
  7. Excel如何从单元格中提取数值
  8. go 操作 kafka 实现发送和订阅
  9. 微信永久封号怎么解封?微信社交场景被限制解决办法
  10. python将电视剧按收视率进行排序_Python爬虫实现数据可视化,卫视实时收视率对比,就是如此强大!...