北上资金 python_股票数据抓取——北上基金持股数据（selenium抓取数据）,爬取,之,北向,资金,通过...

目前很多网站对爬虫都有防范措施，传统的爬数据方法不一定有效。我们只能曲线救国，通过模拟网页浏览方式爬取数据，虽然速度慢，既能达到目标又不会网站服务器增加压力，双赢吧。

Python环境要先下载selenium模块，在工作目录下要下载相应浏览器的驱动，我这里用firefox,下载geckodriver。

具体代码如下：

from selenium import webdriver

import tushare as ts

#批量爬取北向资金数据函数

def getNorthFundDateData(brow,url,dates): #本函数金更新持有数量，另一函数刷新个股股价

tryTimes = 3

#brow.refresh()

#time.sleep(1)

brow.get(url)

time.sleep(1)

errorDate = []

for date in dates:

try:

inputDate = brow.find_element_by_id('txtShareholdingDate')

brow.execute_script("arguments[0].value = '" + date.replace('-','/') + "';", inputDate) # 直接用js修改input的值

brow.find_element_by_id('btnSearch').click()

brow.implicitly_wait(10)

#baseData = ts.get_stock_basics()

time.sleep(1)

text = brow.page_source #获取网页代码

#text = text.decode('utf-8')

text = text.replace('\r\n', '')

text = text.replace('\n', '')

text = text.replace(' ', '')

lines = re.findall(r'

.*?', text)

date = re.findall(r'txtShareholdingDate"type="text"value=.*?id="txtShareholdingDate', text)[0].split('value="')[

1].split('"id=')[0]

date = date.replace('/', '-')

result = []

for line in lines: #分析网页内容，获取并转换数据

if ('股份代號:') in line:

datas = re.findall(r'.*?

', line)

北上资金 python_股票数据抓取——北上基金持股数据（selenium抓取数据）,爬取,之,北向,资金,通过...相关推荐

mysql 数据为空 none 网页显示空白_用python爬虫爬取股票数据
前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中系统环境: 64位win10系统,64位python3.6, ...
爬取三千条数据需要多久_数字科学家赚多少钱？我爬取近 6 年三千份数据后发现了这些秘密...
数字科学家究竟能赚多少钱?这大概是数据科学领域最有趣.关注度最高的一个问题了.近期,美国一位对这个问题充满好奇的数据科学家 Tony Yiu,针对数据科学家的薪资水平做了一次数据分析.他爬取了 201 ...
python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据？数据库会炸吧？...
2.页面分析发现一共有88万多个问题,再看一下页面的列表规律,我们按照每页最大显示50个问题,一共有17776页,数据非常大 1).页面列表的构建整个的stackoverflow上关于Python ...
python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫，用python爬取新浪微博数据...
功能连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...
python爬取知乎回答并进行舆情分析：爬取数据部分
python爬取知乎回答并进行舆情分析:爬取数据部分背景 Ajax原理介绍 Request URL分析 json报文结构分析代码参考链接背景近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...
大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取
大数据信息资料采集:网购图书市场畅销书籍价格内容信息采集爬取数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...
爬虫入门—数据解析基础 bs4库使用之红楼梦全文文本爬取
爬虫入门-数据解析基础 bs4库使用之红楼梦全文文本爬取 Author: Labyrinthine Leo Init_time: 2021.02.23 Key Words: Spider.Beau ...
Python 不用selenium 带你高效爬取京东商品评论
文章目录一.项目说明 1.项目背景 2.项目环境二.项目实施 1.项目分析 2.代码实现导入模块和定义常量爬取评论主体函数主函数三.项目分析和说明 1.运行测试 2.改进分析 3.其他说明 ...
Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

北上资金 python_股票数据抓取——北上基金持股数据（selenium抓取数据）,爬取,之,北向,资金,通过...

北上资金 python_股票数据抓取——北上基金持股数据（selenium抓取数据）,爬取,之,北向,资金,通过...相关推荐

最新文章

热门文章