[bigdata-56] py3+selenium 抓取学信网 最简demo
各种情况不考虑,只演示核心功能。
#!/usr/bin/env python3
# !-*- coding:utf-8 -*-"""
演示如何抓取学信网
"""import timefrom selenium import webdriverdef get_sub_regions(browser, url):#登录页面browser.get(url)#输入用户名elem = browser.find_element_by_id('username')elem.clear()elem.send_keys('187xxxxxxxx')elem = browser.find_element_by_id('password')#输入密码elem.clear()elem.send_keys('99xxxxx')#点击登录elem = browser.find_element_by_xpath('//input[@class=\"btn_login btn_login_my\"]')elem.click()# 点击进入查看页面time.sleep(5)elem = browser.find_element_by_xpath('//a[@class=\"login-btn\"]')elem.click()# 高等教育信息time.sleep(5)elem = browser.find_element_by_xpath('//a[@href=\"gdjy/xj/show.action\"]')elem.click()# 样例查询time.sleep(5)# elem = browser.find_element_by_xpath('//div[@class=\"main\"]')elems = browser.find_elements_by_xpath('//div[@class=\"m-left xj-left main-block border-shadow\"]')for i in elems:print(i.text)def main():#启动浏览器browser = webdriver.Firefox()#登录学信网sh_business_regions = get_sub_regions(browser,'https://account.chsi.com.cn/passport/login?service=https%3A%2F%2Fmy.chsi.com.cn%2Farchive%2Fj_spring_cas_security_check')if __name__ == '__main__':main()
[bigdata-56] py3+selenium 抓取学信网 最简demo相关推荐
- Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
- 利用selenium抓取英雄联盟壁纸
本博客主要来利用selenium这一利器来爬取LOL官网各个英雄皮肤的壁纸,注意是壁纸,不是图片!壁纸是图片,但图片不是壁纸. selenium是一个自动化测试工具,利用它可以驱动浏览器执行一些特定的 ...
- selenium抓取_使用Selenium的网络抓取电子商务网站
selenium抓取 In this article we will go through a web scraping process of an E-Commerce website. I hav ...
- [Python] python + selenium 抓取 京东商品数据(商品名称,售价,店铺,分类,订单信息,好评率,评论等)
目录 一.环境 二.简介 三.京东网页分析 1.获取商品信息入口--商品列表链接获取 2.获取商品信息入口--商品详情链接获取 3.商品详情获取 4.商品评论获取 四.代码实现 五.运行结果 六.结语 ...
- selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
- Python 数据采集-爬取学校官网新闻标题与链接(基础)
Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
- 爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解
概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...
- python+selenium爬取链家网房源信息并保存至csv
python+selenium爬取链家网房源信息并保存至csv 抓取的信息有:房源', '详细信息', '价格','楼层', '有无电梯 import csv from selenium import ...
- Python 数据采集-爬取学校官网新闻标题与链接(进阶)
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
- 学信网:研究生云复试平台快速搭建上线
通过覆盖全球的音视频通信服务,支撑学信网视频面试稳定运行和效率提升. 案例简介 研究生复试工作碰到疫情,各大院校先后发布复试流程调整通知,将复试工作从线下搬到了线上,这也是历史上的第一次.要在短期内完 ...
最新文章
- Java 类和对象的内存分配机制
- VTK:定向字形用法实战
- nginx(五)rewrite
- Anti-Tech论 | 技术是如何一步一步腐蚀思想的?
- 手把手Maven搭建SpringMVC+Spring+MyBatis框架(超级详细版)
- 2021-2025年中国超细氢氧化铝行业市场供需与战略研究报告
- 实战MHDD检测硬盘
- GridView中的超级链接
- 实习踩坑之路:ElasticSearch双写数据不同步?不实时?怎么优化?
- softlockup/hardlockup原理详细介绍
- android 仿站小工具,仿站小工具
- sqlite查询空日期类型_sqlite数据类型(时间 日期 ) timestamp 使用
- edge浏览器打开html文件路径被拆分,Edge浏览器显示网页排版错位
- 云vr和传统vr_宣布我们的VR艺术家居住地
- 实现图片染色效果的三种方式
- html个人新闻网站,html,js,css实现
- Honeywell RTU2020使用.软件篇
- android obb权限,解决部分手机读取obb失败的问题
- js 利用input实现复制
- linux h3c 802.1客户端,OH3C 的安装及使用 H3C 802.1x Client for OpenWrt