selenium爬取网页部分HTML代码
selenium爬取网页部分HTML代码
- 1、构造webdriver启动方法
- 2、保存完整HTML代码
- 3、保存部分HTML代码,及其他方法
- 其他方案1:BeautifulSoup
- 其他方案2:lxml库中etree.HTML()
1、构造webdriver启动方法
driver = webdriver.Chrome()
base_url = "https://movie.douban.com/subject/26100958/"
driver.get(base_url)
2、保存完整HTML代码
print(driver.page_source)
3、保存部分HTML代码,及其他方法
# 定位至节点
elem = driver.find_element(By.ID, "info")htm_dat = elem.get_property("outerHTML")
print('获取节点的html源码:', htm_dat)
htm_name = elem.get_property("nodeName")
print('节点名称:', htm_name)
htm_type = elem.get_property("nodeType")
print('节点类型:', htm_type)
htm_ght = elem.get_property("clientHeight")
print('节点实际高度:', htm_ght)
htm_dth = elem.get_property("clientWidth")
print('节点实际宽度:', htm_dth)
htm_node_name = elem.get_property("parentNode").get_property("nodeName")
print('该节点的父节点.名称:', htm_node_name)
htm_next_htm = elem.get_property("nextSibling").get_property("outerHTML")
print('该节点的相邻的下一个节点.源码:', htm_next_htm)
其他方案1:BeautifulSoup
安装:pip3 install beautifulsoup4pip install lxml
其他方案2:lxml库中etree.HTML()
安装:pip install bs4pip install lxmlpip install html5lib
selenium爬取网页部分HTML代码相关推荐
- 使用selenium爬取网页
今天学习了使用selenium爬取网页. #本地Chrome浏览器的可视模式设置: from selenium import webdriver #从selenium库中调用webdriver模块 d ...
- 网络爬虫学习2 - 爬取网页的通用代码框架、HTTP协议、Requests库的各种方法
网络爬虫MOOC学习打卡 - 第二天 文章目录 网络爬虫MOOC学习打卡 - 第二天 一.爬取网页的通用代码框架 1.理解requests库的异常 2.Respones类提供了一个方法 -- r.ra ...
- Selenium爬取网页
基于Selenium爬取动态网页 一.打开百度并进行搜索 二.爬取名人名言 1. 爬取一页 2. 爬取5页 3. 数据储存 4. 总代码 三.爬取京东书籍信息 四.总结 一.打开百度并进行搜索 打开百 ...
- python怎么做网页制作_[源代码]Python爬取网页制作电子书代码发布
最近,在GitChat发布一场Chat(Chat地址请猛戳这里),人数当天就达标了,今天把文章完成提交,同时将文章中的代码发布到码云,我就等待大家前来捧场了,Chat地址请猛戳这里. 有人爬取数据分析 ...
- python用selenium爬取网页数据_Python项目实战:使用selenium爬取拉勾网数据
" 一切不经过项目验证的代码都是耍流氓,今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析,最后以wordcloud进行显示.本文为数据爬取篇." 项目准备: ...
- selenium爬取网页表格数据并存到Excel
简单介绍 1.登录到要爬取信息的页面 登录系统(填写账号密码)→进入表格数据所在的网页页面→定位下拉选框并进行选择→定位时间框选择日期→在选择日期时弹出的是另一个网页窗口进行选择,所以要将切换环境到日 ...
- python爬虫实例方法(批量爬取网页信息基础代码)
文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...
- python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享
我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...
- 用Selenium爬取网页简单操作
一.工具的安装 首先,我们要先安装selenium库.可以通过指令pip install selenium进行安装. 安装完selenium后,还需要安装浏览器驱动程序.这里以chrome为例.安装步 ...
最新文章
- 用shell解决ddos攻击实例
- Python yield 用法
- android 7.0 更新apk,Android更新apk兼容7.0和8.0
- Teams bot的调用限制
- 模型图像ASM(Active Shape Model) 主动形状模型总结
- 求多个数的最小公倍数
- 如何清除以前连接到Mac的WiFi网络
- 工厂软件支持及测试是什么,工厂测试指南.pdf
- “御用”大数据为你揭秘:故宫,怎么这么“火”?
- 对比学习(二)-模型坍塌-infoNCE损失函数
- 【KEIL5】 STM32F103C8T6 不能编译,启动文件错误导致Could not load file ‘D:\MyTest\Project\output\Projiect.axf‘
- java网页制作会说话的汤姆猫_android 仿 会说话的汤姆猫 源码
- rebuild node-sass npm install
- 微信公众号怎么变现?
- 代理是如何实现IP伪装的呢?
- OJ每日一练——人口增长问题
- 牛逼的架构师是怎么炼成的?——阅读笔记03
- Centos使用阿里云源
- 计算机网络基础及应用教程,计算机网络基础及应用教程
- 搜狗输入法的分词算法