使用selenium将网页保存为MHTML格式
最近在做网页分析的时候偶然有需求将网页保存为MHTML格式,这样可以最大程度的保留网页的样式以及图片信息,搜索寻找整理过后得到如下代码
其中,pagelist.txt
文件内容如下:
邮箱,qq邮箱,https://mail.qq.com/
邮箱,阿里邮箱,https://mail.aliyun.com/alimail/auth/login
邮箱,163邮箱,https://mail.163.com/
邮箱,新浪邮箱,https://mail.sina.com.cn/
搜索引擎,百度,https://www.baidu.com/
搜索引擎,搜狗,https://www.sogou.com/
搜索引擎,bing,https://www.bing.com/
商城,淘宝,https://world.taobao.com/
商城,小米商城,https://www.mi.com/shop
商城,京东,https://www.jd.com/
商城,唯品会,https://www.vip.com/
保存代码如下
from selenium import webdriver
import csv
import os# 构造webdriver
driver_path = r"C:\Program Files\Google\Chrome\Application\chromedriver.exe"
driver = webdriver.Chrome(driver_path)def save_page(kind, name, url):driver.get(url)# 执行chrome dev命令获得mhtml文件内容res = driver.execute_cdp_cmd('Page.captureSnapshot', {})# 生成文件夹save_path = f'source/{kind}/{name}.mhtml'if not os.path.exists(os.path.dirname(save_path)):os.makedirs(os.path.dirname(save_path))# 保存到本地with open(save_path, 'w', newline='') as sf:sf.write(res['data'])if __name__ == '__main__':# 打开所有网页列表with open("pagelist.txt", mode='r', encoding='utf-8') as f:csv_reader = csv.reader(f)for line in csv_reader:print(line)save_page(line[0], line[1], line[2])driver.quit()
使用selenium将网页保存为MHTML格式相关推荐
- 如何将网页保存成mhtml格式
QQ浏览器默认开启. chrome和360极速浏览器(内核chrome) 首先打开浏览器地址栏输入chrome://flags ,会出现搜索框,搜索框里面输入mhtml可以查找Save Page a ...
- 保存网页和保存HTML什么区别,想知道保存网页时,把网页保存为MHTML和HTML有何区别?...
想知道保存网页时,把网页保存为MHTML和HTML有何区别? 来源:互联网 宽屏版 评论 2009-07-31 01:08:14 分类: 电脑/网络 >> 互联网 问题描述: 保存为M ...
- mht 转换 html java,使用java将网页保存为mht格式(2)
//设置网页正文 MimeBodyPart bp = new MimeBodyPart(); bp.setText(content, strEncoding); bp.addHeader(" ...
- 使用谷歌Chrome浏览器将网页保存为html格式
现版本谷歌Chrome浏览器再也没有"Sava Page as MHTML"一说,将网页保存为MHT.MHTML.HTML格式有俩种途径: 1.下载Save As MHT插件,压缩 ...
- Chrome浏览器网页保存为mhtml
1 配置Chrome浏览器 Chrome浏览器要想保存为mhtml的话,以前是在chrome://flags下搜索mhtml然后点击启用即可 但是新版本没有了这个功能,新版本是如下这么设置 右键chr ...
- 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(二)
接上一编 weipin.py文件的代码 : # -*- coding: utf-8 -*- import scrapy from weipinhui.items import WeipinhuiIte ...
- 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(一)
用命令在终端创建一个项目: scrapy startproject myvipspider 进入到myvipspider项目下运行命令: scrapy genspider weipin "v ...
- 怎么保存网页html文件,将网页保存为MHTML文件
用VBScript 对于本地文件 cscript yourscriptname.vbs file:/test.html test.mht对于远程文件 cscript yourscriptname.vb ...
- 《实用技巧》网页保存方式(完整保存)总结
Tip: 老年手速.垃圾电脑.望请谅解 本人强迫症患者,所以遇到排版整齐漂亮的网页就会忍不住保存.或是保存一些值的学习的网页内容.接下来总结一下我一直在用的网页保存方式. ① MHTML网页保存 这是 ...
最新文章
- Flask的flask-sqlalchemy
- 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
- 《CSS揭秘》读书笔记
- easyui打开新的选项卡_Jquery Easyui选项卡组件Tab使用详解(10)
- 【报告分享】数据资产化之路----数据资产的估值与行业实践.pdf
- windows下批量杀死进程
- 线程池原理_JAVA并发编程:详解线程池的工作原理
- pde中微元分析法的主要思想_有限元法(FEM)
- C10K 和 C1000K 回顾
- 离线语音空调插座设计应用案例
- DAY20:尚学堂高琪JAVA(156~164)其他流及 IO的设计模式
- 成绩造假!你看到400+大佬,有可能是P图!
- 安卓修改软件安装时间_[地质勘察]理正工程地质勘察CAD9.0PB3软件安装教程
- CryEngine ViewMat
- Java实现Zip压缩包解压
- 腾讯位置服务仿微信发送位置功能
- 【openEuler】网络配置
- freebsd和linux服务器,我看Linux与FreeBSD
- 计算机网络考试数据包格式,计算机网络实验 分析ICMP协议数据包格式.doc
- 多线程笔记 | 线程调度模型
热门文章
- “聚生网管”应用常见问题汇总
- HTML5 - 文字跑马灯标签(marquee)屏幕滚动文字
- 第11章 面向对象(下)
- DD373自动发布工具/DD373辅助/DD373外挂
- scikit learn train_test_split的使用
- PS光影神仙笔刷200款,样机大合集,让你的设计更美
- CTF misc之流量分析题套路总结
- 什么样呢软件能测试你的车歪不歪,【新手学车技巧】怎么看车头歪不歪?
- 钱包系统推荐维金_USDT钱包支付系统软件开发
- PyCharm如何查看环境