最近在做网页分析的时候偶然有需求将网页保存为MHTML格式,这样可以最大程度的保留网页的样式以及图片信息,搜索寻找整理过后得到如下代码

其中,pagelist.txt文件内容如下:

邮箱,qq邮箱,https://mail.qq.com/
邮箱,阿里邮箱,https://mail.aliyun.com/alimail/auth/login
邮箱,163邮箱,https://mail.163.com/
邮箱,新浪邮箱,https://mail.sina.com.cn/
搜索引擎,百度,https://www.baidu.com/
搜索引擎,搜狗,https://www.sogou.com/
搜索引擎,bing,https://www.bing.com/
商城,淘宝,https://world.taobao.com/
商城,小米商城,https://www.mi.com/shop
商城,京东,https://www.jd.com/
商城,唯品会,https://www.vip.com/

保存代码如下

from selenium import webdriver
import csv
import os# 构造webdriver
driver_path = r"C:\Program Files\Google\Chrome\Application\chromedriver.exe"
driver = webdriver.Chrome(driver_path)def save_page(kind, name, url):driver.get(url)# 执行chrome dev命令获得mhtml文件内容res = driver.execute_cdp_cmd('Page.captureSnapshot', {})# 生成文件夹save_path = f'source/{kind}/{name}.mhtml'if not os.path.exists(os.path.dirname(save_path)):os.makedirs(os.path.dirname(save_path))# 保存到本地with open(save_path, 'w', newline='') as sf:sf.write(res['data'])if __name__ == '__main__':# 打开所有网页列表with open("pagelist.txt", mode='r', encoding='utf-8') as f:csv_reader = csv.reader(f)for line in csv_reader:print(line)save_page(line[0], line[1], line[2])driver.quit()

使用selenium将网页保存为MHTML格式相关推荐

  1. 如何将网页保存成mhtml格式

    QQ浏览器默认开启. chrome和360极速浏览器(内核chrome)  首先打开浏览器地址栏输入chrome://flags ,会出现搜索框,搜索框里面输入mhtml可以查找Save Page a ...

  2. 保存网页和保存HTML什么区别,想知道保存网页时,把网页保存为MHTML和HTML有何区别?...

    想知道保存网页时,把网页保存为MHTML和HTML有何区别? 来源:互联网  宽屏版  评论 2009-07-31 01:08:14 分类: 电脑/网络 >> 互联网 问题描述: 保存为M ...

  3. mht 转换 html java,使用java将网页保存为mht格式(2)

    //设置网页正文 MimeBodyPart bp = new MimeBodyPart(); bp.setText(content, strEncoding); bp.addHeader(" ...

  4. 使用谷歌Chrome浏览器将网页保存为html格式

    现版本谷歌Chrome浏览器再也没有"Sava Page as MHTML"一说,将网页保存为MHT.MHTML.HTML格式有俩种途径: 1.下载Save As MHT插件,压缩 ...

  5. Chrome浏览器网页保存为mhtml

    1 配置Chrome浏览器 Chrome浏览器要想保存为mhtml的话,以前是在chrome://flags下搜索mhtml然后点击启用即可 但是新版本没有了这个功能,新版本是如下这么设置 右键chr ...

  6. 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(二)

    接上一编 weipin.py文件的代码 : # -*- coding: utf-8 -*- import scrapy from weipinhui.items import WeipinhuiIte ...

  7. 用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(一)

    用命令在终端创建一个项目: scrapy startproject myvipspider 进入到myvipspider项目下运行命令: scrapy genspider weipin "v ...

  8. 怎么保存网页html文件,将网页保存为MHTML文件

    用VBScript 对于本地文件 cscript yourscriptname.vbs file:/test.html test.mht对于远程文件 cscript yourscriptname.vb ...

  9. 《实用技巧》网页保存方式(完整保存)总结

    Tip: 老年手速.垃圾电脑.望请谅解 本人强迫症患者,所以遇到排版整齐漂亮的网页就会忍不住保存.或是保存一些值的学习的网页内容.接下来总结一下我一直在用的网页保存方式. ① MHTML网页保存 这是 ...

最新文章

  1. Flask的flask-sqlalchemy
  2. 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
  3. 《CSS揭秘》读书笔记
  4. easyui打开新的选项卡_Jquery Easyui选项卡组件Tab使用详解(10)
  5. 【报告分享】数据资产化之路----数据资产的估值与行业实践.pdf
  6. windows下批量杀死进程
  7. 线程池原理_JAVA并发编程:详解线程池的工作原理
  8. pde中微元分析法的主要思想_有限元法(FEM)
  9. C10K 和 C1000K 回顾
  10. 离线语音空调插座设计应用案例
  11. DAY20:尚学堂高琪JAVA(156~164)其他流及 IO的设计模式
  12. 成绩造假!你看到400+大佬,有可能是P图!
  13. 安卓修改软件安装时间_[地质勘察]理正工程地质勘察CAD9.0PB3软件安装教程
  14. CryEngine ViewMat
  15. Java实现Zip压缩包解压
  16. 腾讯位置服务仿微信发送位置功能
  17. 【openEuler】网络配置
  18. freebsd和linux服务器,我看Linux与FreeBSD
  19. 计算机网络考试数据包格式,计算机网络实验 分析ICMP协议数据包格式.doc
  20. 多线程笔记 | 线程调度模型

热门文章

  1. “聚生网管”应用常见问题汇总
  2. HTML5 - 文字跑马灯标签(marquee)屏幕滚动文字
  3. 第11章 面向对象(下)
  4. DD373自动发布工具/DD373辅助/DD373外挂
  5. scikit learn train_test_split的使用
  6. PS光影神仙笔刷200款,样机大合集,让你的设计更美
  7. CTF misc之流量分析题套路总结
  8. 什么样呢软件能测试你的车歪不歪,【新手学车技巧】怎么看车头歪不歪?
  9. 钱包系统推荐维金_USDT钱包支付系统软件开发
  10. PyCharm如何查看环境