上次为大家介绍了如果用 Python 抓取公号文章并保存成 PDF 文件存储到本地。但用这种方式下载的 PDF 只有文字没有图片,所以只适用于没有图片或图片不重要的公众号,那如果我想要图片和文字下载下来怎么办?今天就给大家介绍另一种方案——HTML。

需解决的问题

其实我们要解决的有两个问题:公众号里的图片没有保存到 PDF 文件里。

公众号里的一些代码片段,尤其那些单行代码比较长的,保存成 PDF 会出现代码不全的问题。

PDF 会自动分页,如果是代码或图片就会出现一些问题。

综上问题,我觉得还是把公众号下载成网页 HTML 格式最好看,下面就介绍下如何实现。

功能实现

获取文章链接的方式,和上一篇下载成 PDF 的文章一样,依然是通过公众号平台的图文素材里超链接查询实现,在这里我们直接拿来上一期的代码,进行修改即可。首先将原来文件 gzh_download.py 复制成 gzh_download_html.py,然后在此基础进行代码改造:# gzh_download_html.py# 引入模块import requestsimport jsonimport reimport timefrom bs4 import BeautifulSoupimport os# 打开 cookie.txtwith open("cookie.txt", "r") as file:cookie = file.read()cookies = json.loads(cookie)url = "https://mp.weixin.qq.com"#请求公号平台response = requests.get(url, cookies=cookies)# 从url中获取tokentoken = re.findall(r'token=(\d+)', str(response.url))[0]# 设置请求访问头信息headers = {"Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=" + token + "&lang=zh_CN","Host": "mp.weixin.qq.com","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",}# 循环遍历前10页的文章for j in range(1, 10, 1):begin = (j-1)*5# 请求当前页获取文章列表requestUrl = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin="+str(begin)+"&count=5&fakeid=MzU1NDk2MzQyNg==&type=9&query=&token=" + token + "&lang=zh_CN&f=json&ajax=1"search_response = requests.get(requestUrl, cookies=cookies, headers=headers)# 获取到返回列表 Json 信息re_text = search_response.json()list = re_text.get("app_msg_list")# 遍历当前页的文章列表for i in list:# 目录名为标题名,目录下存放 html 和图片dir_name = i["title"].replace(' ','')print("正在下载文章:" + dir_name)# 请求文章的 url ,获取文章内容response = requests.get(i["link"], cookies=cookies, headers=headers)# 保存文章到本地save(response, dir_name, i["aid"])print(dir_name + "下载完成!")# 过快请求可能会被微信问候,这里进行10秒等待time.sleep(10)

好了,从上面代码可以看出,主要就是将原来的方法 pdfkit.from_url(i["link"], i["title"] + ".pdf") 改成了现在的方式,需要用 requests 请求下文章的 URL ,然后再调用保存文章页面和图片到本地的方法,这里的 save() 方法通过以下代码实现。

调用保存方法#保存下载的 html 页面和图片def save(search_response,html_dir,file_name):# 保存 html 的位置htmlDir = os.path.join(os.path.dirname(os.path.abspath(__file__)), html_dir)# 保存图片的位置targetDir = os.path.join(os.path.dirname(os.path.abspath(__file__)),html_dir + '/images')# 不存在创建文件夹if not os.path.isdir(targetDir):os.makedirs(targetDir)domain = 'https://mp.weixin.qq.com/s'# 调用保存 html 方法save_html(search_response, htmlDir, file_name)# 调用保存图片方法save_file_to_local(htmlDir, targetDir, search_response, domain)# 保存图片到本地def save_file_to_local(htmlDir,targetDir,search_response,domain):# 使用lxml解析请求返回的页面obj = BeautifulSoup(save_html(search_response,htmlDir,file_name).content, 'lxml')# 找到有 img 标签的内容imgs = obj.find_all('img')# 将页面上图片的链接加入listurls = []for img in imgs:if 'data-src' in str(img):urls.append(img['data-src'])elif 'src=""' in str(img):passelif "src" not in str(img):passelse:urls.append(img['src'])# 遍历所有图片链接,将图片保存到本地指定文件夹,图片名字用0,1,2...i = 0for each_url in urls:# 跟据文章的图片格式进行处理if each_url.startswith('//'):new_url = 'https:' + each_urlr_pic = requests.get(new_url)elif each_url.startswith('/') and each_url.endswith('gif'):new_url = domain + each_urlr_pic = requests.get(new_url)elif each_url.endswith('png') or each_url.endswith('jpg') or each_url.endswith('gif') or each_url.endswith('jpeg'):r_pic = requests.get(each_url)# 创建指定目录t = os.path.join(targetDir, str(i) + '.jpeg')print('该文章共需处理' + str(len(urls)) + '张图片,正在处理第' + str(i + 1) + '张……')# 指定绝对路径fw = open(t, 'wb')# 保存图片到本地指定目录fw.write(r_pic.content)i += 1# 将旧的链接或相对链接修改为直接访问本地图片update_file(each_url, t, htmlDir)fw.close()# 保存 HTML 到本地def save_html(url_content,htmlDir,file_name):f = open(htmlDir+"/"+file_name+'.html', 'wb')# 写入文件f.write(url_content.content)f.close()return url_content# 修改 HTML 文件,将图片的路径改为本地的路径def update_file(old, new,htmlDir):# 打开两个文件,原始文件用来读,另一个文件将修改的内容写入with open(htmlDir+"/"+file_name+'.html', encoding='utf-8') as f, open(htmlDir+"/"+file_name+'_bak.html', 'w', encoding='utf-8') as fw:# 遍历每行,用replace()方法替换路径for line in f:new_line = line.replace(old, new)new_line = new_line.replace("data-src", "src")# 写入新文件fw.write(new_line)# 执行完,删除原始文件os.remove(htmlDir+"/"+file_name+'.html')time.sleep(5)# 修改新文件名为 htmlos.rename(htmlDir+"/"+file_name+'_bak.html', htmlDir+"/"+file_name+'.html')

好了,上面就是将文章页面和图片下载到本地的代码,接下来我们运行命令 python gzh_download_html.py ,程序开始执行,打印日志如下:$ python gzh_download_html.py正在下载文章:学习Python看这一篇就够了!该文章共需处理3张图片,正在处理第1张……该文章共需处理3张图片,正在处理第2张……该文章共需处理3张图片,正在处理第3张……学习Python看这一篇就够了!下载完成!正在下载文章:PythonFlask数据可视化该文章共需处理2张图片,正在处理第1张……该文章共需处理2张图片,正在处理第2张……PythonFlask数据可视化下载完成!正在下载文章:教你用Python下载手机小视频该文章共需处理11张图片,正在处理第1张……该文章共需处理11张图片,正在处理第2张……该文章共需处理11张图片,正在处理第3张……该文章共需处理11张图片,正在处理第4张……该文章共需处理11张图片,正在处理第5张……该文章共需处理11张图片,正在处理第6张……该文章共需处理11张图片,正在处理第7张……

现在我们去程序存放的目录,就能看到以下都是以文章名称命名的文件夹:

进入相应文章目录,可以看到一个 html 文件和一个名为 images 的图片目录,我们双击打开扩展名为 html 的文件,就能看到带图片和代码框的文章,和在公众号看到的一样。

总结

本文为大家介绍了如何通过 Python 将公号文章批量下载到本地,并保存为 HTML 和图片,这样就能实现文章的离线浏览了。当然如果你想将 HTML 转成 PDF 也很简单,直接用 pdfkit.from_file(xx.html,target.pdf) 方法直接将网页转成 PDF,而且这样转成的 PDF 也是带图片的。

python日志保存为html文件,用 Python 抓取公号文章保存成 HTML相关推荐

  1. dataframe保存为txt_竟然可以用 Python 抓取公号文章保存成 PDF

    . 游戏的多维数据集的形状概念 Python技术 人生苦短,我用 Python! 今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地.前几天还有朋友再问,能不能帮把某某公众号的文章 ...

  2. python response重头开始_用 Python 抓取公号文章保存成 PDF

    今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地.前几天还有朋友再问,能不能帮把某某公众号的文章下载下来,因为他很喜欢这个号的文章,但由于微信上查看历史文章不能排序,一些较早期的 ...

  3. 用 Python 抓取公号文章保存成 PDF

    今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地.前几天还有朋友再问,能不能帮把某某公众号的文章下载下来,因为他很喜欢这个号的文章,但由于微信上查看历史文章不能排序,一些较早期的 ...

  4. 使用mitmproxy + appium + python 全自动抓取公众号文章

    [转载请注明出处]:https://blog.csdn.net/huahao1989/article/details/106180223 1. 先使用mitmproxy代理抓微信公众号历史文章列表 实 ...

  5. Python用python-docx抓取公众号文章写入word

    一.安装包 pip3 install python-docx 二.了解python-docx from docx import Document from docx.shared import Inc ...

  6. keil生成hex文件找不到_骚操作!用Python把公众号文章打包成pdf文件,再也不怕找不到了...

    背景 做自媒体的人,尤其是做了一年甚至更久的自媒体人,尤其是通过自媒体还有一些小收入的人,他们最怕自己的公众号内容因为各种原因而丢失,那就太可怕了! 在做自媒体内容上花了太多心血,如果突然一下就没了, ...

  7. node.js抓取网络图片保存到本地,node.js抓取防盗链网络图片保存到本地

    node.js抓取网络图片保存到本地,node.js抓取防盗链网络图片保存到本地 使用模块request.fs,request模块在npm里平均月下载量超过3000W次,那是相当的牛逼. node版本 ...

  8. Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库...

    Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/ ...

  9. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

最新文章

  1. 53 Paramiko的使用
  2. 了解员工工作的四种方法
  3. 手持机设备公司(WINCE/ANDROID/LINUX)
  4. kdj指标主要看哪个值_悟空CRM:在线crm主要看这两个指标,都非常重要!
  5. iOS11最新隐私信息访问列表
  6. vue使用dialog关闭前调用_element-ui的dialog如何关闭自身?
  7. 转——回归企业家精神本为
  8. 学完这篇Charles抓包教程,我直接把fiddler卸载了
  9. Android性能优化系列---管理你的app内存(一)
  10. PHP配置问题(找不到指定模块)解决办法
  11. jquery多维对象计算个数_山东省2005年专升本计算机考试真题2??
  12. Python和Ruby语言对比
  13. Windows 2008 R2 SP1 离线安装IE11
  14. HackTools———10、使用Python编写TCP客户端、服务器端
  15. 2017中国云计算评测报告
  16. 区块链3.0 EOS和TRON
  17. 养生秘诀呼吸吐纳真的可以养生嘛?
  18. 绘制交互流程图的方法
  19. 传奇服务器怎么设置状态是开区还是合区,传奇私服开区合区教程全解
  20. VR酒店上线,数字化转型制定落地方案

热门文章

  1. Vue脚手架搭建简单步骤
  2. iOS10 的适配问题,你遇到了吗?导航栏标题和返回按钮神奇的消失了
  3. Error:Protocol family unavailable
  4. 【原创】轻量级移动端即时通讯技术 MobileIMSDK 发布了
  5. 软测试综述——PV操作
  6. 程序设计模式浅析(plain framework商业版设计模式)
  7. 以图换字的几种方法及优劣分析
  8. SharePoint Portal Server之常见问题
  9. sort -nr作用 linux,【Linux高频命令专题(1)】sort
  10. 从零开始学前端:CSS复合选择器 --- 今天你学习了吗?(CSS:Day10)