推荐一下博主自己写的python程序,以md格式下载自己在博客园的随笔原稿,保留分类,标记草稿和非公开的稿件。支持离线图片

区别于其它的爬虫是以访客身份爬取文章阅读页面的html,这个下载器程序是以作者的身份获取原稿内容的

希望能帮助大家拿回自己的数据

这是GitHub项目地址:

Cnblogs Blogger Downloader

以下是readme

Usage

Configuration

运行前需要进行配置:

  1. 打开浏览器登录博客园,登录时勾选"记住我"

  2. 登录后浏览器按F12,找到Cookie,拷贝.Cnblogs.AspNetCore.Cookies的值到main.pyCOOKIE

  3. main.pydl.CnblogsDownloader的第二个参数为下载路径

可选的配置:

将随笔中引用的图片一并离线到随笔的文件夹,需要更改main.py

# 将此行
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs")
# 改为
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs", download_img=True)

md中的链接会自动替换

Dependencies

pip install httpx

Start

配置好程序并安装好httpx依赖后,命令行运行:

python main.py

会看到打印的输出:

Features

下载的文件名为随笔标题,分类和标题中的特殊字符\/:*?"<>|会被空格代替,文件编码为UTF-8

程序会区分你的随笔是否是公开的,是否是草稿状态,并在文件名后追加[非公开][草稿]

程序只能在Windows下运行,未做其他系统适配

如果你在博客园中删除了一篇文章,程序不会删除相应的本地文章

.CnblogsDownloaderFlag.json中保存着上次运行程序的时间,如果博客园中的文章未更新,那么不会反复下载

一旦程序决定要下载某篇随笔,那么它会覆盖此随笔及其引用的图片

For Developer

博客园公开的api文档:https://api.cnblogs.com/help

但显然不够用,而且要申请api权限,于是自己根据网络通信总结了几个重要的api的文档:cnblogs-apiDoc

【工具推荐】下载你在博客园的文章原稿相关推荐

  1. 在线文本替换工具 、支持正则表达式(博客园文章里添加Javascript或<script>语句)

    概况与介绍 在博客园发布一篇文章,文章就是<在线文本替换工具 .支持正则表达式>https://www.cnblogs.com/lsllll44/articles/15522697.htm ...

  2. webmagic 获取文本_webmagic爬取博客园所有文章

    最近学习了下webmagic,学webmagic是因为想折腾下爬虫,但是自己学java的,又不想太费功夫,所以webmagic是比较好的选择了. 写了几个demo,源码流程大致看了一遍.想着把博客园的 ...

  3. .NET Core 实现定时抓取博客园首页文章信息并发送到邮箱

    前言 大家好,我是晓晨.许久没有更新博客了,今天给大家带来一篇干货型文章,一个每隔5分钟抓取博客园首页文章信息并在第二天的上午9点发送到你的邮箱的小工具.比如我在2018年2月14日,9点来到公司我就 ...

  4. 使用metablog迁移博客园的文章

    有时候我们希望能将自己所有博客园的文章迁移到其他的博客site,大家可能最先想到的就是metablog,没错,只有它了. 首先搜索了一下,很容易搜到老赵这篇文章 "一次批量修改博客文章的经验 ...

  5. CSDN 博客园 获取 文章 MD格式主题

    CSDN 博客园 获取 文章 MD格式主题 CSDN控制台使用 document.getElementById("article_content") 博客园控制台使用 docume ...

  6. 在博客园的文章中使用AJAX

    在我的上一篇文章<gineGrid-通用ajax类>中,我发布了一个集成跨域功能的AJAX类.今天我把它作了少许修改,可以直接远程加载使用在任何结构良好的XHTML文档中,这里直接在博客园 ...

  7. (转)利用快速开发框架,快速搭建微信浏览博客园首页文章

    原文地址:http://www.cnblogs.com/inday/p/weixin-publicf-platform-cnblogs.html 这几天接连发布了<快速开发微信公众平台框架--- ...

  8. 关于博客园,编辑文章的小意见

    来博客园两天了,给我的感觉挺不错的,后台功能也很强大的.我很喜欢.但我发现在使用过程中有个不太方便的地方.就是写好一篇文章后,我发现没有这篇文章分类时,我把文章和标题复制出来,去"编辑个人分 ...

  9. 微信快速开发框架(五)-- 利用快速开发框架,快速搭建微信浏览博客园首页文章...

    这几天接连发布了<快速开发微信公众平台框架---简介>和<体验微信公众平台快速开发框架>几篇关于微信平台的文章,不过反响一般,可能需求不是很多吧.闲来无事,还是继续改造一下这个 ...

  10. 痞子衡博客园主页文章图片无法显示的解决方法

    大家好,我是痞子衡,是正经搞技术的痞子. 众所周知,痞子衡主要是在博客园个人主页精心维护文章发布.修改更新以及最重要的目录索引. 个人主页: https://www.cnblogs.com/henja ...

最新文章

  1. WEP保护帧移除工具airdecloak-ng
  2. 图书网上商城blog
  3. c盘怎么清理到最干净_C盘快满了不敢乱删,该如何清理?这里给你最详细的方法!...
  4. 在C#中怎么调用Resources文件中的图片
  5. java 抽象类_什么是final?Java抽象类又是什么?抽象类能使用 final 修饰吗?
  6. bootstrap 图片居中,浅谈Bootstrap中的垂直水平居中
  7. 教培机构实际运营过程中会遇到的问题
  8. CMMI与Agile敏捷开发比较之一:两者的本质区别
  9. 怎么将.POF文件下载到开发板[转载]
  10. kotlin多继承_Kotlin继承
  11. 字典制作、在线密码破解
  12. [linux] ab压测工具进行post压力测试
  13. 支付宝app支付签约开通详解,快速开通支付宝APP支付手机网站支付过风险开通,支付宝App支付签约不通过的解决办法。
  14. 《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记
  15. 步骤教学 :安装下载Oracle VM VirtualBox + 安装win7 win10镜像文件
  16. php snappy,php – 使用Knp Snappy生成pdf文件时出现错误字符
  17. 用java下载apk解析包出错_教大家解析包时出现问题怎么解决
  18. 求解函数最值的几种算法,梯度下降法python实现
  19. vue 打造携程网平台界面实战
  20. Ubuntu安装Lua

热门文章

  1. 反编译获取微信小程序源码
  2. WinRAR备份技巧 - imsoft.cnblogs
  3. java加密 js解密_前后端API交互加密解密(js、Java)
  4. linux ping 获取网络状态,Shell - 长 ping 脚本监控网络状态
  5. 【读书笔记】触摸屏游戏设计
  6. 基于matlab的捷联惯导算法编程(一)
  7. Mybatis逆向工程(代码生成器)及其简单使用——及其报错处理
  8. J-link J-flash 工程配置及下载
  9. Qt开源作品43-超级图形字体
  10. AI2(App Inventor 2)离线版服务器(AI伴侣2.47版)