【工具推荐】下载你在博客园的文章原稿
序
推荐一下博主自己写的python程序,以md格式下载自己在博客园的随笔原稿,保留分类,标记草稿和非公开的稿件。支持离线图片
区别于其它的爬虫是以访客身份爬取文章阅读页面的html,这个下载器程序是以作者的身份获取原稿内容的
希望能帮助大家拿回自己的数据
这是GitHub项目地址:
Cnblogs Blogger Downloader
以下是readme
Usage
Configuration
运行前需要进行配置:
打开浏览器登录博客园,登录时勾选"记住我"
登录后浏览器按F12,找到Cookie,拷贝
.Cnblogs.AspNetCore.Cookies
的值到main.py
的COOKIE
中main.py
中dl.CnblogsDownloader
的第二个参数为下载路径
可选的配置:
将随笔中引用的图片一并离线到随笔的文件夹,需要更改main.py
# 将此行
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs")
# 改为
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs", download_img=True)
md中的链接会自动替换
Dependencies
pip install httpx
Start
配置好程序并安装好httpx依赖后,命令行运行:
python main.py
会看到打印的输出:
Features
下载的文件名为随笔标题,分类和标题中的特殊字符\/:*?"<>|
会被空格代替,文件编码为UTF-8
程序会区分你的随笔是否是公开的,是否是草稿状态,并在文件名后追加[非公开]
或[草稿]
程序只能在Windows下运行,未做其他系统适配
如果你在博客园中删除了一篇文章,程序不会删除相应的本地文章
.CnblogsDownloaderFlag.json
中保存着上次运行程序的时间,如果博客园中的文章未更新,那么不会反复下载
一旦程序决定要下载某篇随笔,那么它会覆盖此随笔及其引用的图片
For Developer
博客园公开的api文档:https://api.cnblogs.com/help
但显然不够用,而且要申请api权限,于是自己根据网络通信总结了几个重要的api的文档:cnblogs-apiDoc
【工具推荐】下载你在博客园的文章原稿相关推荐
- 在线文本替换工具 、支持正则表达式(博客园文章里添加Javascript或<script>语句)
概况与介绍 在博客园发布一篇文章,文章就是<在线文本替换工具 .支持正则表达式>https://www.cnblogs.com/lsllll44/articles/15522697.htm ...
- webmagic 获取文本_webmagic爬取博客园所有文章
最近学习了下webmagic,学webmagic是因为想折腾下爬虫,但是自己学java的,又不想太费功夫,所以webmagic是比较好的选择了. 写了几个demo,源码流程大致看了一遍.想着把博客园的 ...
- .NET Core 实现定时抓取博客园首页文章信息并发送到邮箱
前言 大家好,我是晓晨.许久没有更新博客了,今天给大家带来一篇干货型文章,一个每隔5分钟抓取博客园首页文章信息并在第二天的上午9点发送到你的邮箱的小工具.比如我在2018年2月14日,9点来到公司我就 ...
- 使用metablog迁移博客园的文章
有时候我们希望能将自己所有博客园的文章迁移到其他的博客site,大家可能最先想到的就是metablog,没错,只有它了. 首先搜索了一下,很容易搜到老赵这篇文章 "一次批量修改博客文章的经验 ...
- CSDN 博客园 获取 文章 MD格式主题
CSDN 博客园 获取 文章 MD格式主题 CSDN控制台使用 document.getElementById("article_content") 博客园控制台使用 docume ...
- 在博客园的文章中使用AJAX
在我的上一篇文章<gineGrid-通用ajax类>中,我发布了一个集成跨域功能的AJAX类.今天我把它作了少许修改,可以直接远程加载使用在任何结构良好的XHTML文档中,这里直接在博客园 ...
- (转)利用快速开发框架,快速搭建微信浏览博客园首页文章
原文地址:http://www.cnblogs.com/inday/p/weixin-publicf-platform-cnblogs.html 这几天接连发布了<快速开发微信公众平台框架--- ...
- 关于博客园,编辑文章的小意见
来博客园两天了,给我的感觉挺不错的,后台功能也很强大的.我很喜欢.但我发现在使用过程中有个不太方便的地方.就是写好一篇文章后,我发现没有这篇文章分类时,我把文章和标题复制出来,去"编辑个人分 ...
- 微信快速开发框架(五)-- 利用快速开发框架,快速搭建微信浏览博客园首页文章...
这几天接连发布了<快速开发微信公众平台框架---简介>和<体验微信公众平台快速开发框架>几篇关于微信平台的文章,不过反响一般,可能需求不是很多吧.闲来无事,还是继续改造一下这个 ...
- 痞子衡博客园主页文章图片无法显示的解决方法
大家好,我是痞子衡,是正经搞技术的痞子. 众所周知,痞子衡主要是在博客园个人主页精心维护文章发布.修改更新以及最重要的目录索引. 个人主页: https://www.cnblogs.com/henja ...
最新文章
- WEP保护帧移除工具airdecloak-ng
- 图书网上商城blog
- c盘怎么清理到最干净_C盘快满了不敢乱删,该如何清理?这里给你最详细的方法!...
- 在C#中怎么调用Resources文件中的图片
- java 抽象类_什么是final?Java抽象类又是什么?抽象类能使用 final 修饰吗?
- bootstrap 图片居中,浅谈Bootstrap中的垂直水平居中
- 教培机构实际运营过程中会遇到的问题
- CMMI与Agile敏捷开发比较之一:两者的本质区别
- 怎么将.POF文件下载到开发板[转载]
- kotlin多继承_Kotlin继承
- 字典制作、在线密码破解
- [linux] ab压测工具进行post压力测试
- 支付宝app支付签约开通详解,快速开通支付宝APP支付手机网站支付过风险开通,支付宝App支付签约不通过的解决办法。
- 《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记
- 步骤教学 :安装下载Oracle VM VirtualBox + 安装win7 win10镜像文件
- php snappy,php – 使用Knp Snappy生成pdf文件时出现错误字符
- 用java下载apk解析包出错_教大家解析包时出现问题怎么解决
- 求解函数最值的几种算法,梯度下降法python实现
- vue 打造携程网平台界面实战
- Ubuntu安装Lua
热门文章
- 反编译获取微信小程序源码
- WinRAR备份技巧 - imsoft.cnblogs
- java加密 js解密_前后端API交互加密解密(js、Java)
- linux ping 获取网络状态,Shell - 长 ping 脚本监控网络状态
- 【读书笔记】触摸屏游戏设计
- 基于matlab的捷联惯导算法编程(一)
- Mybatis逆向工程(代码生成器)及其简单使用——及其报错处理
- J-link J-flash 工程配置及下载
- Qt开源作品43-超级图形字体
- AI2(App Inventor 2)离线版服务器(AI伴侣2.47版)