百度文库下载器Python实现
简介
以前可以用学校的企业账户下载文档,后来百度文库改版,需要买下载券或者会员。因此需要一个百度文库下载器。
之前有冰点文库下载器但是后来不好使了。
下面给出利用Python写的百度文库下载器。
此下载器可以下载doc类型的,txt类型的文本文档及PPT,不过PPT最终将以图片的形式保存。由于百度文库限制,暂时无法突破有试阅读的文档。PDF文档随缘下载。
实现思想及步骤
①文档链接网页GBK转码
②获取文档类型
③获取文档ID,每个文档都有一个ID,获取ID值,以下面的格式获取(以PPT为例)图片资源
https://wenku.baidu.com/browse/getbcsurl?doc_id=” + doc_id + “&pn=1&rn=99999&type=ppt
原理,预览页面中的这个不是PPT而是PPT图片,我们需要了解这个PPT是从哪儿获取的,找到了地址也就能把这些图片下载下来。
PPT转换核心源码
def gen_PPT(doc_id):global urlindex = 0content_url = "https://wenku.baidu.com/browse/getbcsurl?doc_id=" + doc_id + "&pn=1&rn=99999&type=ppt"content = fetch_url(content_url)urlList = re.findall('{"zoom":"(.*?)","page"', content)urllist = [item.replace("\\", '') for item in url_list]if not os.path.exists(doc_id):os.mkdir(doc_id)for url in URLlist:content = session.get(url).contentpath = os.path.join(doc_id, str(index) + '.jpg')with open(path, 'wb') as f:f.write(content)index = index + 1
界面
界面太丑,不要在意
保存的文件
CSDN下载地址
https://download.csdn.net/download/xyisv/10531452
谢谢支持!
更多内容访问omegaxyz.com
网站所有代码采用Apache 2.0授权
网站文章采用知识共享许可协议BY-NC-SA4.0授权
© 2018 • OmegaXYZ-版权所有 转载请注明出处
百度文库下载器Python实现相关推荐
- 抱米花百度文库下载器 20100620
更新日志: 2010-06-20 1,解决部分文件总页数是11.21....101...时无法正常生成文档问题 第一个版本,可能问题较多,基本是继承了豆丁下载器的大部分功能并对局部做了一些调整 具体功 ...
- 远洋整站下载器不能用https_这可能是最全最好的爆破百度文库下载指南了!
日常生活中,无论各行各业,我相信,你一定用过某下载文档资料的平台,比如说,百度文库. 有时候,为了赶交一篇论文或者下载一些考试真题,百度搜了半天资料,刚刚找到一个觉得蛮不错的打算下载,结果... 要么 ...
- 【PC工具】更新免费文库文档下载器,破解文库下载器,免费下载文库文档
上次分享的大圣文库1.26版本的用不了了,运行就弹窗让更新(有时间再研究一下怎么废掉弹窗),更新后要钱....总结就是这个软件不是什么破解版,要钱了,我又被坑了(讲道理我也能理解,道理我都懂,但是.. ...
- 百度图片下载器2.0
前段时间写了一个百度图片下载器,结果发现有很多人需要使用.说实话之前写的那一款百度图片下载器比较LOW,今天刚好有时间就做了一下升级. 完整源代码的获取方式放在文末了,有需要的直接下载即可. 更新了两 ...
- 最新百度文库下载软件,还能下载源文件!
全世界只有不到3 % 的人关注了科技毒瘤君 你真是个特别的人 ☟每日一曲 往期下载办法(点击前往) 百度文库免费下载 baudu文档怎么下载? 前言 百度文库是百度发布的供网友在线分享文档的平台.百度 ...
- 听如子说:【科研、学生党福利】百度文库下载方案收集整理,佛系更新
百度文库下载方案收集整理,佛系更新 可能是薅羊毛习惯了(臭不要脸),VIP啥的我都不会考虑(当然除了折扣,还是会考虑的,咳咳咳!) 这次呢,主要是因为本实验室经常需要文库下载,而且看文库里的东西,想下 ...
- 冰点文库下载器停止工作解决办法
冰点文库下载器停止工作解决办法 最近在使用冰点文库下载器下载文档的时候出现冰点文库下载器停止工作的问题,在下载文档之后,只要开始转换就出现提示,下面小编为大家分享解决办法! 冰点文库下载器停止工作问题 ...
- 百度文库下载,记得收藏哟!
百度文库 下载 1.点进百度文库 2.在百度文库网址baidu后添加vvv 3.回车即可
- python音乐下载器交互界面设计_用python实现的百度音乐下载器-python-pyqt-改进版...
之前写过一个用python实现的百度新歌榜.热歌榜下载器的博文,实现了百度新歌.热门歌曲的爬取与下载.但那个采用的是单线程,网络状况一般的情况下,扫描前100首歌的时间大概得到40来秒.而且用Pyqt ...
- python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤,附可执行软件...
[Python] 纯文本查看 复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...
最新文章
- 百度AI开放平台3.0:平等赋能成为百度AI关键词
- 本地 php nginx压测试
- 杭电2037java实现
- 《IBM-PC汇编语言程序设计》(第2版)【沈美明 温冬婵】——第二章——自编解析与答案
- boost::type_erasure模块实现了支持多个签名的 Boost.Function 扩展
- 数据链路层介质访问控制——信道划分、随机访问和轮询访问
- 微信扫描二维码和浏览器扫描二维码 ios和Android 分别进入不用的提示页面
- python卸载opencv_20.Windows python,opencv的安装与卸载
- 设计模式学习笔记五——Prototype模式
- 图像分类_02神经网络(NN)简介:定义+ 感知机+历史
- Virtuoso崩掉时layout数据恢复
- 一些常用的辅助代码 (网络收藏)
- HDU-2067-小兔的棋盘(dp)
- 5.MySQL常用函数
- 淘宝/天猫直通车基本概念
- 解决云帆小说下载阅读器不能下载https网址的问题
- 屏幕刷新频率怎么更改?
- 网络课程学习视频的快进播放和去除鼠标移动视频暂停的问题
- 京东区块链之科普篇:京东在区块链技术领域的应用与布局
- 有衬线字体和无衬线字体