前言:因同学需要几篇文库资料,但又没下载币,用的次数不多,买个vip太浪费,就考虑用代码解决一下。网上找了一些资料,不知是不是被度娘过滤了,没找到合适能用的,就自己写了点代码。

声明:该文章方法仅用于小量的、非商业用途的资料爬取,支持正版,保护百度文库版权,如果需要下载的量大,建议购买VIP会员。

语言:Pythhon

所需要安装的库:selenium、docx、time、浏览器FireFox(如果用google浏览器,更换一下浏览器驱动)

#所需要导入的库

import time
from selenium import webdriver
import docx

file=docx.Document()
#获得火狐浏览器驱动
driver = webdriver.Firefox()
#文章链接
url = 'https://wenku.baidu.com/view/5cb015eea48da0116c175f0e7cd184254b351b82'
driver.get(url)
#防止网速过慢,休眠5秒
time.sleep(5)  
#以下两行为解决文章超过三页时,出现折叠,需要先展开
element = driver.find_element_by_css_selector('p[class*="down-arrow"]')
driver.execute_script("arguments[0].click();", element)
#防止网速过慢,休眠5秒
time.sleep(5)
result_list = driver.find_elements_by_class_name('reader-word-layer')
for i in result_list:
    text = i.text
    file.add_paragraph(text)#写入word文档
    print(text)#在控制台上看效果
#docx文档保存位置  
file.save("D:\\A_WorkSpace\\Python\\py_workspace\\work\\baidu_download\\writeResult.docx")

因为只是个人偶尔不常使用百度文库,所以代码只做了爬取doc文档,暂没考虑ppt、PDF等其他。

代码不足在于,由于时间仓促,没进行文docx文章格式排版,只能爬取到文字内容,需要自己整理排版,排版也好排,通过docx库对文章进行排版。

(尊重笔者的劳动哦,转载请注明出处哦。)

Python爬取百度文库doc文档相关推荐

  1. 二十一、Python爬取百度文库word文档内容

    @Author:Runsen 百度文库在我们需要查找复制一些文档的时候经常用到,下载要收费,开会员,一个字都不给复制,这个时候初学python的小伙伴肯定有个写个百度文库爬虫的想法,这里我给各位分享一 ...

  2. python爬取百度文库付费文档_亲测免费转换百度文库付费文件

    大家现在在查资料时有时需要用到百度文库中的文件,其中很大一部分是需要下载券的,或者需要开通vip才能下载的!而这些都是需要钱买的,但就我在百度或者知乎中查询的很多方法,要不然就是不能用,要不然就是也要 ...

  3. Python爬取百度文库并存储为word文档

    在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx. doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于O ...

  4. python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤,附可执行软件...

    [Python] 纯文本查看 复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...

  5. python爬取百度文库doc_Python百度文库爬虫之doc文件

    Python百度文库爬虫之doc文件 说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接 对于文件的所有类型,我都会用一篇文章进行说明,链接: 一.网 ...

  6. Python爬取某平台付费文档,确定不来薅羊毛吗?

    导语: 哈喽,哈喽~当代大学生写作业时,emmmm-先看一眼,ok有点印象. 想翻书时,这是第几页?怎么这么干净,是这里吗- 这时"学小易"就很友好了,但是唯一不足的一点是,只有答 ...

  7. python爬取百度文库_利用Python语言轻松爬取数据

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  8. selenium python文档_selenium+python实现百度文库word文档抓取

    更新这个代码最近又改了一点,另外和其他一些小程序一起放在了一个jupyter notebook里,现在挂在github上面.github现在对jupyter notebook的支持非常的好,甚至可以直 ...

  9. python生成QQ机器人爬取百度文库链接推送好友并生成词云

    QQ机器人爬取百度文库链接推送好友并生成词云 一.环境准备 二.实现QQ机器人 1.QQ机器人介绍 2.安装方法 3.实现自己的QQ机器人 三.百度文库内容链接爬取推送好友 代码实现: 思路分析 1. ...

  10. 使用python中的Selenium爬取百度文库word文章

    参考文章:Python3网络爬虫(九):使用Selenium爬取百度文库word文章,链接为: https://blog.csdn.net/c406495762/article/details/723 ...

最新文章

  1. 在线可玩 | 给AI一张高清照片,分分钟还你细节满满的3D人体模型,GitHub标星3.6k...
  2. 首个全球智慧城市在线社区启动 将锁定对城市发展构成挑战的困难
  3. Spring-Security-入门(一):登录与退出
  4. arcgis栅格计算器python教程_ArcGIS栅格计算器
  5. 句子相似度比较的归一化
  6. 分词之后的如何做特征选择_干货分享!做外贸遇到空运订舱之后走不了如何处理,你知道吗?收藏...
  7. confluence 为合并的单元格新增一行
  8. 安卓dalvik和art区别
  9. Java LocalDate类| isSupported()方法与示例
  10. Fedora/RedHat上使用Docker命令搭建Mysql服务器
  11. HDU1813:Escape from Tetris(IDA)
  12. pythonappium环境搭建_python+appium 环境搭建
  13. ID卡介绍和工作原理
  14. rar压缩包解密在线,忘记rar压缩包密码怎么找回?
  15. win10如何显示文件后缀
  16. 递归算法之八皇后问题
  17. 剑客之剑——倚天剑(Vim)
  18. texi2html 安装,texi2html 源码编译
  19. 基于Springboot + Vue2.0开发的 IM 在线聊天
  20. 微信小程序--分享并设置分享链接的有效时间

热门文章

  1. 大众点评_token及登录分析
  2. java并发编程实践之安全发布和逸出
  3. java汉字转拼音区别多音字_Java中汉字转拼音pinyin4j用法实例分析
  4. Python ASCII码
  5. idea如何设置黑色主题
  6. cad批量页码lisp_源代码:批量改页码(加前缀)及提取属性块
  7. 社交系统中用户好友关系数据库设计
  8. vb将excel数据导入mysql_用VB做怎么将Excel数据导入SQL数据库中
  9. 微信淘宝客小程序APP公众号京东客外卖cps分销系统网站源码开发
  10. 全网疯传!传智播客java基础入门第二版pdf