Python爬取百度文库doc文档

前言：因同学需要几篇文库资料，但又没下载币，用的次数不多，买个vip太浪费，就考虑用代码解决一下。网上找了一些资料，不知是不是被度娘过滤了，没找到合适能用的，就自己写了点代码。

声明：该文章方法仅用于小量的、非商业用途的资料爬取，支持正版，保护百度文库版权，如果需要下载的量大，建议购买VIP会员。

语言：Pythhon

所需要安装的库：selenium、docx、time、浏览器FireFox（如果用google浏览器，更换一下浏览器驱动）

#所需要导入的库

import time
from selenium import webdriver
import docx

file=docx.Document()
#获得火狐浏览器驱动
driver = webdriver.Firefox()
#文章链接
url = 'https://wenku.baidu.com/view/5cb015eea48da0116c175f0e7cd184254b351b82'
driver.get(url)
#防止网速过慢，休眠5秒
time.sleep(5)
#以下两行为解决文章超过三页时，出现折叠，需要先展开
element = driver.find_element_by_css_selector('p[class*="down-arrow"]')
driver.execute_script("arguments[0].click();", element)
#防止网速过慢，休眠5秒
time.sleep(5)
result_list = driver.find_elements_by_class_name('reader-word-layer')
for i in result_list:
    text = i.text
    file.add_paragraph(text)#写入word文档
    print(text)#在控制台上看效果
#docx文档保存位置
file.save("D:\\A_WorkSpace\\Python\\py_workspace\\work\\baidu_download\\writeResult.docx")

因为只是个人偶尔不常使用百度文库，所以代码只做了爬取doc文档，暂没考虑ppt、PDF等其他。

代码不足在于，由于时间仓促，没进行文docx文章格式排版，只能爬取到文字内容，需要自己整理排版，排版也好排，通过docx库对文章进行排版。

（尊重笔者的劳动哦，转载请注明出处哦。）

Python爬取百度文库doc文档相关推荐

二十一、Python爬取百度文库word文档内容
@Author:Runsen 百度文库在我们需要查找复制一些文档的时候经常用到,下载要收费,开会员,一个字都不给复制,这个时候初学python的小伙伴肯定有个写个百度文库爬虫的想法,这里我给各位分享一 ...
python爬取百度文库付费文档_亲测免费转换百度文库付费文件
大家现在在查资料时有时需要用到百度文库中的文件,其中很大一部分是需要下载券的,或者需要开通vip才能下载的!而这些都是需要钱买的,但就我在百度或者知乎中查询的很多方法,要不然就是不能用,要不然就是也要 ...
Python爬取百度文库并存储为word文档
在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx. doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于O ...
python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤，附可执行软件...
[Python] 纯文本查看复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...
python爬取百度文库doc_Python百度文库爬虫之doc文件
Python百度文库爬虫之doc文件说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接对于文件的所有类型,我都会用一篇文章进行说明,链接: 一.网 ...
Python爬取某平台付费文档，确定不来薅羊毛吗？
导语: 哈喽,哈喽~当代大学生写作业时,emmmm-先看一眼,ok有点印象. 想翻书时,这是第几页?怎么这么干净,是这里吗- 这时"学小易"就很友好了,但是唯一不足的一点是,只有答 ...
python爬取百度文库_利用Python语言轻松爬取数据
利用 Python 语言轻松爬取数据对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...
selenium python文档_selenium+python实现百度文库word文档抓取
更新这个代码最近又改了一点,另外和其他一些小程序一起放在了一个jupyter notebook里,现在挂在github上面.github现在对jupyter notebook的支持非常的好,甚至可以直 ...
python生成QQ机器人爬取百度文库链接推送好友并生成词云
QQ机器人爬取百度文库链接推送好友并生成词云一.环境准备二.实现QQ机器人 1.QQ机器人介绍 2.安装方法 3.实现自己的QQ机器人三.百度文库内容链接爬取推送好友代码实现: 思路分析 1. ...
使用python中的Selenium爬取百度文库word文章
参考文章:Python3网络爬虫(九):使用Selenium爬取百度文库word文章,链接为: https://blog.csdn.net/c406495762/article/details/723 ...

Python爬取百度文库doc文档

Python爬取百度文库doc文档相关推荐

最新文章

热门文章