百度文库文字下载（python原码）

import json
import re
import requests
def get_document():# 文库urlsess = requests.Session()url = input("请输入百度文档url:")headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","Referer": "https://wenku.baidu.com/","User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Mobile Safari/537.36 Edg/88.0.705.63",}sess.get("https://wk.baidu.com")html = sess.get(url, headers=headers).text# 抓取到文档标题title = re.findall("<title>(.*?) - 百度文库</title>", html)[0]## 使用正则提取 文档内容的urlres = re.findall('"htmlUrls":(.*),"free_page"', html)[0]# 转成字典data = json.loads(res)# 新建一个文档with open(title + ".doc", "w", encoding="gb2312") as f:string = ""num = 0for i in data["json"]:url = i["pageLoadUrl"]  # 获取到url# 请求文档内容data = requests.get(url).text# 提取文本数据res = re.search("wenku_\d*\((.*)\)", data, re.S).group(1) # re.S整体进行匹配# 将json对象数据转成Python对象data = json.loads(res)for i in data['body']:# 判断数据是什么类型if i["t"] == "word":# 获取到文本string += str(i["c"])# ps中不为空并且_enter==1的时候是换行也就是一段内容if i["ps"] and i["ps"].get("_enter") == 1:f.write(string)f.write("\n  ")string = ""  # 重新复制 "" 表示新的一段文本if __name__ == '__main__':get_document()

基于转载文章进行的更新再加工

百度文库文字下载（python原码）相关推荐

不用下载券也能下载百度文库资料，Python帮你轻松搞定
阅读文本大概需要5分钟. 大家可能平时都有在百度文库下载文档的经历,费尽心思好不容易在文库找了一份可以用的资料,一看需要用下载券下载,搞的人很烦. 有的人为了节省时间,就任性办理了个文库VIP,再也不 ...
python可以下载百度文库_百度文库随便下载，解除限制
阅读须知:文章介绍的软件下载地址载文末,需要复制链接到浏览器打开今天有小伙伴在群里问有没有百度文库的下载工具,其实之前推荐过,但目前有新的工具出现了,而且更加好用,所以给大家更新一下百度文档0.9 ...
python实例100例百度文库-18个Python爬虫实战案例(已开源)
目录爬虫小工具文件下载小助手爬虫实战笔趣看小说下载 VIP视频下载百度文库文章下载_rev1 百度文库文章下载_rev2 <帅啊>网帅哥图片下载构建代理IP池 <火影忍者 ...
国内下载 Python 源码特别慢
开始接触python,有些坑要踩的. 事件背景是使用pyenv 安装python 版本, root@HIH-L-4823:/# pyenv install 3.7.5 pyenv: /root/.py ...
python原码反码补码
python原码反码补码 1. 计算机计算的逻辑 2. 原码反码补码 2.1 正数: 2.2 负数 2.3 原码与补码之间的转换 2.3.1 原码->补码 2.3.1 补码->原码 2.3 ...
python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤，附可执行软件...
[Python] 纯文本查看复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...
js input复选框选中父级同时子级也选中_突破百度JS反爬获取百度文库数据下载...
毕业,是一首离别的歌前言炎炎夏季,又快到了我们该说毕业的时候.都说分开是为了更好的相聚,让我们彼此珍惜! 在这个炎热的空档期,对于技术渴望的宅男腐女们我们该做点什么呢?那最好的方式就是用编程来填补 ...
python官网下载步骤linux-官方下载python源码，编译linux版本的python
我这里使用的时centos7-mini,centos系统本身默认安装有python2.x,版本x根据不同版本系统有所不同,可通过 python --V 或 python --version 查看系统自 ...
百度文库不能下载解决方案
大家经常会上百度搜索资料,结果发现在百度文库那边可以找到,兴奋了半天却发现下载时是需要文库财富值的.针对这种情况,今天我给大家带来一个破解百度文库下载的方法,其实非常简单,而且不用下载任何软件. 首先 ...
百度图片文字识别 Python版本
百度图片文字识别文档:https://cloud.baidu.com/doc/OCR/s/Sk3h7xyad 1. 创建应用登录百度智能云,在产品服务/文字识别-概览下创建应用 2. 查看应用列表, ...

百度文库文字下载（python原码）

百度文库文字下载（python原码）相关推荐

最新文章

热门文章