import json
import re
import requests
def get_document():# 文库urlsess = requests.Session()url = input("请输入百度文档url:")headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","Referer": "https://wenku.baidu.com/","User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Mobile Safari/537.36 Edg/88.0.705.63",}sess.get("https://wk.baidu.com")html = sess.get(url, headers=headers).text# 抓取到文档标题title = re.findall("<title>(.*?) - 百度文库</title>", html)[0]## 使用正则提取 文档内容的urlres = re.findall('"htmlUrls":(.*),"free_page"', html)[0]# 转成字典data = json.loads(res)# 新建一个文档with open(title + ".doc", "w", encoding="gb2312") as f:string = ""num = 0for i in data["json"]:url = i["pageLoadUrl"]  # 获取到url# 请求文档内容data = requests.get(url).text# 提取文本数据res = re.search("wenku_\d*\((.*)\)", data, re.S).group(1) # re.S整体进行匹配# 将json对象数据转成Python对象data = json.loads(res)for i in data['body']:# 判断数据是什么类型if i["t"] == "word":# 获取到文本string += str(i["c"])# ps中不为空并且_enter==1的时候是换行也就是一段内容if i["ps"] and i["ps"].get("_enter") == 1:f.write(string)f.write("\n  ")string = ""  # 重新复制 "" 表示新的一段文本if __name__ == '__main__':get_document()

基于转载文章进行的更新再加工

百度文库文字下载(python原码)相关推荐

  1. 不用下载券也能下载百度文库资料,Python帮你轻松搞定

    阅读文本大概需要5分钟. 大家可能平时都有在百度文库下载文档的经历,费尽心思好不容易在文库找了一份可以用的资料,一看需要用下载券下载,搞的人很烦. 有的人为了节省时间,就任性办理了个文库VIP,再也不 ...

  2. python可以下载百度文库_百度文库随便下载,解除限制

    阅读须知:文章介绍的软件下载地址载文末,需要复制链接到浏览器打开 今天有小伙伴在群里问有没有百度文库的下载工具,其实之前推荐过,但目前有新的工具出现了,而且更加好用,所以给大家更新一下 百度文档0.9 ...

  3. python实例100例百度文库-18个Python爬虫实战案例(已开源)

    目录 爬虫小工具 文件下载小助手 爬虫实战 笔趣看小说下载 VIP视频下载 百度文库文章下载_rev1 百度文库文章下载_rev2 <帅啊>网帅哥图片下载 构建代理IP池 <火影忍者 ...

  4. 国内下载 Python 源码特别慢

    开始接触python,有些坑要踩的. 事件背景是使用pyenv 安装python 版本, root@HIH-L-4823:/# pyenv install 3.7.5 pyenv: /root/.py ...

  5. python原码反码补码

    python原码反码补码 1. 计算机计算的逻辑 2. 原码反码补码 2.1 正数: 2.2 负数 2.3 原码与补码之间的转换 2.3.1 原码->补码 2.3.1 补码->原码 2.3 ...

  6. python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤,附可执行软件...

    [Python] 纯文本查看 复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...

  7. js input复选框选中父级同时子级也选中_突破百度JS反爬获取百度文库数据下载...

    毕业,是一首离别的歌 前言 炎炎夏季,又快到了我们该说毕业的时候.都说分开是为了更好的相聚,让我们彼此珍惜! 在这个炎热的空档期,对于技术渴望的宅男腐女们我们该做点什么呢?那最好的方式就是用编程来填补 ...

  8. python官网下载步骤linux-官方下载python源码,编译linux版本的python

    我这里使用的时centos7-mini,centos系统本身默认安装有python2.x,版本x根据不同版本系统有所不同,可通过 python --V 或 python --version 查看系统自 ...

  9. 百度文库不能下载解决方案

    大家经常会上百度搜索资料,结果发现在百度文库那边可以找到,兴奋了半天却发现下载时是需要文库财富值的.针对这种情况,今天我给大家带来一个破解百度文库下载的方法,其实非常简单,而且不用下载任何软件. 首先 ...

  10. 百度 图片文字识别 Python版本

    百度图片文字识别文档:https://cloud.baidu.com/doc/OCR/s/Sk3h7xyad 1. 创建应用 登录百度智能云,在产品服务/文字识别-概览下创建应用 2. 查看应用列表, ...

最新文章

  1. MySQL数据类型--------字符串类型实战
  2. mysql 分组取最新的一条记录(整条记录)
  3. 等待队列wait queue
  4. linux 批量删除
  5. 《如何阅读一本书》之 阅读的层次
  6. Socket的select制作多客户端传输(Qt)
  7. GDCM:gdcm::Overlay的测试程序
  8. Centos 设置zookeeper开机自启动
  9. 《俄罗斯方块》正版授权手游开启预约:支持QQ、微信双平台
  10. 计算机数据结构图知识点,2011考研计算机数据结构复习重点解析:图的应用
  11. 人工智能:一种现代的方法 书本课后习题解答
  12. VBM法MRI图像处理——记第一次使用cat12
  13. php 微信上传多张图片,php,微信_微信jssdk能上传多张图片吗?,php,微信,javascript - phpStudy...
  14. idea报错解决办法:Error executing Maven. The specified user settings file does not exist: C:\Users\Gmx\.m2\
  15. 云开发—扫码点餐系统实战
  16. Java名词解释什么是继承_java程序设计名词解释
  17. 通过预言机获取任意链下数据 - Chainlink Any API 代码解析
  18. 使用 Arduino 和电位器控制直流电机速度
  19. u盘修复计算机w7,win7系统提示需要修复U盘的解决方法
  20. ZCMU - 1601: 卡斯丁狗去挖矿

热门文章

  1. 服务器远程预览本地设备视频, 预览多个,打不开视频流
  2. 标签概述及GoodMES云标签的创新应用
  3. python中pip下载过慢问题
  4. 尚硅谷大数据Hadoop(1)技术之Hadoop(入门)
  5. Yedda Twitter C# Library
  6. Scratch3架构结构说明
  7. 高性能服务框架-Dubbo实战教程,看这一篇就够了
  8. linux安装yum报错Unable to locate package yum解决方案
  9. 物流配送软件测试,物流配送最优路径规划
  10. 海康威视球机摄像头晚上补光灯闪烁问题