首先你应该清楚,直接从文档页面源代码中是找不到文档内容的,

但是我们通过查看浏览器下载的文件,可以很容易的发现文档内容的来源,

为什么说容易呢,引文包含内容的文件通常都是比较大的!只要按文件大小排序,往下找就能发现!

没错就是最大的那个文件,里面妥妥的是汉字

接下来就要分析一下请求的格式了,查看 header 发现 get 参数一大堆

怎么获取这些参数呢?

最先想到的就是在文档页面的源代码中找啦

非常不巧的是,这些参数都能找到!

import requestsimport reurl = 'https://wenku.baidu.com/view/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518.html?fr=search'
html = requests.get(url).textres = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"', html)
md5, sign = res[0]res = re.findall(r'"show_doc_id":"(.*?)"', html)
txtid = res[0]res = re.findall(r'"page":"(.*?)"', html)
rn = res[0]res = re.findall(r'"rsign":"(.*?)"', html)
rsign = res[0]u = "https://wkretype.bdimg.com/retype/text/{}?md5sum={}&sign={}&callback=cb&pn=1&rn={}&type=txt&rsign={}&_=0".format(txtid,md5,sign,rn,rsign
)
print(u)
# https://wkretype.bdimg.com/retype/text/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518?md5sum=ef62b71614efa14128d1b234fb9b35e6&sign=6c912310fc&callback=cb&pn=1&rn=15&type=txt&rsign=p_15-r_0-s_20235&_=1599058207247new_html = requests.get(u).text
txt_list = re.findall(r'"c":"(.*?)"', new_html)
result = ''.join([item.encode('utf8').decode('unicode_escape','ignore') for item in txt_list])
print(result)
'''
说明:
1、以脂校本为准。【】中是引用的原文;()中是我添加的说明;···是标记年表与文中矛盾之处。
2、为说明引用、表述,我采用了一个红楼纪年坐标,以甄士隐梦中识通灵为坐标起点,作为红楼元年开始纪事。
3、推理的基础是:宝玉在甄士隐梦见僧道那一年出生;钗、菱、袭、晴四人同庚。
4、文中时间顺序本来就有矛盾之处,特别是62回至70,时间线索模糊不清,前后冲突之处甚多,我试了多种排序也不能完全与文字相符,勉强排了下来但明显有错,还请高人指点。
5、尽量把时间的结点都排列出来,所以叫啰嗦版。而且文字也很啰嗦,请忍耐。...
'''

baidu文库爪巴虫——txt相关推荐

  1. baidu文库爪巴虫——xls

    用开发者工具从下载文件的 response 中找文档内容,很快就找到了 分析请求地址及参数 然后回到文档源代码页面,发现这个请求地址已经包含在里面了,只需要把它提取出来即可 表格和word 文档还是不 ...

  2. 多线程爪巴虫下载进击的巨人 v.1

    这个爪巴虫还是有很多bug,有些图片超时后就没下载下来,导致每一刊都少了几页 o(╥﹏╥)o 暂时把第1版贴在这,准备升级爪巴虫2.0 import requests from bs4 import ...

  3. 多线程爪巴虫下载进击的巨人

    文章目录 线程池 获取图片链接 下载图片 存在的问题 线程池 import contextlib import glob import os import re import threading im ...

  4. 多线程爪巴虫下载进击的巨人 v.2

    本文地址:https://goodgoodstudy.blog.csdn.net/article/details/108757857 文章目录 线程池 获取图片链接 下载图片 存在的问题 线程池 im ...

  5. 通过html直接显示txt内容_10分钟教你用Python爬取Baidu文库全格式内容

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...

  6. 10分钟教你用Python爬取Baidu文库全格式内容

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...

  7. LSP是第一生产力 深夜开车,图片不够了怎么办?爪巴就完事了(爬虫爬取网页图片)

    标题很明确了吧,我们如何才能在网页上爬取图片呢? 首先,打开一个网址:(就用这个举例子吧) http://www.win4000.com/wallpaper_2285_0_0_1.html 那么,ur ...

  8. selenium 知网爪巴虫

    本文地址:https://blog.csdn.net/itnerd/article/details/108505844 知网爬虫的第一步,输入检索条件 selenium 通过模拟鼠标点击,自动实现:选 ...

  9. 《进击的巨人》展现了日本羸弱的二次元文化

    如果你不去思考,去发声,去行动,自有人替你思考,替你发声,替你行动,但达成的效果,可能不是你想要的. <进击的巨人>是今年来热度很高的动漫,由于剧情跌宕起伏,再加上反战标签的加持,无论是漫 ...

最新文章

  1. 关闭裁剪功能_4个图片裁剪技巧,瞬间看出Word大神与小白的差距!
  2. django ORM相关的那些操作汇总
  3. 2015.4.19 为什么footer下a的索引值那么大
  4. 数组巧去重new Set
  5. (9)vue.js 指令(1)
  6. 创业,如果条件允许,你最想开一个什么店?
  7. mysql数据库备份注意,Tips: MySQL数据库使用mysqldump备份恢复时的注意事项
  8. javaeye改名之后
  9. 华为手机升级回退_华为手机版本回退 - 卡饭网
  10. HTG评论:Diamond WR300N无线中继器
  11. Excel函数,数据透视表图,某招聘网站职位分析项目
  12. 支付宝签名php,支付宝快捷支付 PHP服务端签名
  13. 中兴Nubia Z5S mini一键ROOT教程 获取ROOT权限
  14. 追逐冠军的少年 | 算法工程师岗毕业三年总结
  15. 七代处理器装win7_7代cpu能装win7旗舰版吗?七代处理器 不能装win7的解决方法
  16. 我要的仅此而已:伤感QQ心情日志
  17. 基于全卷积神经网络的前列腺磁共振图像分割
  18. 15数字华容道解法 图解_数字华容道解法图解 数字华容道玩法介绍
  19. 未找到导入的项目 .wpp.targets。请确认 Import 声明中的路径正确,且磁盘上存在该文件
  20. linux 室内设计软件,功能强大!Ubuntu下安装最新免费3D室内设计软件

热门文章

  1. 小米MIUI大更新,新增5项隐藏功能,米粉说:好用到停不下来
  2. 【一】Java快速入门
  3. 5分钟学会vue中的路由守卫
  4. 移动端实现swiper轮播的图片视频播放video,仿淘宝商品详情的视频播放(兼容ios和android)
  5. 保留两位小数正则表达式
  6. (前端)HTML之表格
  7. 域渗透委派攻击之约束委派
  8. 比亚迪唐鸿蒙系统,比亚迪唐燃油版到底值不值得入手?槽点在哪里?外观和内在全盘分析...
  9. 拉姆-查兰管理实践奖:思想盛宴 在不确定性中发现未来
  10. chrome浏览器解决跨域问题