baidu文库爪巴虫——txt
首先你应该清楚,直接从文档页面源代码中是找不到文档内容的,
但是我们通过查看浏览器下载的文件,可以很容易的发现文档内容的来源,
为什么说容易呢,引文包含内容的文件通常都是比较大的!只要按文件大小排序,往下找就能发现!
没错就是最大的那个文件,里面妥妥的是汉字
接下来就要分析一下请求的格式了,查看 header 发现 get 参数一大堆
怎么获取这些参数呢?
最先想到的就是在文档页面的源代码中找啦
非常不巧的是,这些参数都能找到!
import requestsimport reurl = 'https://wenku.baidu.com/view/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518.html?fr=search'
html = requests.get(url).textres = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"', html)
md5, sign = res[0]res = re.findall(r'"show_doc_id":"(.*?)"', html)
txtid = res[0]res = re.findall(r'"page":"(.*?)"', html)
rn = res[0]res = re.findall(r'"rsign":"(.*?)"', html)
rsign = res[0]u = "https://wkretype.bdimg.com/retype/text/{}?md5sum={}&sign={}&callback=cb&pn=1&rn={}&type=txt&rsign={}&_=0".format(txtid,md5,sign,rn,rsign
)
print(u)
# https://wkretype.bdimg.com/retype/text/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518?md5sum=ef62b71614efa14128d1b234fb9b35e6&sign=6c912310fc&callback=cb&pn=1&rn=15&type=txt&rsign=p_15-r_0-s_20235&_=1599058207247new_html = requests.get(u).text
txt_list = re.findall(r'"c":"(.*?)"', new_html)
result = ''.join([item.encode('utf8').decode('unicode_escape','ignore') for item in txt_list])
print(result)
'''
说明:
1、以脂校本为准。【】中是引用的原文;()中是我添加的说明;···是标记年表与文中矛盾之处。
2、为说明引用、表述,我采用了一个红楼纪年坐标,以甄士隐梦中识通灵为坐标起点,作为红楼元年开始纪事。
3、推理的基础是:宝玉在甄士隐梦见僧道那一年出生;钗、菱、袭、晴四人同庚。
4、文中时间顺序本来就有矛盾之处,特别是62回至70,时间线索模糊不清,前后冲突之处甚多,我试了多种排序也不能完全与文字相符,勉强排了下来但明显有错,还请高人指点。
5、尽量把时间的结点都排列出来,所以叫啰嗦版。而且文字也很啰嗦,请忍耐。...
'''
baidu文库爪巴虫——txt相关推荐
- baidu文库爪巴虫——xls
用开发者工具从下载文件的 response 中找文档内容,很快就找到了 分析请求地址及参数 然后回到文档源代码页面,发现这个请求地址已经包含在里面了,只需要把它提取出来即可 表格和word 文档还是不 ...
- 多线程爪巴虫下载进击的巨人 v.1
这个爪巴虫还是有很多bug,有些图片超时后就没下载下来,导致每一刊都少了几页 o(╥﹏╥)o 暂时把第1版贴在这,准备升级爪巴虫2.0 import requests from bs4 import ...
- 多线程爪巴虫下载进击的巨人
文章目录 线程池 获取图片链接 下载图片 存在的问题 线程池 import contextlib import glob import os import re import threading im ...
- 多线程爪巴虫下载进击的巨人 v.2
本文地址:https://goodgoodstudy.blog.csdn.net/article/details/108757857 文章目录 线程池 获取图片链接 下载图片 存在的问题 线程池 im ...
- 通过html直接显示txt内容_10分钟教你用Python爬取Baidu文库全格式内容
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...
- 10分钟教你用Python爬取Baidu文库全格式内容
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...
- LSP是第一生产力 深夜开车,图片不够了怎么办?爪巴就完事了(爬虫爬取网页图片)
标题很明确了吧,我们如何才能在网页上爬取图片呢? 首先,打开一个网址:(就用这个举例子吧) http://www.win4000.com/wallpaper_2285_0_0_1.html 那么,ur ...
- selenium 知网爪巴虫
本文地址:https://blog.csdn.net/itnerd/article/details/108505844 知网爬虫的第一步,输入检索条件 selenium 通过模拟鼠标点击,自动实现:选 ...
- 《进击的巨人》展现了日本羸弱的二次元文化
如果你不去思考,去发声,去行动,自有人替你思考,替你发声,替你行动,但达成的效果,可能不是你想要的. <进击的巨人>是今年来热度很高的动漫,由于剧情跌宕起伏,再加上反战标签的加持,无论是漫 ...
最新文章
- 关闭裁剪功能_4个图片裁剪技巧,瞬间看出Word大神与小白的差距!
- django ORM相关的那些操作汇总
- 2015.4.19 为什么footer下a的索引值那么大
- 数组巧去重new Set
- (9)vue.js 指令(1)
- 创业,如果条件允许,你最想开一个什么店?
- mysql数据库备份注意,Tips: MySQL数据库使用mysqldump备份恢复时的注意事项
- javaeye改名之后
- 华为手机升级回退_华为手机版本回退 - 卡饭网
- HTG评论:Diamond WR300N无线中继器
- Excel函数,数据透视表图,某招聘网站职位分析项目
- 支付宝签名php,支付宝快捷支付 PHP服务端签名
- 中兴Nubia Z5S mini一键ROOT教程 获取ROOT权限
- 追逐冠军的少年 | 算法工程师岗毕业三年总结
- 七代处理器装win7_7代cpu能装win7旗舰版吗?七代处理器 不能装win7的解决方法
- 我要的仅此而已:伤感QQ心情日志
- 基于全卷积神经网络的前列腺磁共振图像分割
- 15数字华容道解法 图解_数字华容道解法图解 数字华容道玩法介绍
- 未找到导入的项目 .wpp.targets。请确认 Import 声明中的路径正确,且磁盘上存在该文件
- linux 室内设计软件,功能强大!Ubuntu下安装最新免费3D室内设计软件