baidu文库爪巴虫—

首先你应该清楚，直接从文档页面源代码中是找不到文档内容的，

但是我们通过查看浏览器下载的文件，可以很容易的发现文档内容的来源，

为什么说容易呢，引文包含内容的文件通常都是比较大的！只要按文件大小排序，往下找就能发现！

没错就是最大的那个文件，里面妥妥的是汉字

接下来就要分析一下请求的格式了，查看 header 发现 get 参数一大堆

怎么获取这些参数呢？

最先想到的就是在文档页面的源代码中找啦

非常不巧的是，这些参数都能找到！

import requestsimport reurl = 'https://wenku.baidu.com/view/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518.html?fr=search'
html = requests.get(url).textres = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"', html)
md5, sign = res[0]res = re.findall(r'"show_doc_id":"(.*?)"', html)
txtid = res[0]res = re.findall(r'"page":"(.*?)"', html)
rn = res[0]res = re.findall(r'"rsign":"(.*?)"', html)
rsign = res[0]u = "https://wkretype.bdimg.com/retype/text/{}?md5sum={}&sign={}&callback=cb&pn=1&rn={}&type=txt&rsign={}&_=0".format(txtid,md5,sign,rn,rsign
)
print(u)
# https://wkretype.bdimg.com/retype/text/edabfd2ce3bd960590c69ec3d5bbfd0a7956d518?md5sum=ef62b71614efa14128d1b234fb9b35e6&sign=6c912310fc&callback=cb&pn=1&rn=15&type=txt&rsign=p_15-r_0-s_20235&_=1599058207247new_html = requests.get(u).text
txt_list = re.findall(r'"c":"(.*?)"', new_html)
result = ''.join([item.encode('utf8').decode('unicode_escape','ignore') for item in txt_list])
print(result)
'''
说明：
1、以脂校本为准。【】中是引用的原文；（）中是我添加的说明；···是标记年表与文中矛盾之处。
2、为说明引用、表述，我采用了一个红楼纪年坐标，以甄士隐梦中识通灵为坐标起点，作为红楼元年开始纪事。
3、推理的基础是：宝玉在甄士隐梦见僧道那一年出生；钗、菱、袭、晴四人同庚。
4、文中时间顺序本来就有矛盾之处，特别是62回至70，时间线索模糊不清，前后冲突之处甚多，我试了多种排序也不能完全与文字相符，勉强排了下来但明显有错，还请高人指点。
5、尽量把时间的结点都排列出来，所以叫啰嗦版。而且文字也很啰嗦，请忍耐。...
'''

baidu文库爪巴虫——txt相关推荐

baidu文库爪巴虫——xls
用开发者工具从下载文件的 response 中找文档内容,很快就找到了分析请求地址及参数然后回到文档源代码页面,发现这个请求地址已经包含在里面了,只需要把它提取出来即可表格和word 文档还是不 ...
多线程爪巴虫下载进击的巨人 v.1
这个爪巴虫还是有很多bug,有些图片超时后就没下载下来,导致每一刊都少了几页 o(╥﹏╥)o 暂时把第1版贴在这,准备升级爪巴虫2.0 import requests from bs4 import ...
多线程爪巴虫下载进击的巨人
文章目录线程池获取图片链接下载图片存在的问题线程池 import contextlib import glob import os import re import threading im ...
多线程爪巴虫下载进击的巨人 v.2
本文地址:https://goodgoodstudy.blog.csdn.net/article/details/108757857 文章目录线程池获取图片链接下载图片存在的问题线程池 im ...
通过html直接显示txt内容_10分钟教你用Python爬取Baidu文库全格式内容
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航程序猿声 PS:如有需要Python学习资料的小伙伴可 ...
10分钟教你用Python爬取Baidu文库全格式内容
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航程序猿声 PS:如有需要Python学习资料的小伙伴可 ...
LSP是第一生产力深夜开车，图片不够了怎么办？爪巴就完事了（爬虫爬取网页图片）
标题很明确了吧,我们如何才能在网页上爬取图片呢? 首先,打开一个网址:(就用这个举例子吧) http://www.win4000.com/wallpaper_2285_0_0_1.html 那么,ur ...
selenium 知网爪巴虫
本文地址:https://blog.csdn.net/itnerd/article/details/108505844 知网爬虫的第一步,输入检索条件 selenium 通过模拟鼠标点击,自动实现:选 ...
《进击的巨人》展现了日本羸弱的二次元文化
如果你不去思考,去发声,去行动,自有人替你思考,替你发声,替你行动,但达成的效果,可能不是你想要的. <进击的巨人>是今年来热度很高的动漫,由于剧情跌宕起伏,再加上反战标签的加持,无论是漫 ...

baidu文库爪巴虫——txt

baidu文库爪巴虫——txt相关推荐

最新文章

热门文章