python爬虫爬取百度文档
使用python爬虫爬取百度文档文字
话不多说,直接上代码!
import requests
import reheaders = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36"
} # 模拟手机def get_num(url):response = requests.get(url, headers=headers).textresult = re.search(r'&md5sum=(.*)&sign=(.*)&rtcs_flag=(.*)&rtcs_ver=(.*?)".*rsign":"(.*?)",', response, re.M | re.I) # 寻找参数reader = {"md5sum": result.group(1),"sign": result.group(2),"rtcs_flag": result.group(3),"rtcs_ver": result.group(4),"width": 176,"type": "org","rsign": result.group(5)}result_page = re.findall(r'merge":"(.*?)".*?"page":(.*?)}', response) # 获取每页的标签doc_url = "https://wkretype.bdimg.com/retype/merge/" + url[29:-5] # 网页的前缀n = 0for i in range(len(result_page)): # 最大同时一次爬取10页if i % 10 is 0:doc_range = '_'.join([k for k, v in result_page[n:i]])reader['pn'] = n + 1reader['rn'] = 10reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_10' % (reader.get('pn'))reader['range'] = doc_rangen = iget_page(doc_url, reader)else: # 剩余不足10页的doc_range = '_'.join([k for k, v in result_page[n:i + 1]])reader['pn'] = n + 1reader['rn'] = i - n + 1reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_%s' % (reader.get('pn'), reader.get('rn'))reader['range'] = doc_rangeget_page(doc_url, reader)def get_page(url, data):response = requests.get(url, headers=headers, params=data).textresponse = response.encode('utf-8').decode('unicode_escape') # unciode转为utf-8 然后转为中文response = re.sub(r',"no_blank":true', '', response) # 清洗数据result = re.findall(r'c":"(.*?)"}', response) # 寻找文本匹配result = '\n'.join(result)with open("C:/Users/86135/Desktop/百度文库.txt",'wt') as f:f.write(result)if __name__ == '__main__':url = input("请输入百度文库的地址:")get_num(url)
爬取结果如下:
python爬虫爬取百度文档相关推荐
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...
- python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
- python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)
什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- python爬虫爬取百度图片,python爬虫篇2:爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
- python爬虫爬取百度存成html出现中文乱码情况
写的爬虫代码爬取百度页面,存成txt格式的或者直接输出下面代码都是正常的,不会出现乱码情况,但是一旦存成html之后打开就出现中文乱码. from urllib.request import urlo ...
- python 爬虫——爬取百度文库VIP内容
转载自:爬取百度文库 代码实现 import requests import re import json import ossession = requests.session()def fetch ...
最新文章
- 万字长文详解如何用Python玩转OpenGL | CSDN 博文精选
- 面部特征点检测的关键技术
- MIT自动驾驶船下水!可乘坐5人,阿姆斯特丹运河航行3小时误差不到0.17米
- 【Python-ML】SKlearn库特征抽取-KPCA
- P2774 方格取数问题
- 编译成功但链接失败的原因
- Dubbox-REST风格
- window 2003 linux,一步步从Windows 2003 DNS 移植到Linux下
- IO概述、异常、File文件类_DAY19
- pandas之数值计算与统计
- 安装过程中检测数据库是否已经存在
- java对象--多态的好处
- channel带缓冲区和不带缓冲区的区别
- 自然语言处理——分词系统(正向最大匹配法)
- Bumped!详解—(Dijkstra堆优化,优先队列实现,结构体重载运算符)
- 云流化是什么?对软件企业有什么好处?
- 【生活】换手机号需要更改哪些绑定
- mysql笔记--03DML
- iframe 无刷新图片上传图片
- 怎么将图片的背景抠掉?
热门文章
- java outer什么意思_java里面outer、 inner是什么意思
- 查看nginx是否启动成功
- 网赚渠道,付费项目和免费项目,你会选择哪种网赚方式
- week6:Diagnosing Bias vs. Variance难点记录
- L84.linux命令每日一练 -- 第11章 Linux系统管理命令 -- rpm和yum
- 如何给厂区做导航地图?智能工厂导航地图解决方案公司
- 本人亲自整理的极客时间设计模式之美下部的硬核笔记(残缺版)最近加班太多,搞不了太多,只能尽量了xd们
- uint16数据的读取以及转换为uint8数据显示
- 开源工单系统 python_PESCMS Ticket 客服工单系统 v1.2.0 发布
- 从“触点”到“旅程”——浅谈数字时代的客户体验提升