python爬虫百度文库_百度文库爬虫,Python爬取百度文库内容输出word文档low版
一个比较简单的文库爬虫,所以带来的后遗症也很多明显,比较low比,只能爬取word,txt,ppt别想了,同时不能有折叠的内容,当然vip的内容也不要妄想了,百度吃相还是真难看,有钱真的可以为所欲为!
关键点就在于,协议头,直接用爬虫的协议头才能获取到内容!
header = {'User-agent': 'Googlebot'}
而想要输出为word文档,那就需要使用到 docx 库!
当然格式还是差强人意,有总比没有强吧,你说是吧?!
pip安装 docx 库
pip install python_docx
参考代码:
def get_word(data):
document = Document()
document.add_heading(data[0])
for detail in data[1]:
document.add_paragraph(detail) #添加段落
document.save(f'{data[0]}.docx
附完整代码参考:
#百度文库采集
#20200803微信:huguo00289
#https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html
# -*- coding: UTF-8 -*-
import requests,re
from lxml import etree
from docx import Document
def get_detail(url):
#url = 'https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html'
header = {'User-agent': 'Googlebot'}
response = requests.get(url , headers = header).content.decode('gbk')
#print(response)
title_ze=r'
(.+?)_百度文库'
div_ze=r'
title=re.findall(title_ze,response,re.S)[0]
div=re.findall(div_ze,response,re.S)[0]
div=etree.HTML(div)
details=div.xpath('//div//text()')
#detail='\n'.join(details)
data=title,details
print(data)
return data
def get_word(data):
document = Document()
document.add_heading(data[0])
for detail in data[1]:
document.add_paragraph(detail) #添加段落
document.save(f'{data[0]}.docx')
if __name__=='__main__':
url="https://wenku.baidu.com/view/cb02b4a91837f111f18583d049649b6648d7092e"
text=get_detail(url)
get_wo
python爬虫百度文库_百度文库爬虫,Python爬取百度文库内容输出word文档low版相关推荐
- Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)
前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...
- 使用python在实现图片(包括扫描件的图片类pdf)转换成word文档过程中的常见问题
pdf有两类,一类是别人用word转pdf,你想转过来那种,带有光标那种,计算机能轻松识别,转换相对简单很多.第二类,即图片类pdf,也就是平常工作中看到的各种扫描件,它的识别相对要复杂一些,但又常常 ...
- python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
- 爬虫学习笔记(二)——使用 requests 爬取百度图片
一.抓取首页图片 静态页面 流程: 1.1.找到目标数据 这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程 先访问page页获取网页的源代码 # 网页的 ...
- python win32转pdf 横版_讲真,别再用win32com包来实现Word文档转PDF了
这几天有件大爽事. 之前一直放在Django原生的服务器的网站,终于放到Apache上了.并不是配置多难,也不是我懒,问题出在了用win32com实现word转pdf,我不能使用这个插件读取word, ...
- 打包文档_苏教版小学数学16年级全十二册教案Word文档打包下载
扫码查看下载 全部资源 部编小学语文1-6年级课程资料汇总苏教版小学数学1-6年级教学资料汇编苏教版小学数学1-6年级电子课本汇编苏教版小学数学1-6年级期末试题卷汇编▼ 1 年级 苏教版一年级数学上 ...
- 将mysql 导出word文档_将数据库的内容生成WORD文档
毕业设计需要从库里取纪录生成word文档,我找了半天,主要有这么几种方法: 1.改头,就是象excel似的Response.Buffer = TRUE Response.ContentType = & ...
- 如何两个电脑共享文件实现多人编辑_怎么才能几台电脑同时编辑共享的同一word文档...
加Q1647658274 2019-07-09 10:18 3416 自己先看看哦~在工具--共享工作区 文档工作区网站是 Microsoft Windows SharePoint Services ...
- python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
- python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
最新文章
- Java JDK代理、CGLIB、AspectJ代理分析比较
- 发现 postman 自动生成接口调用代码的一个问题
- windows搜索工具_加快搞定并替代 Windows 10 搜索框搜索文件速度的免费小工具
- uniapp 底部菜单_uniapp 原生导航栏
- nft文件传输_Nancy之文件上传与下载
- 功能安全专题之功能安全概念阶段
- js中如何获取font标签中的内容
- 在计算机基础这门课程中可以学到什么,计算机基础个人总结
- Macbook 2021 M1pro 安装 SentencePiece
- win7默认网关不可用怎么修复 win7默认网关不可用的快速解决方法
- 假设检验实验和拟合优度检验练习题
- 三条中线分的六个三角形_为什么三角形的三条中线把三角形分为面积相等的六块...
- 贝壳云P1刷机记录(5.10内核Armbian)
- vue element 的el-checkbox-group默认全部选中
- 【react+umi】国际化配置:浏览器默认英文,如何让工程默认语言为中文?
- 小程序 · 手机号码中间四位隐藏
- 网页内嵌编辑器ueditor的使用
- 【WEB安全】PHP靶场实战分析——DVWA
- Reflector破译
- 百度编辑器(ueditor)踩坑,图片转存无法使用