python爬虫百度文库_百度文库爬虫，Python爬取百度文库内容输出word文档low版

一个比较简单的文库爬虫，所以带来的后遗症也很多明显，比较low比，只能爬取word，txt，ppt别想了，同时不能有折叠的内容，当然vip的内容也不要妄想了，百度吃相还是真难看，有钱真的可以为所欲为！

关键点就在于，协议头，直接用爬虫的协议头才能获取到内容！

header = {'User-agent': 'Googlebot'}

而想要输出为word文档，那就需要使用到 docx 库！

当然格式还是差强人意，有总比没有强吧，你说是吧？！

pip安装 docx 库

pip install python_docx

参考代码：

def get_word(data):

document = Document()

document.add_heading(data[0])

for detail in data[1]:

document.add_paragraph(detail) #添加段落

document.save(f'{data[0]}.docx

附完整代码参考：

#百度文库采集

#20200803微信：huguo00289

#https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html

# -*- coding: UTF-8 -*-

import requests,re

from lxml import etree

from docx import Document

def get_detail(url):

#url = 'https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html'

header = {'User-agent': 'Googlebot'}

response = requests.get(url , headers = header).content.decode('gbk')

#print(response)

title_ze=r'

(.+?)_百度文库'

div_ze=r'

(.+?)

title=re.findall(title_ze,response,re.S)[0]

div=re.findall(div_ze,response,re.S)[0]

div=etree.HTML(div)

details=div.xpath('//div//text()')

#detail='\n'.join(details)

data=title,details

print(data)

return data

def get_word(data):

document = Document()

document.add_heading(data[0])

for detail in data[1]:

document.add_paragraph(detail) #添加段落

document.save(f'{data[0]}.docx')

if __name__=='__main__':

url="https://wenku.baidu.com/view/cb02b4a91837f111f18583d049649b6648d7092e"

text=get_detail(url)

get_wo

python爬虫百度文库_百度文库爬虫，Python爬取百度文库内容输出word文档low版相关推荐

Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）
前言今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...
使用python在实现图片（包括扫描件的图片类pdf）转换成word文档过程中的常见问题
pdf有两类,一类是别人用word转pdf,你想转过来那种,带有光标那种,计算机能轻松识别,转换相对简单很多.第二类,即图片类pdf,也就是平常工作中看到的各种扫描件,它的识别相对要复杂一些,但又常常 ...
python实现爬虫探探_全栈 - 9 实战爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
爬虫学习笔记（二）——使用 requests 爬取百度图片
一.抓取首页图片静态页面流程: 1.1.找到目标数据这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程先访问page页获取网页的源代码 # 网页的 ...
python win32转pdf 横版_讲真，别再用win32com包来实现Word文档转PDF了
这几天有件大爽事. 之前一直放在Django原生的服务器的网站,终于放到Apache上了.并不是配置多难,也不是我懒,问题出在了用win32com实现word转pdf,我不能使用这个插件读取word, ...
打包文档_苏教版小学数学16年级全十二册教案Word文档打包下载
扫码查看下载全部资源部编小学语文1-6年级课程资料汇总苏教版小学数学1-6年级教学资料汇编苏教版小学数学1-6年级电子课本汇编苏教版小学数学1-6年级期末试题卷汇编▼ 1 年级苏教版一年级数学上 ...
将mysql 导出word文档_将数据库的内容生成WORD文档
毕业设计需要从库里取纪录生成word文档,我找了半天,主要有这么几种方法: 1.改头,就是象excel似的Response.Buffer = TRUE Response.ContentType = & ...
如何两个电脑共享文件实现多人编辑_怎么才能几台电脑同时编辑共享的同一word文档...
加Q1647658274 2019-07-09 10:18 3416 自己先看看哦~在工具--共享工作区文档工作区网站是 Microsoft Windows SharePoint Services ...
python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

python爬虫百度文库_百度文库爬虫，Python爬取百度文库内容输出word文档low版

python爬虫百度文库_百度文库爬虫，Python爬取百度文库内容输出word文档low版相关推荐

最新文章

热门文章