一个比较简单的文库爬虫,所以带来的后遗症也很多明显,比较low比,只能爬取word,txt,ppt别想了,同时不能有折叠的内容,当然vip的内容也不要妄想了,百度吃相还是真难看,有钱真的可以为所欲为!

关键点就在于,协议头,直接用爬虫的协议头才能获取到内容!

header = {'User-agent': 'Googlebot'}

而想要输出为word文档,那就需要使用到 docx 库!

当然格式还是差强人意,有总比没有强吧,你说是吧?!

pip安装 docx 库

pip install python_docx

参考代码:

def get_word(data):

document = Document()

document.add_heading(data[0])

for detail in data[1]:

document.add_paragraph(detail) #添加段落

document.save(f'{data[0]}.docx

附完整代码参考:

#百度文库采集

#20200803微信:huguo00289

#https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html

# -*- coding: UTF-8 -*-

import requests,re

from lxml import etree

from docx import Document

def get_detail(url):

#url = 'https://wenku.baidu.com/view/312ce9da0129bd64783e0912a216147916117e27.html'

header = {'User-agent': 'Googlebot'}

response = requests.get(url , headers = header).content.decode('gbk')

#print(response)

title_ze=r'

(.+?)_百度文库'

div_ze=r'

(.+?)

'

title=re.findall(title_ze,response,re.S)[0]

div=re.findall(div_ze,response,re.S)[0]

div=etree.HTML(div)

details=div.xpath('//div//text()')

#detail='\n'.join(details)

data=title,details

print(data)

return data

def get_word(data):

document = Document()

document.add_heading(data[0])

for detail in data[1]:

document.add_paragraph(detail) #添加段落

document.save(f'{data[0]}.docx')

if __name__=='__main__':

url="https://wenku.baidu.com/view/cb02b4a91837f111f18583d049649b6648d7092e"

text=get_detail(url)

get_wo

python爬虫百度文库_百度文库爬虫,Python爬取百度文库内容输出word文档low版相关推荐

  1. Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)

    前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...

  2. 使用python在实现图片(包括扫描件的图片类pdf)转换成word文档过程中的常见问题

    pdf有两类,一类是别人用word转pdf,你想转过来那种,带有光标那种,计算机能轻松识别,转换相对简单很多.第二类,即图片类pdf,也就是平常工作中看到的各种扫描件,它的识别相对要复杂一些,但又常常 ...

  3. python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据

    这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

  4. 爬虫学习笔记(二)——使用 requests 爬取百度图片

    一.抓取首页图片 静态页面 流程: 1.1.找到目标数据 这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程 先访问page页获取网页的源代码 # 网页的 ...

  5. python win32转pdf 横版_讲真,别再用win32com包来实现Word文档转PDF了

    这几天有件大爽事. 之前一直放在Django原生的服务器的网站,终于放到Apache上了.并不是配置多难,也不是我懒,问题出在了用win32com实现word转pdf,我不能使用这个插件读取word, ...

  6. 打包文档_苏教版小学数学16年级全十二册教案Word文档打包下载

    扫码查看下载 全部资源 部编小学语文1-6年级课程资料汇总苏教版小学数学1-6年级教学资料汇编苏教版小学数学1-6年级电子课本汇编苏教版小学数学1-6年级期末试题卷汇编▼ 1 年级 苏教版一年级数学上 ...

  7. 将mysql 导出word文档_将数据库的内容生成WORD文档

    毕业设计需要从库里取纪录生成word文档,我找了半天,主要有这么几种方法: 1.改头,就是象excel似的Response.Buffer = TRUE Response.ContentType = & ...

  8. 如何两个电脑共享文件实现多人编辑_怎么才能几台电脑同时编辑共享的同一word文档...

    加Q1647658274 2019-07-09 10:18 3416 自己先看看哦~在工具--共享工作区 文档工作区网站是 Microsoft Windows SharePoint Services ...

  9. python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

  10. python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

最新文章

  1. Java JDK代理、CGLIB、AspectJ代理分析比较
  2. 发现 postman 自动生成接口调用代码的一个问题
  3. windows搜索工具_加快搞定并替代 Windows 10 搜索框搜索文件速度的免费小工具
  4. uniapp 底部菜单_uniapp 原生导航栏
  5. nft文件传输_Nancy之文件上传与下载
  6. 功能安全专题之功能安全概念阶段
  7. js中如何获取font标签中的内容
  8. 在计算机基础这门课程中可以学到什么,计算机基础个人总结
  9. Macbook 2021 M1pro 安装 SentencePiece
  10. win7默认网关不可用怎么修复 win7默认网关不可用的快速解决方法
  11. 假设检验实验和拟合优度检验练习题
  12. 三条中线分的六个三角形_为什么三角形的三条中线把三角形分为面积相等的六块...
  13. 贝壳云P1刷机记录(5.10内核Armbian)
  14. vue element 的el-checkbox-group默认全部选中
  15. 【react+umi】国际化配置:浏览器默认英文,如何让工程默认语言为中文?
  16. 小程序 · 手机号码中间四位隐藏
  17. 网页内嵌编辑器ueditor的使用
  18. 【WEB安全】PHP靶场实战分析——DVWA
  19. Reflector破译
  20. 百度编辑器(ueditor)踩坑,图片转存无法使用

热门文章

  1. 提升开发效率之命名规范
  2. python while语句写法
  3. js生成1~100个随机不重复数
  4. ios GCD ---- (1)
  5. Response.End() 与Response.Close()的区别
  6. Deep Learning经典论文列表(Reading List)
  7. 【C++编程技巧】根据字符串中的指定字符作为分界将字符串拆分
  8. 高级GIS-1.提取纯净像元
  9. HTML学习总结(6)——表单
  10. windows32位安装MongoDB