Python实现某du内容下载, 保存到word文档

前言

今天来点不一样的

用Python实现某du文库vip内容下载, 保存到word文档

前期准备

环境使用

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装
ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写
问号前面: url链接
问号后面: 请求参数/查询参数

源码.点击领取即可

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'# 请求参数data = {'docId': docId,'query': name,'recPositions': ''}# 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}#发送请求response = requests.get(url=url, params=data, headers=headers)# <Response [200]> 响应对象, 200 表示请求成功print(response)

2. 获取数据, 获取服务器返回响应数据

开发者工具: response

sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {}
esponse.text 获取响应文本数据, 返回字符串  任何时候都可以, 但是基本获取网页源代码的时候
response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件print(response.json())  打印字典数据, 呈现一行
pprint(response.json()) 打印字典数据, 呈现多行, 展开效果

3. 解析数据, 提取图片链接地址

字典取值: 键值对根据冒号左边内容[键], 提取冒号右边的内容[值]

python学习交流Q群：770699889 ### 源码领取
# 定义文件名 整型
num = 1
# for循环遍历, 把列表里面元素一个一个提取出来
for index in response.json()['data']['relateDoc']:# index 字典呀pic = index['pic']print(pic)

4. 保存数据发送请求 + 获取数据二进制数据内容

# img_content = requests.get(url=pic, headers=headers).content
# # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀>  mode='wb' 保存方式, 二进制保存
# # str(num) 强制转换成 字符串
# # '图片\\' 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹
# with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
#     # 写入数据 保存数据  把图片二进制数据保存
#     f.write(img_content)
# # 每次循环 + 1
# print(num)
# num += 1

5. 做文字识别, 识别文字内容

文字识别:

注册一个百度云API账号
创建应用并且去免费领取资源
在技术文档里面 Access Token获取
调用API接口做文字识别

python学习交流Q群：770699889 ### 源码领取
def get_content(file):# client_id 为官网获取的AK， client_secret 为官网获取的SKhost = 'https://*****comp'response = requests.get(host)access_token = response.json()['access_token']'''通用文字识别（高精度版）'''request_url = "https://********.com/rest/2.0/ocr/v1/accurate_basic"# 二进制方式打开图片文件f = open(file, 'rb')img = base64.b64encode(f.read())params = {"image":img}request_url = request_url + "?access_token=" + access_tokenheaders = {'content-type': 'application/x-www-form-urlencoded'}json_data = requests.post(request_url, data=params, headers=headers).json()# 列表推导式words = '\n'.join([i['words'] for i in json_data['words_result']])return words

读取文件夹里面所有图片内容

content_list = []
files = os.listdir('img\\')
for file in files:
filename = 'img\\' + file
words = get_content(file=filename)
print(words)
content_list.append(words)

6. 把文字数据信息, 保存word文档里面

保存word文档里面

doc = Document()

添加第一段文档内容

content = '\n'.join(content_list)
doc.add_paragraph(content)
doc.save('data.docx')

最后

今天的分享到这里就结束了

顺便给大家推荐一些Python视频教程，希望对大家有所帮助：

Python零基础教学合集

对文章有问题的，或者有其他关于python的问题，可以在评论区留言或者私信我哦
觉得我分享的文章不错的话，可以关注一下我，或者给文章点赞(/≧▽≦)/

Python实现某du内容下载, 保存到word文档相关推荐

Python+Tesseract-OCR识别图片文字并保存到word文档
目录使用Python+Tesseract-OCR识别图片文字并保存到word文档安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作安装p ...
Python批量识别图片中的文字并保存到txt文档中
Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...
java检查word文档内容缺失_恢复Word文档内容需要了解的知识
Word文档是每一位电脑用户都有机会接触的文字编辑工具,它对我们的生活有着重要影响,不管是在学习还是在工作上.如果我们遇到了Word文档内容丢失或者Word文档内容乱码的情况,应该怎么解决呢?请继续往 ...
Python 将excel中的选择题导入到word文档中
Python 将excel中的选择题导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...
复制一个Word文档的部分或全部内容到另一个Word文档
我最近喜欢折腾Office软件相关的东西,想把很多Office软件提供的功能用.NET来实现,如果后期能把它用来开发一点我自己的小应用程序那就更好了. 扯远了,回到正题.复制文档内容这个功能太常见啦, ...
python采集付费论文批量下载并保存到文档，毕设论文再也不愁......
嗨害大家好鸭! 我是小熊猫鸭~ 大家是不是在写毕业论文的时候需要参考某一段的内容要用到复制粘贴,但是吧,某文库就需要付费, 就老难受了- 我们今天就来解决这个"老难受" 环境使 ...
Python爬取百度文库并存储为word文档
在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx. doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于O ...
如何利用python自动化办公项目_python办公自动化:自动进行word文档处理和排版
上节python办公自动化:自动打开word文档我们一起学会了在python里打开并保存一个word文档.这节我们将会学会如何利用python进行文本处理和将其在word里进行排版等技巧. pytho ...
java实现导出内容不固定的word文档
之前遇到过一个需求,需要导出一个word的周报,周报的内容是可变,然后网上找了下方法,下面摘抄一种方便的实现手段: Java用freemarker导出word 一.模板的制作先用Word做一个模板, ...

Python实现某du内容下载, 保存到word文档

前言

前期准备

环境使用

模块使用

代码实现步骤

1. 发送请求, 模拟浏览器对于url地址发送请求

2. 获取数据, 获取服务器返回响应数据

3. 解析数据, 提取图片链接地址

4. 保存数据发送请求 + 获取数据二进制数据内容

5. 做文字识别, 识别文字内容

6. 把文字数据信息, 保存word文档里面

最后

Python实现某du内容下载, 保存到word文档相关推荐

最新文章

热门文章

Python实现某du内容下载, 保存到word文档

前言

前期准备

环境使用

模块使用

代码实现步骤

1. 发送请求, 模拟浏览器对于url地址发送请求

2. 获取数据, 获取服务器返回响应数据

3. 解析数据, 提取图片链接地址

4. 保存数据 发送请求 + 获取数据 二进制数据内容

5. 做文字识别, 识别文字内容

6. 把文字数据信息, 保存word文档里面

最后

Python实现某du内容下载, 保存到word文档相关推荐

最新文章

热门文章

4. 保存数据发送请求 + 获取数据二进制数据内容