前言

今天来点不一样的

用Python实现某du文库vip内容下载, 保存到word文档

前期准备

环境使用

  • python 3.8
  • pycharm

模块使用

  • requests >>> 数据请求模块 pip install requests
  • docx >>> 文档保存 pip install python-docx
  • re 内置模块 不需要安装
  • ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

  1. 发送请求, 模拟浏览器对于url地址发送请求图片数据包:

  2. 获取数据, 获取服务器返回响应数据
    开发者工具: response

  3. 解析数据, 提取图片链接地址

  4. 保存数据, 把图片内容保存到本地文件夹

  5. 做文字识别, 识别文字内容

  6. 把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

  • 长链接, 可以分段写
  • 问号前面: url链接
  • 问号后面: 请求参数/查询参数

源码.点击领取即可

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'# 请求参数data = {'docId': docId,'query': name,'recPositions': ''}# 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}#发送请求response = requests.get(url=url, params=data, headers=headers)# <Response [200]> 响应对象, 200 表示请求成功print(response)

2. 获取数据, 获取服务器返回响应数据

开发者工具: response

sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {}
esponse.text 获取响应文本数据, 返回字符串  任何时候都可以, 但是基本获取网页源代码的时候
response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件print(response.json())  打印字典数据, 呈现一行
pprint(response.json()) 打印字典数据, 呈现多行, 展开效果

3. 解析数据, 提取图片链接地址

字典取值: 键值对 根据冒号左边内容[键], 提取冒号右边的内容[值]

python学习交流Q群:770699889 ### 源码领取
# 定义文件名 整型
num = 1
# for循环遍历, 把列表里面元素一个一个提取出来
for index in response.json()['data']['relateDoc']:# index 字典呀pic = index['pic']print(pic)

4. 保存数据 发送请求 + 获取数据 二进制数据内容

# img_content = requests.get(url=pic, headers=headers).content
# # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀>  mode='wb' 保存方式, 二进制保存
# # str(num) 强制转换成 字符串
# # '图片\\' 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹
# with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
#     # 写入数据 保存数据  把图片二进制数据保存
#     f.write(img_content)
# # 每次循环 + 1
# print(num)
# num += 1

5. 做文字识别, 识别文字内容

文字识别:

  • 注册一个百度云API账号
  • 创建应用 并且去免费领取资源
  • 在技术文档里面 Access Token获取
  • 调用API接口做文字识别
python学习交流Q群:770699889 ### 源码领取
def get_content(file):# client_id 为官网获取的AK, client_secret 为官网获取的SKhost = 'https://*****comp'response = requests.get(host)access_token = response.json()['access_token']'''通用文字识别(高精度版)'''request_url = "https://********.com/rest/2.0/ocr/v1/accurate_basic"# 二进制方式打开图片文件f = open(file, 'rb')img = base64.b64encode(f.read())params = {"image":img}request_url = request_url + "?access_token=" + access_tokenheaders = {'content-type': 'application/x-www-form-urlencoded'}json_data = requests.post(request_url, data=params, headers=headers).json()# 列表推导式words = '\n'.join([i['words'] for i in json_data['words_result']])return words
  • 读取文件夹里面所有图片内容
content_list = []
files = os.listdir('img\\')
for file in files:
filename = 'img\\' + file
words = get_content(file=filename)
print(words)
content_list.append(words)

6. 把文字数据信息, 保存word文档里面

  • 保存word文档里面
doc = Document()
  • 添加第一段文档内容
content = '\n'.join(content_list)
doc.add_paragraph(content)
doc.save('data.docx')

最后

今天的分享到这里就结束了

顺便给大家推荐一些Python视频教程,希望对大家有所帮助:

Python零基础教学合集

对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦
觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

Python实现某du内容下载, 保存到word文档相关推荐

  1. Python+Tesseract-OCR识别图片文字并保存到word文档

    目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...

  2. Python批量识别图片中的文字并保存到txt文档中

    Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...

  3. java检查word文档内容缺失_恢复Word文档内容需要了解的知识

    Word文档是每一位电脑用户都有机会接触的文字编辑工具,它对我们的生活有着重要影响,不管是在学习还是在工作上.如果我们遇到了Word文档内容丢失或者Word文档内容乱码的情况,应该怎么解决呢?请继续往 ...

  4. Python 将excel中的选择题 导入到word文档中

    Python 将excel中的选择题 导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...

  5. 复制一个Word文档的部分或全部内容到另一个Word文档

    我最近喜欢折腾Office软件相关的东西,想把很多Office软件提供的功能用.NET来实现,如果后期能把它用来开发一点我自己的小应用程序那就更好了. 扯远了,回到正题.复制文档内容这个功能太常见啦, ...

  6. python采集付费论文批量下载 并保存到文档,毕设论文再也不愁......

    嗨害大家好鸭! 我是小熊猫鸭~ 大家是不是在写毕业论文的时候 需要参考某一段的内容 要用到复制粘贴,但是吧,某文库就需要付费, 就老难受了- 我们今天就来解决这个"老难受" 环境使 ...

  7. Python爬取百度文库并存储为word文档

    在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx. doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于O ...

  8. 如何利用python自动化办公项目_python办公自动化:自动进行word文档处理和排版

    上节python办公自动化:自动打开word文档我们一起学会了在python里打开并保存一个word文档.这节我们将会学会如何利用python进行文本处理和将其在word里进行排版等技巧. pytho ...

  9. java实现导出内容不固定的word文档

    之前遇到过一个需求,需要导出一个word的周报,周报的内容是可变,然后网上找了下方法,下面摘抄一种方便的实现手段: Java用freemarker导出word 一.模板的制作 先用Word做一个模板, ...

最新文章

  1. warning: useless storage class specifier in empty declaration 问题解决
  2. C# 将多个图片合并成TIFF文件的两种方法
  3. Python-strace命令追踪ssh操作
  4. 反射应用二:利用反射加配置文件实现多数据库的访问
  5. nginx 升级http请求到websocket
  6. 硬件开源产品_5种适合户外活动的开源硬件产品
  7. ospf避免环路_【网络干货】超全的OSPF路由协议技术汇总解析
  8. python venv jenkins_Jenkins+Pytest+Allure集成测试环境
  9. Codeforces Round #666 (Div. 2)D. Stoned Game(博弈问题)
  10. 聪聪用计算机计算235乘49,四年级数学题库
  11. 一位寒门博士的致谢,女友回复...
  12. 李宏毅自然语言处理——文本风格转换
  13. 【Unity3D】资源文件 ③ ( Unity 资源包简介 | 导出 Unity 资源包 | 导出资源包的包含依赖选项 | 导入 Unity 资源包 | Unity 资源商店 )
  14. sd卡 格式化 命令 linux,在Linux命令行上格式化SD卡、USB驱动器、闪存驱动器的方法...
  15. 路由器工作原理与配置
  16. c语言 指针 pdf,彻底搞定C指针.pdf
  17. linux中安shell怎么传入参数,【linux】linux 下 shell命令 执行结果赋值给变量【两种方式】...
  18. iceoryx(冰羚)-IPC中间件交叉编译
  19. C1认证: 任务01-修改游戏存档和金币
  20. 汇编指令mrs_(转)ARM汇编学习笔记——MRS和MSR指令

热门文章

  1. 如何git命令创建一个本地分支,并提交到远程(remote)
  2. 课堂教学实践研究之人教版九年级上册“阅读与思考”《旋转对称》
  3. 固态硬盘有哪些协议知识点?
  4. 详谈室内定位技术方案
  5. mysql常用日期的写法
  6. WordPress增加网站地图
  7. VUE使用docxtemplater导出word(带图片)
  8. 哈啰电动车“智慧门店”设想,经销商们买账吗?
  9. linux系统硬盘坏了,linux 系统 如何检测 磁盘 是否损坏?
  10. acg-faka--功能丰富的发卡二次元商城源码