带你领略python魔法~免费复制文档数据
前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~
我们百度搜索一些东西得时候,经常找到文档里面
然后就会发现需要充值才能复制!怎么可以不花钱也保存呢?
今天就分享给大家一个python获取文档数据得方法
环境使用:
python 3.8
pycharm
模块使用:
requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块 不需要安装
ctrl + R : 首先你得看得数据, 才能想办法获取
安装python第三方模块:
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令
基本思路流程:
一. 分析数据来源
找 文档数据内容, 是在那个url里面生成的
通过开发者工具进行抓包分析
打开开发者工具: F12 / 鼠标右键点击检查选择network
刷新网页: 让本网页数据内容重新加载一遍
如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别
- 分析文库数据内容, 图片所在地址
获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载
文字识别, 把图片文字识别出来, 保存word文档里面
二. 代码实现步骤
发送请求, 模拟浏览器对于url地址发送请求
图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面
代码展示
带你领略python魔法~免费复制文档数据相关推荐
- 百度文库里面的文档无法复制,如果要下载需要下载券,如何免费复制文档呢?
本人按照公司领导要求,去网上找一个公司软件工程质量管理体系说明的说明书 但是 1.下载需要下载券,我又不是经常下载,开通vip不舍得 2.复制又复制不了 解决方案 1.把这个文档的名称,完完整整的输入 ...
- np合并 python_这15个tips,带你领略 Python 的简洁和优雅
本文通过15个具体的例子,带你领略 Python 的简洁和优雅. 下文中'P'即表示'Pythonic',很 Python 的写法,'NP'也就是相反,不是很'Pythonic'的写法. 1.为多个变 ...
- python数据采集6-读取文档
文章目录 python数据采集6-读取文档 文档编码 纯文本 CSV PDF 微软Word和.docx python数据采集6-读取文档 有种观点认为,互联网基本上就是那些符合新式 Web 2.0 潮 ...
- python编辑word书签_小伙发现了Python中编写word文档的库,编辑文字方便多了
新的一年,小编又和大家见面啦.十分开心又和大家分享干货了~ Word文档相信广大的办公室家族并不陌生吧?今天咱们聊聊Python中一个可以用来读写word文档的Python库,编辑文档分分钟的事情哦~ ...
- Python+pymupdf处理PDF文档案例6则
推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷,7月第2次印刷 京东购买链接:https://i ...
- Python 实现将 Markdown 文档转换为 EPUB 电子书文件
Python 实现将 Markdown 文档转换为 EPUB 电子书文件 Markdown Markdown 是一种轻量级的标记语言,用于以简单且易于阅读的方式格式化文本.它由 John Gruber ...
- 使用 Python 翻译 CHM 帮助文档
此方法绝对切实可行 翻译成品项目: GitHub - foyoux/InstallShield2020-Documents: InstallShield2020 中文文档 效果预览 安装 doct ...
- python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...
目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...
- 用Python提取解析pdf文档中内容
用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...
最新文章
- 2019华为全联接大会(汇总)
- opencv检测矩形
- 请教于国富律师——怎样把灰鸽子病毒和灰鸽子程序区分开
- [转]ROS2 源码解析与实践 - Node
- pthread_join函数
- ios 自定义View 卡片滑动切换效果
- LeetCode Week 3:第 21 ~ 30 题
- Spring Boot 9-FreeMarker模板引擎
- java的基本循环结构_Java基础之(九):循环结构
- Android程序开发:简单电话拨号器
- python选择哪个版本-Python学习,要选哪个版本?
- 扫盲贴-万能密码的原理
- 英国高中A-Level和IB课程介绍
- 网站IP更换对SEO有影响吗
- 解决戴尔电脑耳机插入后无效,外放正常的问题
- 直接在html打开ppt,无需频繁跳转 教你在PPT内直接看网页
- portal服务器认证系统有哪些,portal服务器认证过程问题
- 保存Windows10随机聚焦锁屏壁纸
- 武汉大学 计算机学院 曹瑀,武大计算机青协
- 关于三角形面积的公式与格点多边形面积计算算法的讨论