前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~

我们百度搜索一些东西得时候,经常找到文档里面

然后就会发现需要充值才能复制!怎么可以不花钱也保存呢?

今天就分享给大家一个python获取文档数据得方法

环境使用:

  • python 3.8

  • pycharm

模块使用:

  • requests >>> 数据请求模块 pip install requests

  • docx >>> 文档保存 pip install python-docx

  • re 内置模块 不需要安装

ctrl + R : 首先你得看得数据, 才能想办法获取

安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程:

一. 分析数据来源

找 文档数据内容, 是在那个url里面生成的

  • 通过开发者工具进行抓包分析

    1. 打开开发者工具: F12 / 鼠标右键点击检查选择network

    2. 刷新网页: 让本网页数据内容重新加载一遍

    如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别

    1. 分析文库数据内容, 图片所在地址
  1. 获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载

  2. 文字识别, 把图片文字识别出来, 保存word文档里面

二. 代码实现步骤

  1. 发送请求, 模拟浏览器对于url地址发送请求

    图片数据包:

  2. 获取数据, 获取服务器返回响应数据

    开发者工具: response

  3. 解析数据, 提取图片链接地址

  4. 保存数据, 把图片内容保存到本地文件夹

  5. 做文字识别, 识别文字内容

  6. 把文字数据信息, 保存word文档里面

代码展示

带你领略python魔法~免费复制文档数据相关推荐

  1. 百度文库里面的文档无法复制,如果要下载需要下载券,如何免费复制文档呢?

    本人按照公司领导要求,去网上找一个公司软件工程质量管理体系说明的说明书 但是 1.下载需要下载券,我又不是经常下载,开通vip不舍得 2.复制又复制不了 解决方案 1.把这个文档的名称,完完整整的输入 ...

  2. np合并 python_这15个tips,带你领略 Python 的简洁和优雅

    本文通过15个具体的例子,带你领略 Python 的简洁和优雅. 下文中'P'即表示'Pythonic',很 Python 的写法,'NP'也就是相反,不是很'Pythonic'的写法. 1.为多个变 ...

  3. python数据采集6-读取文档

    文章目录 python数据采集6-读取文档 文档编码 纯文本 CSV PDF 微软Word和.docx python数据采集6-读取文档 有种观点认为,互联网基本上就是那些符合新式 Web 2.0 潮 ...

  4. python编辑word书签_小伙发现了Python中编写word文档的库,编辑文字方便多了

    新的一年,小编又和大家见面啦.十分开心又和大家分享干货了~ Word文档相信广大的办公室家族并不陌生吧?今天咱们聊聊Python中一个可以用来读写word文档的Python库,编辑文档分分钟的事情哦~ ...

  5. Python+pymupdf处理PDF文档案例6则

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷,7月第2次印刷 京东购买链接:https://i ...

  6. Python 实现将 Markdown 文档转换为 EPUB 电子书文件

    Python 实现将 Markdown 文档转换为 EPUB 电子书文件 Markdown Markdown 是一种轻量级的标记语言,用于以简单且易于阅读的方式格式化文本.它由 John Gruber ...

  7. 使用 Python 翻译 CHM 帮助文档

    此方法绝对切实可行 翻译成品项目: GitHub - foyoux/InstallShield2020-Documents: InstallShield2020 中文文档 效果预览 ​ 安装 doct ...

  8. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

  9. 用Python提取解析pdf文档中内容

    用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...

最新文章

  1. 2019华为全联接大会(汇总)
  2. opencv检测矩形
  3. 请教于国富律师——怎样把灰鸽子病毒和灰鸽子程序区分开
  4. [转]ROS2 源码解析与实践 - Node
  5. pthread_join函数
  6. ios 自定义View 卡片滑动切换效果
  7. LeetCode Week 3:第 21 ~ 30 题
  8. Spring Boot 9-FreeMarker模板引擎
  9. java的基本循环结构_Java基础之(九):循环结构
  10. Android程序开发:简单电话拨号器
  11. python选择哪个版本-Python学习,要选哪个版本?
  12. 扫盲贴-万能密码的原理
  13. 英国高中A-Level和IB课程介绍
  14. 网站IP更换对SEO有影响吗
  15. 解决戴尔电脑耳机插入后无效,外放正常的问题
  16. 直接在html打开ppt,无需频繁跳转 教你在PPT内直接看网页
  17. portal服务器认证系统有哪些,portal服务器认证过程问题
  18. 保存Windows10随机聚焦锁屏壁纸
  19. 武汉大学 计算机学院 曹瑀,武大计算机青协
  20. 关于三角形面积的公式与格点多边形面积计算算法的讨论

热门文章

  1. 输入年份和月份,求该月有多少天
  2. 跨境电商多商户系统怎么选
  3. css怎么两线合并,【2人回答】CAD中如何把两条线合并成一条线?-3D溜溜网
  4. 大屏联屏发布系统解决方案
  5. omap3isp上层应用解析
  6. 如何用一句话激怒互联网人?
  7. 快速查询每个快递单号物流详情,支持国内常用的快递公司
  8. Android开源项目以及开源库集合(持续更新中)
  9. silverlight | chrion.exe-动态语言创建silverlight
  10. 程序 = 数据结构 + 算法?真的是这样的吗?