平常学习或是工作需要,我们会想要复制网页上的文字内容,但是现在的网页非常不单纯,我简单列举几个我遇到的网页,当我看中了网页上的内容,想要复制其内容的时候,各种二维码,VIP的限制页面便会弹出,而这些无一例外地对我们充分利用网络资源形成了限制,造成了困扰。

那么如何解决这个问题呢,我还是使用Python来帮忙,你可能会提及爬虫,因为我们的应用场景是复制少量文字到自己的电脑上,没有必要大张旗鼓地写出爬虫,况且这些资源并非来源于同一网站,爬取难度也很难说得清楚。

我这有两种方法。其一,观察需要复制的网站的页面源代码,如果所需要复制内容的就在源代码之中,我们可以使用正则表达式将所需复制的内容完整地提取。

比如上面这样的情况,我们需要复制的内容就在源代码之中,其中夹杂了部分html的标签,这里使用反向的思维,我们不用正则提取所有汉字(我也尝试了一下,但效果不佳),而是使用正则将这些标签去除。

import re

pattern=re.compile('')

a=re.sub(pattern,'',string)

可见所有需要复制的内容已经舒服地躺在剪切板上了,任我们鱼肉。

但在一部分网页上,我们想要复制地内容不存在于网页源代码中,分析起来可能较为复杂。因而就有了方法二,将所需复制的内容部分截图,使用OCR将图片中的所有文字识别出来。

比如我们想复制上面这部分文字,直接使用tesserocr是否可行呢?当然可行,只是我们需要额外下载中文的语言包,在代码中作一些小小的改变。

image=Image.open(img)

result=tesserocr.image_to_text(image,lang='chi_sim')

同样,两种方法都只使用了极其少量的代码,就解决了在网页上复制文字的困境,希望对大家有些许帮助~

python复制网页文字_我用Python在网上复制文字的几种实用方法相关推荐

  1. python与网页交互_可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

    可爱的 Python 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据 使用 Python 工具简化 Web 站点数据的提取和组织 David Mertz 2010 ...

  2. python 窗口 网页 访问_同事用Python操控浏览器运行,引的妹子围观不止!

    Python可以做的事情很多,小编也正在奋力挖掘中,今天给大家分享一下,如何用Python来控制浏览器的运行及操作! 嗯 关于这个,大体有两种方式,且听小编一一列举: 一.使用系统自带库 os 这个方 ...

  3. 使用python开发网页游戏_如何用python开发游戏

    1 首先打开命令行,使用PyPI下载Pygame包(输入命令pip install pygame) 2 打开python编辑器(vs,IDLE,或其他),再引入包 3 定义一些需要用到的数据 4 先使 ...

  4. python写网页脚本_东拼西凑用python脚本登录web管理页面做巡检(实现)

    东拼西凑用python脚本登录web管理页面做巡检(实现) 发布时间:2020-06-06 12:26:40 来源:51CTO 阅读:489 参考博文https://www.cnblogs.com/s ...

  5. python制作网页挂机_一个用Python写的简易挂机锁

    基本功能实现了,但是不够漂亮屏蔽了Alt+F4,但是Ctrl+Alt+Del没能屏蔽# -*- coding: utf-8 -*- u""" 一个挂机锁软件. autho ...

  6. python嗅探网页视频_网络嗅探python

    使用 pylibcap.它提供了libpcap的接口,libpcap是linux上数据包嗅探的事实标准.要解析数据包,您可能希望使用 construct库,因为它已包含TCP数据包的解析器. 这是一个 ...

  7. arcgis导入excel数据_导入Excel数据到ArcGIS属性表的两种实用方法

    导入Excel数据到ArcGIS有两种方法,一种是用ArcMap的加载数据(黄色+号那个):另一种是用ArcCatalog直接转为shp文件,两种方法的原理是一样的. 第一种方法 1.Excel数据: ...

  8. 面具卡米怎么删模块_面具magisk ROOT如何更新到最新版本两种实用方法彻底解决...

    面具magisk作者会不定期的更新维护magisk,对magisk的升级维护,以便支持更多的安卓设备.目前已知最新版magisk已支持安卓11系统,对于已经刷入面具root的小伙伴,怎么最快速的升级最 ...

  9. 网站推广策略-网站推广120种实用方法_打杂的_新浪博客

    介绍实用有效的企业网站推广方法,网站推广计划,网站推广方案和网站推广案例等.<网站推广策略>用网络营销的系统性思想研究网站推广,将网站推广作为企业网络营销策略的组成部分. 网站推广120种 ...

  10. python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

最新文章

  1. oracle 回闪技术恢复误删数据
  2. webpack+react多页面开发架构
  3. Qt Creator设置一个Autotools项目
  4. AddStaticMeshComponent
  5. mysql 5.7 内存占用_MySQL 5.7 内存使用计算
  6. cpu使用率_线程CPU使用率到底该如何计算?
  7. Compiled from Servlet.java (version 1.7 : 51.0 查看Servlet源码
  8. jQuery窗口调整大小
  9. 【机器人】关于驱动器与控制器的工作机制
  10. “工作5年,存款为0”:那些拼命的人是怎么被拖垮的?
  11. 【数学建模】CUMCM-2017A CT系统参数标定及成像 思路及部分代码
  12. 高中计算机平面设计计划书,日照师范学校计算机平面设计专业教学方案.doc
  13. [ArcPy] 1 ArcPy与栅格(Raster)
  14. 如何书写一手优雅的代码之小刚有话说
  15. SPSS大学生毕业生就业问题分析
  16. 2021.04.09丨使用featurecount进行定量处理
  17. hahaha终于注册了一个博客
  18. Android 开源项目库汇总
  19. 上网行为安全之深信服用户认证技术和用户、组管理
  20. 百度云服务器网络检查,百度推出网站安全监测平台,为服务器提供安全漏洞扫描...

热门文章

  1. 世界主要国家货币名称列表整理[外贸免费工具]
  2. 推挽电路整理-三极管推挽电路
  3. 6步解决win7局域网内传输慢的问题
  4. 计算机CPU高温,电脑cpu温度高怎么办?别怕,三招搞定
  5. Android Studio 报错 Error:Some file crunching failed, see logs for details
  6. 推荐一个网站:编程资料网 http://www.ourdev.net/
  7. 使用windows API区分移动硬盘和本地硬盘
  8. vss服务器手动备份项目,VSS数据自动备份
  9. 转专业 计算机,转专业系列之信息/计算机
  10. [jbb0523整理]压缩感知中的数学知识:NP-hard问题