python复制网页文字_我用Python在网上复制文字的几种实用方法
平常学习或是工作需要,我们会想要复制网页上的文字内容,但是现在的网页非常不单纯,我简单列举几个我遇到的网页,当我看中了网页上的内容,想要复制其内容的时候,各种二维码,VIP的限制页面便会弹出,而这些无一例外地对我们充分利用网络资源形成了限制,造成了困扰。
那么如何解决这个问题呢,我还是使用Python来帮忙,你可能会提及爬虫,因为我们的应用场景是复制少量文字到自己的电脑上,没有必要大张旗鼓地写出爬虫,况且这些资源并非来源于同一网站,爬取难度也很难说得清楚。
我这有两种方法。其一,观察需要复制的网站的页面源代码,如果所需要复制内容的就在源代码之中,我们可以使用正则表达式将所需复制的内容完整地提取。
比如上面这样的情况,我们需要复制的内容就在源代码之中,其中夹杂了部分html的标签,这里使用反向的思维,我们不用正则提取所有汉字(我也尝试了一下,但效果不佳),而是使用正则将这些标签去除。
import re
pattern=re.compile('')
a=re.sub(pattern,'',string)
可见所有需要复制的内容已经舒服地躺在剪切板上了,任我们鱼肉。
但在一部分网页上,我们想要复制地内容不存在于网页源代码中,分析起来可能较为复杂。因而就有了方法二,将所需复制的内容部分截图,使用OCR将图片中的所有文字识别出来。
比如我们想复制上面这部分文字,直接使用tesserocr是否可行呢?当然可行,只是我们需要额外下载中文的语言包,在代码中作一些小小的改变。
image=Image.open(img)
result=tesserocr.image_to_text(image,lang='chi_sim')
同样,两种方法都只使用了极其少量的代码,就解决了在网页上复制文字的困境,希望对大家有些许帮助~
python复制网页文字_我用Python在网上复制文字的几种实用方法相关推荐
- python与网页交互_可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据
可爱的 Python 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据 使用 Python 工具简化 Web 站点数据的提取和组织 David Mertz 2010 ...
- python 窗口 网页 访问_同事用Python操控浏览器运行,引的妹子围观不止!
Python可以做的事情很多,小编也正在奋力挖掘中,今天给大家分享一下,如何用Python来控制浏览器的运行及操作! 嗯 关于这个,大体有两种方式,且听小编一一列举: 一.使用系统自带库 os 这个方 ...
- 使用python开发网页游戏_如何用python开发游戏
1 首先打开命令行,使用PyPI下载Pygame包(输入命令pip install pygame) 2 打开python编辑器(vs,IDLE,或其他),再引入包 3 定义一些需要用到的数据 4 先使 ...
- python写网页脚本_东拼西凑用python脚本登录web管理页面做巡检(实现)
东拼西凑用python脚本登录web管理页面做巡检(实现) 发布时间:2020-06-06 12:26:40 来源:51CTO 阅读:489 参考博文https://www.cnblogs.com/s ...
- python制作网页挂机_一个用Python写的简易挂机锁
基本功能实现了,但是不够漂亮屏蔽了Alt+F4,但是Ctrl+Alt+Del没能屏蔽# -*- coding: utf-8 -*- u""" 一个挂机锁软件. autho ...
- python嗅探网页视频_网络嗅探python
使用 pylibcap.它提供了libpcap的接口,libpcap是linux上数据包嗅探的事实标准.要解析数据包,您可能希望使用 construct库,因为它已包含TCP数据包的解析器. 这是一个 ...
- arcgis导入excel数据_导入Excel数据到ArcGIS属性表的两种实用方法
导入Excel数据到ArcGIS有两种方法,一种是用ArcMap的加载数据(黄色+号那个):另一种是用ArcCatalog直接转为shp文件,两种方法的原理是一样的. 第一种方法 1.Excel数据: ...
- 面具卡米怎么删模块_面具magisk ROOT如何更新到最新版本两种实用方法彻底解决...
面具magisk作者会不定期的更新维护magisk,对magisk的升级维护,以便支持更多的安卓设备.目前已知最新版magisk已支持安卓11系统,对于已经刷入面具root的小伙伴,怎么最快速的升级最 ...
- 网站推广策略-网站推广120种实用方法_打杂的_新浪博客
介绍实用有效的企业网站推广方法,网站推广计划,网站推广方案和网站推广案例等.<网站推广策略>用网络营销的系统性思想研究网站推广,将网站推广作为企业网络营销策略的组成部分. 网站推广120种 ...
- python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...
在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...
最新文章
- oracle 回闪技术恢复误删数据
- webpack+react多页面开发架构
- Qt Creator设置一个Autotools项目
- AddStaticMeshComponent
- mysql 5.7 内存占用_MySQL 5.7 内存使用计算
- cpu使用率_线程CPU使用率到底该如何计算?
- Compiled from Servlet.java (version 1.7 : 51.0 查看Servlet源码
- jQuery窗口调整大小
- 【机器人】关于驱动器与控制器的工作机制
- “工作5年,存款为0”:那些拼命的人是怎么被拖垮的?
- 【数学建模】CUMCM-2017A CT系统参数标定及成像 思路及部分代码
- 高中计算机平面设计计划书,日照师范学校计算机平面设计专业教学方案.doc
- [ArcPy] 1 ArcPy与栅格(Raster)
- 如何书写一手优雅的代码之小刚有话说
- SPSS大学生毕业生就业问题分析
- 2021.04.09丨使用featurecount进行定量处理
- hahaha终于注册了一个博客
- Android 开源项目库汇总
- 上网行为安全之深信服用户认证技术和用户、组管理
- 百度云服务器网络检查,百度推出网站安全监测平台,为服务器提供安全漏洞扫描...
热门文章
- 世界主要国家货币名称列表整理[外贸免费工具]
- 推挽电路整理-三极管推挽电路
- 6步解决win7局域网内传输慢的问题
- 计算机CPU高温,电脑cpu温度高怎么办?别怕,三招搞定
- Android Studio 报错 Error:Some file crunching failed, see logs for details
- 推荐一个网站:编程资料网 http://www.ourdev.net/
- 使用windows API区分移动硬盘和本地硬盘
- vss服务器手动备份项目,VSS数据自动备份
- 转专业 计算机,转专业系列之信息/计算机
- [jbb0523整理]压缩感知中的数学知识:NP-hard问题