是否遇到过这样的问题,很多的原文链接,想要识别里面文字,一个个打开进去截取,过于费劲

可以用python的newspaper库来实现
这个库分为 Python2 和 Python3 两个版本,Python2 下的版本叫做 newspaper,Python3 下的版本叫做 newspaper3k,这里使用 Python3 版本来进行测试。

pip3 install newspaper3k
import urllib
import re
import os
import string
from bs4 import BeautifulSoup
import logging
from newspaper import Article
counts1=0
counts2=0
counts3=0
urlLinks = []
save_urls = '3.txt'
# file = open(save_urls, 'r')
file= open("3.txt",encoding='utf-8')# 读取之前保存的url
for line in file:urlLinks.append(line)
file.close()print(len(urlLinks))
print(urlLinks)for link in urlLinks:try:news = Article(link.strip(), language='zh')news.download() # 加载网页news.parse()   # 解析网页print(news.text)if len(news.text)>256:counts1=counts1+1elif len(news.text)<256:counts2=counts2+1print('-------------------------------------------------------------------------------------------------------')print('counts1:'+str(counts1))print('counts2:' +str(counts2))print('counts3:' + str(counts3))except Exception as e:counts3 = counts3 + 1passcontinue
print('第一成功率:'+str(counts1/len(urlLinks)*100)+'%')
print('第二成功率:'+str((counts2+counts1)/len(urlLinks)*100)+'%')

其中第一成功率是在链接网址下识别出来大于256个字除于总链接数(可以测试newspaper库)
第二成功率是在链接网址下识别出来小于256个字除于总链接数
counts1是 识别出来大于256字的网址个数
counts2是 识别出来小于256字的网址个数
counts3是 报错无法识别的网址个数

newspaper常用方法

print(news.title)       # 题目
print(news.text)      # 正文内容
print(news.authors)     # 作者
print(news.keywords)    # 关键词
print(news.summary)     # 摘要
print(news.top_image) # 配图地址
print(news.movies)    # 视频地址
print(news.publish_date) # 发布日期
print(news.html)      # 网页源代码

批量网址自动提取文字(newspaper)相关推荐

  1. python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

  2. c语言加粗字体怎么弄,excel表格如何批量加粗文字

    excel中有想要加粗的关键文字,但是内容很多,该怎么批量加粗呢?下面就跟学习啦小编一起看看吧. excel表格批量加粗文字的步骤 1.打开excel 2.点击视图选项卡,点击宏 3.输入加粗,点击创 ...

  3. 单张、批量识别图片中文字(写入txt文件、窗口视图创建、打包.exe文件)(百度文字识别SDK+Python的GUI之tklinker+打包pyinstaller)

    昨天我姐问我有没有软件可以批量识别图片上的文字,她在帮客户做资料整理,但是用的方法只能一张一张上传识别,不仅效率低还浪费时间. ​我就找了找批量识别的软件,下载下来觉得:嗯?不错,界面也挺好,小东西做 ...

  4. 批量识别图片中文字(python、百度开发者工具)

    进来一直为各种课程的实验报告困扰,字数很多,百度文库.豆瓣等资源网站又无法免费下载. 就想着如果我能把他们截图下来,然后批量转换成文字该多好呢? 所谓懒惰是人类进步的阶梯. 笔者决定通过python程 ...

  5. 【批量图片识别文字命名】如何批量图片识别文字并将识别的文字重命名该图片,怎么弄?下面叫你方法

    前段时间接到一个棘手的难题(识别图片文字,将图片文件名改成该文字) 因为不解决就得手动挨个挨个输入然后把文件命名好 今天又一个文件需求是这样的 图上有姓名文字,要识别出来改成每一张图跟这个一样,有的人 ...

  6. 如何批量图片识别文字?两个好用的电脑端软件教程

    如何批量图片识别文字?无论是我们拍摄课堂上的PPT,还是我们日常的一些文字截图.这些文字都是图片文字,很不利于于我们整理复习.如果我们要是一个一个打字的话将会很耽误时间,实际上我们完全可以借助一些工具 ...

  7. python批量替换word文字

    这里写自定义目录标题 python批量替换word文字 代码 Gitee地址 微信赞赏 python批量替换word文字 代码 """本项目特点:1.获取word中数据, ...

  8. 【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

  9. 支持批量图片转文字的免费【OCR】文字识别工具,支持截图识别和批量图片识别,开源工具,速度快,准确度高,免费OCR,开源软件

    想必大家偶尔也有需要从图片中提取文字的需求,虽然现在手机上都自带了拍照识别功能,可是从电脑上的图片传到手机识别再将结果发回来实在是有点麻烦,尤其当图片数量较多时,更是费时费力,使用网页版工具又要面临收 ...

最新文章

  1. Oracle-trigger触发器解读
  2. 英语进阶系列-A06-本周总结
  3. c cuda 指定gpu_GPU并行编程:熟练使用CUDA C语言
  4. java远程执行jmi,java调用matlab 时出现java.lang.NullPointerException错误
  5. mysql创建用并 grant_Mysql创建用户并授权
  6. c g位置服务器,C32/G34平台铺路 AMD为十二核CPU蓄势
  7. 即时网络通讯系统的设计与实现(QQ)
  8. mysql-front源码_MySQL-Front(5.3版本)
  9. bootstrap之文字排版
  10. 【翻译】CSPNet: A New Backbone that can Enhance Learning Capability of CNN
  11. 报错Takes no arguements解决办法
  12. Python使用pyinstaller打包成exe文件,并支持传入外部参(已解决打包后文件大的情况)
  13. java坦克大战(2.0)
  14. 多媒体个人计算机软件系统由,多媒体计算机系统是由()组成。
  15. 构造方法的定义、重载、调用、使用 (1)定义商品类Goods,
  16. 流程控制之python
  17. 【狂神说Java】JavaWeb入门到实战--Maven详解
  18. 计算机提示msvcp110.dll丢失怎样修复?计算机中丢失msvcp110.dll,电脑找不到msvcp110.dll怎么办
  19. Linux 操作系统原理 — 进程管理 — 进程调度
  20. Procast从入门到精通

热门文章

  1. 七、最短路径——弗洛伊德(Floyd)算法
  2. 软件测试环境的搭建及详解
  3. python 制作 gif 动态图
  4. ps4移植android游戏,把PS4游戏《Apex英雄》《只狼》搬到安卓手机上玩,这招够简单!...
  5. macbook黑屏_Macbook苹果笔记本电脑开机黑屏如何解决【解决方法】
  6. Farkas'Lemma 和 S-Lemma
  7. java se运行环境_Java运行环境Java SE Runtime Environment (JRE) 下载
  8. X64dbg-插件开发-字符编码-常用插件函数-回调结构
  9. sleep ,wait,notify和notifyAll
  10. easyUI中combobox中idFeild和textFeild的取值方法