Python 提取网页正文,将网页转为图片!!!

用到python的newspaper库

from newspaper import Article
news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)

计算识别长度是否合格
不合格的从URL访问网页转成图片提取
(为什么不直接提取html中的文字:转成图片成功率更大,且去除html标签有js残留)
图1 counts1为从源码中去除html标签的成功率
图2 counts1为URL访问网页转成图片的成功率PS:只要转成图片必能识别文字


URL访问网页转成图片:

import imgkitpath_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)

全部代码附上:

import urllib
from newspaper import Article
import imgkit
import urllib.request
from selenium import webdriver
from getHtml import getUse
counts1=0
counts2=0
counts3=0
num=0
urlLinks = []
file= open("save_url.txt",encoding='utf-8')# 读取之前保存的url
for line in file:urlLinks.append(line)
file.close()print(len(urlLinks))
print(urlLinks)for link in urlLinks:try:news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)if len(news.text)>256:counts1=counts1+1else:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts2 = counts2 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')print('counts1:'+str(counts1))print('counts2:'+str(counts2))except Exception as e:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts3 = counts3 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')
print('第一成功率:'+str(counts1/len(urlLinks)*100)+'%')
print('第二成功率:'+str((counts2+counts1)/len(urlLinks)*100)+'%')
print('counts3:' + str(counts3))

结果展示:

Python 提取网页正文,将网页转为图片!相关推荐

  1. 通过Python的pdfplumber库将pdf转为图片

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.pdf素材 五.将pdf转为图片 1.引入库 2.定义pdf路径 3.打开P ...

  2. python提取html正文为txt,python 提取html文本的方法

    假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记.通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml.这是一个经过充分测试的解决方案, ...

  3. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  4. Python提取word文档中的图片,识别图片文字之后再转存为word文档

    #!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytess ...

  5. python pdf 图片_第一节:python提取PDF文档中的图片

    1.安装第三方类库pymupdf:pip install pymupdf 2.安装完成后直接上代码,代码如下: import fitz import time import re import os ...

  6. python提取pdf中的文字和图片_Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)...

    PDF文件格式 如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...

  7. Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片

    使用正则表达式提取百度贴吧网页中的楼主发的图片 # -*- coding:utf-8 - import re #正则模块 import urllib2 import urllib#使用正则表达式提取百 ...

  8. php 正文提取算法,基于机器学习的网页正文提取方法

    摘  要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...

  9. python 网页版笔记_【Python笔记】Python网页正文抽取工具

    本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...

最新文章

  1. JavaScript中的JS引擎的执行机制
  2. 从蜘蛛网到物联网 这张网人类织了多久?
  3. mysql docker 制作_docker 制作自己的mysql镜像
  4. 对Unity的Resources目录进行改名
  5. asp.net core源码飘香:Configuration组件
  6. P4301-[CQOI2013]新Nim游戏【线性基】
  7. gram矩阵_Skip-gram
  8. 语言语法糖_【c#】几种常用语法糖
  9. js微信监听返回_微信小程序(2)- 框架结构amp;运行环境
  10. 图片查看器 bmp jpg png 动态gif office 2007风格
  11. 大数据之-Hadoop3.x_MapReduce_MapJoin案例完成---大数据之hadoop3.x工作笔记0134
  12. 便携式办公套件LibreOffice Portable 4.0.1
  13. 认识Java虚拟机的基本结构
  14. 如何将MySQL卸载干净?
  15. 百度收录自动化提交脚本 - python
  16. SEP12.1.2现在支持自动卸载其他某些杀毒软件
  17. 2400字整理Python编码规范,肝了一晚上~
  18. 微PEU盘如何还原成普通U盘
  19. C++ define的用法
  20. vscode-remote 无法写入文件“vscode-remote://ssh-remote

热门文章

  1. Ubuntu——搜狗输入法
  2. SmartTools
  3. 奇偶校验码c语言源代码,求助 奇偶校验的C语言编程
  4. 《计算机系统要素》配套软件和资料下载
  5. xmind试用导出无水印_Xmind zen 2020导出png/pdf去水印(Linux版)
  6. Vue.js+Node.js开发实战:从入门到项目上线
  7. Elemnet万能表单生成器
  8. 【技术综述】一文道尽“人脸数据集”(转载)
  9. 青软实训.NET学习笔记(4)--WinForm技术初接触
  10. CD4046应用之倍频