Python 提取网页正文，将网页转为图片!

Python 提取网页正文，将网页转为图片!！！

用到python的newspaper库

from newspaper import Article
news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)

计算识别长度是否合格
不合格的从URL访问网页转成图片提取
（为什么不直接提取html中的文字：转成图片成功率更大，且去除html标签有js残留）
图1 counts1为从源码中去除html标签的成功率
图2 counts1为URL访问网页转成图片的成功率PS：只要转成图片必能识别文字

URL访问网页转成图片：

import imgkitpath_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)

全部代码附上：

import urllib
from newspaper import Article
import imgkit
import urllib.request
from selenium import webdriver
from getHtml import getUse
counts1=0
counts2=0
counts3=0
num=0
urlLinks = []
file= open("save_url.txt",encoding='utf-8')# 读取之前保存的url
for line in file:urlLinks.append(line)
file.close()print(len(urlLinks))
print(urlLinks)for link in urlLinks:try:news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)if len(news.text)>256:counts1=counts1+1else:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts2 = counts2 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')print('counts1:'+str(counts1))print('counts2:'+str(counts2))except Exception as e:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts3 = counts3 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')
print('第一成功率：'+str(counts1/len(urlLinks)*100)+'%')
print('第二成功率：'+str((counts2+counts1)/len(urlLinks)*100)+'%')
print('counts3:' + str(counts3))

结果展示：

Python 提取网页正文，将网页转为图片!相关推荐

通过Python的pdfplumber库将pdf转为图片
文章目录前言一.pdfplumber库是什么? 二.安装pdfplumber库三.查看pdfplumber库版本四.pdf素材五.将pdf转为图片 1.引入库 2.定义pdf路径 3.打开P ...
python提取html正文为txt,python 提取html文本的方法
假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记.通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml.这是一个经过充分测试的解决方案, ...
Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
Python提取word文档中的图片，识别图片文字之后再转存为word文档
#!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytess ...
python pdf 图片_第一节：python提取PDF文档中的图片
1.安装第三方类库pymupdf:pip install pymupdf 2.安装完成后直接上代码,代码如下: import fitz import time import re import os ...
python提取pdf中的文字和图片_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）...
PDF文件格式如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...
Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
使用正则表达式提取百度贴吧网页中的楼主发的图片 # -*- coding:utf-8 - import re #正则模块 import urllib2 import urllib#使用正则表达式提取百 ...
php 正文提取算法,基于机器学习的网页正文提取方法
摘要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...
python 网页版笔记_【Python笔记】Python网页正文抽取工具
本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...

Python 提取网页正文，将网页转为图片!

Python 提取网页正文，将网页转为图片!！！

Python 提取网页正文，将网页转为图片!相关推荐

最新文章

热门文章