Python 提取网页正文,将网页转为图片!
Python 提取网页正文,将网页转为图片!!!
用到python的newspaper库
from newspaper import Article
news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)
计算识别长度是否合格
不合格的从URL访问网页转成图片提取
(为什么不直接提取html中的文字:转成图片成功率更大,且去除html标签有js残留)
图1 counts1为从源码中去除html标签的成功率
图2 counts1为URL访问网页转成图片的成功率PS:只要转成图片必能识别文字
URL访问网页转成图片:
import imgkitpath_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe' # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)
全部代码附上:
import urllib
from newspaper import Article
import imgkit
import urllib.request
from selenium import webdriver
from getHtml import getUse
counts1=0
counts2=0
counts3=0
num=0
urlLinks = []
file= open("save_url.txt",encoding='utf-8')# 读取之前保存的url
for line in file:urlLinks.append(line)
file.close()print(len(urlLinks))
print(urlLinks)for link in urlLinks:try:news = Article(link.strip(), language='zh')news.download()news.parse()print(news.text)if len(news.text)>256:counts1=counts1+1else:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe' # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts2 = counts2 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')print('counts1:'+str(counts1))print('counts2:'+str(counts2))except Exception as e:try:path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe' # 工具路径cfg = imgkit.config(wkhtmltoimage=path_wkimg)imgkit.from_url(link, str(num) + '.jpg', config=cfg)counts1 = counts1 + 1num=num+1;print('---------------------图片获取成功----------------------')except Exception as e:counts3 = counts3 + 1print('---------------------图片获取失败----------------------')print('-------------------------------------------------------------------------------------------------------')
print('第一成功率:'+str(counts1/len(urlLinks)*100)+'%')
print('第二成功率:'+str((counts2+counts1)/len(urlLinks)*100)+'%')
print('counts3:' + str(counts3))
结果展示:
Python 提取网页正文,将网页转为图片!相关推荐
- 通过Python的pdfplumber库将pdf转为图片
文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.pdf素材 五.将pdf转为图片 1.引入库 2.定义pdf路径 3.打开P ...
- python提取html正文为txt,python 提取html文本的方法
假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记.通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml.这是一个经过充分测试的解决方案, ...
- Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
- Python提取word文档中的图片,识别图片文字之后再转存为word文档
#!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytess ...
- python pdf 图片_第一节:python提取PDF文档中的图片
1.安装第三方类库pymupdf:pip install pymupdf 2.安装完成后直接上代码,代码如下: import fitz import time import re import os ...
- python提取pdf中的文字和图片_Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)...
PDF文件格式 如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
使用正则表达式提取百度贴吧网页中的楼主发的图片 # -*- coding:utf-8 - import re #正则模块 import urllib2 import urllib#使用正则表达式提取百 ...
- php 正文提取算法,基于机器学习的网页正文提取方法
摘 要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...
- python 网页版笔记_【Python笔记】Python网页正文抽取工具
本文信息本文由方法SEO顾问发表于2016-05-2018:48:27,共 1153 字,转载请注明:[Python笔记]Python网页正文抽取工具_[方法SEO顾问],如果我网站的文章对你有所帮助 ...
最新文章
- JavaScript中的JS引擎的执行机制
- 从蜘蛛网到物联网 这张网人类织了多久?
- mysql docker 制作_docker 制作自己的mysql镜像
- 对Unity的Resources目录进行改名
- asp.net core源码飘香:Configuration组件
- P4301-[CQOI2013]新Nim游戏【线性基】
- gram矩阵_Skip-gram
- 语言语法糖_【c#】几种常用语法糖
- js微信监听返回_微信小程序(2)- 框架结构amp;运行环境
- 图片查看器 bmp jpg png 动态gif office 2007风格
- 大数据之-Hadoop3.x_MapReduce_MapJoin案例完成---大数据之hadoop3.x工作笔记0134
- 便携式办公套件LibreOffice Portable 4.0.1
- 认识Java虚拟机的基本结构
- 如何将MySQL卸载干净?
- 百度收录自动化提交脚本 - python
- SEP12.1.2现在支持自动卸载其他某些杀毒软件
- 2400字整理Python编码规范,肝了一晚上~
- 微PEU盘如何还原成普通U盘
- C++ define的用法
- vscode-remote 无法写入文件“vscode-remote://ssh-remote