Python爬虫之从网站图片中抓取文字

本程序采用selenium和phantomjs爬取亚马逊图书详情页面，并且使用Tesseract OCR识别图书大图上的文字。
程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框，此时页面的dom会增加，然后点击模态框右边的图片可以进行切换，模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。

实现代码如下：

import time
from urllib.request import urlretrieve
import subprocess
from selenium import webdriverdriver = webdriver.PhantomJS('./phantomjs')# 加载页面
driver.get("https://www.amazon.cn/War-Peace-Leo-Nijolayevich-Tolstoy/dp/1427030200")
# 等待页面加载完毕
time.sleep(2)# 点击
driver.find_element_by_id("imgThumbs").click()
imageList = set()
# 等待点击后弹出模态框
time.sleep(2)
for i in range(0, 2):driver.find_element_by_id("ig-thumb-" + str(i)).click()time.sleep(1)image = driver.find_element_by_id("igImage").get_attribute("src")imageList.add(image)driver.quit()# 打印找到的图片
print(imageList)#
for image in sorted(imageList):urlretrieve(image, "page.jpg")p = subprocess.Popen(["tesseract", "page.jpg", "page"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)p.wait()f = open("page.txt", "r")print(f.read())

程序输出结果如下：

(wwmwlvrvm

o a,
Wham mag

Way and Peace

m, Nmuymh mm
Wm is m m

虽然识别的不太准确，但是机器很容易识别的识别到了

Python爬虫之从网站图片中抓取文字相关推荐

第十一章从网站图片中抓取文字
#!/usr/bin/env python # _*_ coding:utf-8 _*_ #这一节是数144页从网站图片抓取文字的代码, #需要安装tesseract,它是开源的可以通过训练识别出字体 ...
python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结 ...
如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
python爬虫教程，带你抓取百度的高清摄影图片
python爬虫教程,带你抓取百度的高清摄影图片源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...
Python爬虫成长之路：抓取证券之星的股票数据(转）
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫：使用scrapy框架抓取360超清壁纸（10W+超清壁纸等你来爬）
目的:闲着无聊,利用爬虫爬取360超清壁纸,并将其数据存储至MongoDB/MySQL中,将图片下载至指定文件夹. 要求:确保以安装MongoDB或者MySQL数据库.scrapy框架也肯定必须有的: ...
python爬虫之scrapy初试与抓取链家成交房产记录
接上一篇文章,本机安装好python之后和scrapy之后,我们开始学习使用scrapy创建爬虫程序. 今天先来点简单的,不那么复杂,先看看抓取链家网里面的房价信息. 首先使用CMD命令行进入F盘创建 ...
基于Python爬虫的股票成交量数据抓取分析系统
目录数据获取 2 1.1. 实验环境搭建 2 1.2. 抓取数据 2 1.2.1. 新浪财经 3 1.2.2. 网易财经 6 1.2.3. 东方财富 12 1.2.4. TuShare (挖地兔) ...
python爬虫之使用BeautifulSoup模块抓取500彩票网竞彩足球赛果及赔率
目录前言分析思路数据储存代码结果展示结语前言竞彩足球是目前比较受欢迎的一种体彩彩种,玩法较为灵活多样,赔率可观,今天就来记录一下如何抓取竞彩足球的开奖信息和赔率. 分析思路我使用的网 ...

Python爬虫之从网站图片中抓取文字

Python爬虫之从网站图片中抓取文字相关推荐

最新文章

热门文章