Python爬虫之从网站图片中抓取文字
本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。
程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。
实现代码如下:
import time
from urllib.request import urlretrieve
import subprocess
from selenium import webdriverdriver = webdriver.PhantomJS('./phantomjs')# 加载页面
driver.get("https://www.amazon.cn/War-Peace-Leo-Nijolayevich-Tolstoy/dp/1427030200")
# 等待页面加载完毕
time.sleep(2)# 点击
driver.find_element_by_id("imgThumbs").click()
imageList = set()
# 等待点击后弹出模态框
time.sleep(2)
for i in range(0, 2):driver.find_element_by_id("ig-thumb-" + str(i)).click()time.sleep(1)image = driver.find_element_by_id("igImage").get_attribute("src")imageList.add(image)driver.quit()# 打印找到的图片
print(imageList)#
for image in sorted(imageList):urlretrieve(image, "page.jpg")p = subprocess.Popen(["tesseract", "page.jpg", "page"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)p.wait()f = open("page.txt", "r")print(f.read())
程序输出结果如下:
(wwmwlvrvm
o a,
Wham magWay and Peace
m, Nmuymh mm
Wm is m m
虽然识别的不太准确,但是机器很容易识别的识别到了
Python爬虫之从网站图片中抓取文字相关推荐
- 第十一章 从网站图片中抓取文字
#!/usr/bin/env python # _*_ coding:utf-8 _*_ #这一节是数144页从网站图片抓取文字的代码, #需要安装tesseract,它是开源的可以通过训练识别出字体 ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
- 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
- python爬虫教程,带你抓取百度的高清摄影图片
python爬虫教程,带你抓取百度的高清摄影图片 源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...
- Python爬虫成长之路:抓取证券之星的股票数据(转)
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
- python爬虫:使用scrapy框架抓取360超清壁纸(10W+超清壁纸等你来爬)
目的:闲着无聊,利用爬虫爬取360超清壁纸,并将其数据存储至MongoDB/MySQL中,将图片下载至指定文件夹. 要求:确保以安装MongoDB或者MySQL数据库.scrapy框架也肯定必须有的: ...
- python爬虫之scrapy初试与抓取链家成交房产记录
接上一篇文章,本机安装好python之后和scrapy之后,我们开始学习使用scrapy创建爬虫程序. 今天先来点简单的,不那么复杂,先看看抓取链家网里面的房价信息. 首先使用CMD命令行进入F盘创建 ...
- 基于Python爬虫的股票成交量数据抓取分析系统
目录 数据获取 2 1.1. 实验环境搭建 2 1.2. 抓取数据 2 1.2.1. 新浪财经 3 1.2.2. 网易财经 6 1.2.3. 东方财富 12 1.2.4. TuShare (挖地兔) ...
- python爬虫之使用BeautifulSoup模块抓取500彩票网竞彩足球赛果及赔率
目录 前言 分析思路 数据储存 代码 结果展示 结语 前言 竞彩足球是目前比较受欢迎的一种体彩彩种,玩法较为灵活多样,赔率可观,今天就来记录一下如何抓取竞彩足球的开奖信息和赔率. 分析思路 我使用的网 ...
最新文章
- python学习 爬取亚马逊网页,失败后。修改HTTP报文头部后成功!
- 2020 Java 面试高薪攻略.pdf
- wxWidgets编程笔记二(samples使用设置)
- 今天 我的博客正式建立了
- 老鸟谈画图能力对运维人员的重要性
- 一下科技完成5亿美元E轮融资,神策助力秒拍实现数据驱动
- linux下利用valgrind工具进行内存泄露检测和性能分析
- MySQL binlog和redo/undo的概念
- 多个小int的乘法小心溢出哦(记洛谷P1615题WA的经历,Java语言描述)
- 垂直柱状图(洛谷-P1598 )
- 字符串反转python 测试_Python中的反转字符串问题
- 关于java前端的相关讲解
- 遗传算法(Python)
- 产生式系统的设计及代码实现(植物识别系统)
- ha linux 设置虚拟ip_配置双机HA - Linux下环境安装配置Rose HA全攻略(图)_数据库技术_Linux公社-Linux系统门户网站...
- CRM客户管理系统源码,基于ThinkPHP开发
- 蚂蚁金服×西安银行 | 西安银行手机银行App的智能升级之路 1
- 上海远丰:打破双11魔咒,让企业电商两条腿走路
- DIY:制作一个语音识别的空调遥控器
- Saiku设置展示table数据不隐藏空的行数据信息(二十六)