本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。
  程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。

实现代码如下:

import time
from urllib.request import urlretrieve
import subprocess
from selenium import webdriverdriver = webdriver.PhantomJS('./phantomjs')# 加载页面
driver.get("https://www.amazon.cn/War-Peace-Leo-Nijolayevich-Tolstoy/dp/1427030200")
# 等待页面加载完毕
time.sleep(2)# 点击
driver.find_element_by_id("imgThumbs").click()
imageList = set()
# 等待点击后弹出模态框
time.sleep(2)
for i in range(0, 2):driver.find_element_by_id("ig-thumb-" + str(i)).click()time.sleep(1)image = driver.find_element_by_id("igImage").get_attribute("src")imageList.add(image)driver.quit()# 打印找到的图片
print(imageList)#
for image in sorted(imageList):urlretrieve(image, "page.jpg")p = subprocess.Popen(["tesseract", "page.jpg", "page"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)p.wait()f = open("page.txt", "r")print(f.read())

程序输出结果如下:

(wwmwlvrvm

o a,
Wham mag

Way and Peace

m, Nmuymh mm
Wm is m m

虽然识别的不太准确,但是机器很容易识别的识别到了

Python爬虫之从网站图片中抓取文字相关推荐

  1. 第十一章 从网站图片中抓取文字

    #!/usr/bin/env python # _*_ coding:utf-8 _*_ #这一节是数144页从网站图片抓取文字的代码, #需要安装tesseract,它是开源的可以通过训练识别出字体 ...

  2. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  3. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  4. python爬虫教程,带你抓取百度的高清摄影图片

    python爬虫教程,带你抓取百度的高清摄影图片 源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...

  5. Python爬虫成长之路:抓取证券之星的股票数据(转)

    获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...

  6. python爬虫:使用scrapy框架抓取360超清壁纸(10W+超清壁纸等你来爬)

    目的:闲着无聊,利用爬虫爬取360超清壁纸,并将其数据存储至MongoDB/MySQL中,将图片下载至指定文件夹. 要求:确保以安装MongoDB或者MySQL数据库.scrapy框架也肯定必须有的: ...

  7. python爬虫之scrapy初试与抓取链家成交房产记录

    接上一篇文章,本机安装好python之后和scrapy之后,我们开始学习使用scrapy创建爬虫程序. 今天先来点简单的,不那么复杂,先看看抓取链家网里面的房价信息. 首先使用CMD命令行进入F盘创建 ...

  8. 基于Python爬虫的股票成交量数据抓取分析系统

    目录 数据获取 2 1.1. 实验环境搭建 2 1.2. 抓取数据 2 1.2.1. 新浪财经 3 1.2.2. 网易财经 6 1.2.3. 东方财富 12 1.2.4. TuShare (挖地兔) ...

  9. python爬虫之使用BeautifulSoup模块抓取500彩票网竞彩足球赛果及赔率

    目录 前言 分析思路 数据储存 代码 结果展示 结语 前言 竞彩足球是目前比较受欢迎的一种体彩彩种,玩法较为灵活多样,赔率可观,今天就来记录一下如何抓取竞彩足球的开奖信息和赔率. 分析思路 我使用的网 ...

最新文章

  1. python学习 爬取亚马逊网页,失败后。修改HTTP报文头部后成功!
  2. 2020 Java 面试高薪攻略.pdf
  3. wxWidgets编程笔记二(samples使用设置)
  4. 今天 我的博客正式建立了
  5. 老鸟谈画图能力对运维人员的重要性
  6. 一下科技完成5亿美元E轮融资,神策助力秒拍实现数据驱动
  7. linux下利用valgrind工具进行内存泄露检测和性能分析
  8. MySQL binlog和redo/undo的概念
  9. 多个小int的乘法小心溢出哦(记洛谷P1615题WA的经历,Java语言描述)
  10. 垂直柱状图(洛谷-P1598 )
  11. 字符串反转python 测试_Python中的反转字符串问题
  12. 关于java前端的相关讲解
  13. 遗传算法(Python)
  14. 产生式系统的设计及代码实现(植物识别系统)
  15. ha linux 设置虚拟ip_配置双机HA - Linux下环境安装配置Rose HA全攻略(图)_数据库技术_Linux公社-Linux系统门户网站...
  16. CRM客户管理系统源码,基于ThinkPHP开发
  17. 蚂蚁金服×西安银行 | 西安银行手机银行App的智能升级之路 1
  18. 上海远丰:打破双11魔咒,让企业电商两条腿走路
  19. DIY:制作一个语音识别的空调遥控器
  20. Saiku设置展示table数据不隐藏空的行数据信息(二十六)

热门文章

  1. 【高级微观经济学】厂商理论:生产技术与生产函数
  2. 服务器个别目录下不能新建文件夹,域服务器不能创建sysvol和netlogon共享文件夹...
  3. Chrome浏览器各版本对应的驱动
  4. Snipaste截图时下拉菜单消失解决方法
  5. 用Python+小程序实现诗词大会的飞花令 !
  6. VS没有CUDA模块问题
  7. Android 名词解释
  8. 你肯定想学习的顶级Python项目(附代码)
  9. 2019牛客暑期多校训练营(第八场) CDMA
  10. 社保入税+国家支持,企业一大法宝:灵活用工