python 抓取猫眼电影评分
目标网页
完整代码:
from selenium import webdriver
from PIL import Image
from io import BytesIO
import time
import pytesseract# 定义缩放比例
scale = 1.0driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("https://maoyan.com/films/410629")
time.sleep(2)# 让背景变白色和文字黑色,使它更容易进行识别
driver.execute_script('document.querySelector(".banner").style.background = "white"')
driver.execute_script('document.querySelector(".stonefont").style.color = "black"')# 截屏整体
png_img = driver.get_screenshot_as_png()
img = Image.open(BytesIO(png_img))# 寻找元素
span_el = driver.find_element_by_xpath('//span[@class="index-left info-num "]/span[@class="stonefont"]')#(".index-left.info-num")
print(span_el)# 获取元素位置
location = span_el.location
left = int(location["x"]) * scale
top = int(location["y"]) * scale
print(location)
size = span_el.size
# size = {
# "width":400,
# "height":400
# }
right = left + int(size["width"]) * scale
bottom = top + int(size["height"]) * scale# 构建截图
cut_info = (left,top,right,bottom)
print(cut_info)
img.save("test1.png")# 截取识别图片
img = img.crop(cut_info)# 获取最终结果
print("结果:",pytesseract.image_to_string(img,config="-psm 7"))
img.save('test2.png')driver.quit()
python 抓取猫眼电影评分相关推荐
- Python 抓取猫眼电影TOP100数据
文章目录 1. 利用 requests 库和正则表达式抓取猫眼电影 TOP100 的相关内容 (1)[猫眼电影网址](https://maoyan.com/board/4?offset=0)如下,共1 ...
- python抓取猫眼电影评论,200多行代码,哈哈
先展示,结果,爬取保存的txt. 先把评论给抓下来,后面再做jieba云词分析,geo评论区域 分布 直接上接口api,不犯法吧.大家都知道~~~ http://m.maoyan.com/mmdb/c ...
- python爬取猫眼电影评分反反爬方式
一.所需工具 FontCreator 二.问题引入 我们用Chrome登录电影<死侍2>的主页,查看页面信息,会发现用户评分出现乱码两个方框: 再查看这个地方的html源代码: 是类似一个 ...
- python爬取猫眼电影评分
直接上代码 import datetime import json from multiprocessing.dummy import Pool from time import localtime, ...
- 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
- python猫眼电影分析_抓取猫眼电影
注意:抓取内容之前一定要查看下Robots协议 1.准备工作 1>第一步,安装python,安装requests.json库. 2.抓取分析 1>接下来我们打开网页分析下猫眼电影排行榜 2 ...
- 【python教程入门学习】Python爬虫抓取猫眼电影排行榜
本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜(https://maoyan.com/board/4)影片信息,包括电影名称.上映时间.主演信息. 在开始编写程序之前,首先要确定页面 ...
- 【python】抓取猫眼电影排行
抓取猫眼电影上面Top100榜单,抓取的内容有电影名称,主演,上映时间,图片,得分等信息.抓取的内容以文件形式保存,地址为https://maoyan.com/board/4 1.分析 该榜单页面如下 ...
- Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)...
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
最新文章
- Oracle 11g 新特性 -- Transparent Data Encryption (透明数据加密TDE) 增强 说明
- iOS UITextView 随键盘弹出界面上移
- 分布式锁选型背后的架构设计思维【附源码】
- POJ1942-Paths on a Grid
- 用计算机进行资料检索工作是,用计算机进行资料检索工作是属于计算机应用中的什么...
- 深拷贝、浅拷贝以及引用传递和按值传递的区别与联系
- xtrabackup mysql 5.6_percona-xtrabackup工具实现mysql5.6.34的主从同步复制
- arcengine遍历属性表_Redis源码解析四--跳跃表
- C语言窗口布局,Android开发入门之学习笔记(四):程序窗口的布局(二)
- 阿里云地域节点物理机房所在城市对照表(大陆节点+海外节点)...
- Transaction rolled back because it has rollback-only
- 《算法竞赛入门经典》习题及反思 -2
- GitHub中文社区
- python官网下载非常慢解决方法
- python seo快排_流量贩子GoGo闯:SEO黑帽点击快排发包+Python应用软件编程技术
- 技巧篇:常用的R代码汇总
- 计算机考研山西大学和太原理工大学,山西大学和太原理工大学,山西省内的两所知名高校,哪所更强?...
- Java中怎么将Long类型转换成Integer或int类型
- 较于微信红包,支付宝AR红包是个好产品吗?
- 项目风险应对策略总结
热门文章
- 038 Divisible Subsequences
- JS获取浏览器类型和版本信息
- 1058. 选择题(20)-PAT乙级真题
- c语言小鱼的游泳时间,小鱼系列简单题参考代码
- element el-input设置只能输入数字 而且限制最大值
- image target behaviour 和image target的关系_Behance大神为你揭秘任天堂、Target的UI为何这样设计?...
- First-chance exception in KERNEL32.DLL 0xE06D7363 Microsoft C++ Exception
- 数据分析-思维分析逻辑day02
- 微信运动_刷步思路+Python源码+云部署(持续更新)_一蓑烟雨任平生
- (混沌系统)图像加密之Logistic混沌映射matlab仿真