5分钟让你在大火的多模态领域权威榜单VQA上超越人类
ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态预训练视觉问答模型mPLUG,小编激动的搓搓小手,迫不及待的体验了一下。
一探:浅草才能没马蹄
市面上有好多号称“用户上手简单”,“一步到位”,“傻瓜式”,但是真的,如果不懂两三行代码,没有一些机器学习基础,不趟几次浑水,是真的没办法上手的。浅草才能没马蹄,ModelScope真的做到了,一步即可体验,所见即所得,没有任何的冗余,如丝般顺滑的的在线体验。
一步,点击「执行测试」,有手就行
那么这个号称超人类的模型怎么样呢?小编马上开始测试模型!就拿小编最近去西双版纳的图片来测试!!!西双版纳是中国热带生态系统保存最完整的地区,素有“植物王国”、“动物王国”、“生物基因库”、“植物王国桂冠上的一颗绿宝石”等美称。同时西双版纳还有好多好吃的,舂鸡脚、泰国菜、孔雀宴、老挝冰咖啡、小菠萝、傣式烧烤等等。
测完之后,真服了,真的是全知全能的问答模型,无论问物种、问数量、问位置,模型都能回答出来。图中小编刚认识的睡莲(lily pads)--泰国的国花都是精准无比,还有图4也能把背景中大象也能识别出来,实在太厉害了!
小编又想了个办法,我要测试孔雀&孔雀舞,这下终于难倒了模型!
二探:觉知此事要躬行
遇到这么强的模型,小编当然想深刻了解一下,觉知此事要躬行嘛!其实是想自己拥有一个,将来出去玩的时候可以把导游费给省了。ModelScope也为我考虑到了,右上角「在Notebook中打开」,点它!这里有CPU环境和GPU环境,看到GPU,小编眼睛都直了,这不就是和3090Ti齐名的V100,如此高性能的GPU,羊毛党果断薅一下。
测试过程非常流程,只需要会import就能实现整体流程,小编也整理了相关代码放出来可以使用!
###
!pwd
!mkdir data
!wget http://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/visual-question-answering/visual_question_answering.png -O data/visual_question_answering.png###
from PIL import Image
image = Image.open('data/visual_question_answering.png')
image.show()###
from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = 'damo/mplug_visual-question-answering_coco_large_en'
input_vqa = {'image': Image.open('data/visual_question_answering.png'),'question': 'What is grown on the plant?',
}pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)
print(pipeline_vqa(input_vqa))
为了方便大家,小编也把运行中间步骤展示出来,这样无论是小白还是新手,都可以玩起来了。
离部署只差最后一步了,用gradio就可以满足你,按照文档提示即可完成。
三探:无招胜有招
多模态预训练模型mPLUG是建立在千万图文数据预训练的基础上,小编就想探究下模型是不是真的都学会了吗?最近文本生成图像模型DALLE和扩散模型开始如火如荼根据文本生成各种想象的图片,小编就想对于这些生成出来的图片,视觉问答模型mPLUG还可以正确回答吗?会不会因为没见过类似的样本就没有办法回答呀?
小编先尝试了对大名鼎鼎的DALLE生成的图像进行问答,DALLE是OpenAI放出的文本生成图像模型,取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。测试之后,看看下面的结果,连艺术家dali都能识别出来,不愧是见多识广,知识也太渊博了!
###
from modelscope.msdatasets import MsDataset
# from icecream import ic
dataset = MsDataset.load('vqa_trial', subset_name='vqa_trial', split="test")
print(dataset[0])def resize_img(img):# set the base width of the resultbasewidth = 300# determining the height ratiowpercent = (basewidth/float(img.size[0]))hsize = int((float(img.size[1])*float(wpercent)))# resize image and saveimg = img.resize((basewidth,hsize), Image.ANTIALIAS)return imgresize_img(dataset[0]['image']).show()###
from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = 'damo/mplug_visual-question-answering_coco_large_en'
pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)for item in dataset:input_vqa = {'image': item['image'],'question': item['question'],}answer = pipeline_vqa(input_vqa)resize_img(item['image']).show()print('Q: ' + item['question'])print('A: ' + answer['text'])
同时小编也拿了ModelScope上的文生图模型进行测试,测试结果如下:
可以看到视觉问答模型mPLUG具有非常强的泛化能力,针对各种生成的图片,各个不同领域的来源,都能回答正确。这就是训练了千万次,理解了视觉特征之后,达到了“无招胜有招”,实际测试中就可以融会贯通!
结语
到这里就结束了,赶紧上ModelScope一键体验超人类的视觉问答模型,一键直达:https://www.modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/summary 。
原文链接
本文为阿里云原创内容,未经允许不得转载。
5分钟让你在大火的多模态领域权威榜单VQA上超越人类相关推荐
- 再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了. 近日, ...
- 重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,并登顶权威榜单VCR
** 关注[百度NLP]微信官方公众号,及时获取更多自然语言处理技术干货! ** 阅读原文,获取相关论文地址:https://mp.weixin.qq.com/s/nB_yCkEXkgjv7saKpc ...
- 3分钟入门python_3分钟学完Python,直接从入门到精通「史上最强干货库」
作为帅气小编,我已经把python一些模块的甩在这儿了qwq,只要你拿到这些干货,包你玩转python,直接冲向"大佬"的段位,如果已经学了C或者C++或者说如果你需要你的一段关键 ...
- NLP领域最近比较火的Prompt,能否借鉴到多模态领域?一文跟进最新进展
©PaperWeekly 原创 · 作者 | 杨浩 研究方向 | 自然语言处理 #01. VL-T5 论文标题: Unifying Vision-and-Language Tasks via Tex ...
- BERT在多模态领域中的应用
©PaperWeekly 原创 · 作者|李明晓 学校|鲁汶大学博士生 研究方向|自然语言处理 BERT (Bidrectional Encoder Representations from Tran ...
- 请使用recaptcha_如何在30分钟内使用ReCaptcha和PHP构建Bootstrap电子邮件表单
请使用recaptcha by Ondrej Svestka 通过Ondrej Svestka 如何在30分钟内使用ReCaptcha和PHP构建Bootstrap电子邮件表单 (How to bui ...
- 数据 3 分钟 | PolarDB、OceanBase 相继宣布开源;OceanBase 斩获 TPC-H 榜单第一
数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦-三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布.公司大事件.行业新闻等. 本期内容概览 ...
- CLIP:多模态领域革命者
CLIP:多模态领域革命者 当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18 ...
- 极智AI | 多模态领域先行者 详解 CLIP 算法实现
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享 大家好,我是极智视界,本文详细介绍一下 CLIP 算法的设计与实现,包括代码. 多模态一定不是一个新鲜的话语,随着 AI 的发展,也 ...
最新文章
- Yii-yiic使用
- 就想写个爬虫,我到底要学多少东西啊?
- 一张图看Windows Store有多混乱 微软现在开始整治
- java String format占位符
- 机器学习中的lazy method与eager method的比较
- Emachines Em350拆机更换键盘详细流程
- Android开发 ---多线程操作:Handler对象,消息队列,异步任务下载
- 快速入门python_一天快速入门 Python
- springboot实战pdf_腾讯架构师Spring Boot实战篇(PDF文档)
- ubuntu重装显卡驱动
- C++ - Opencv模板匹配与块匹配
- 通过新版阿里ACE认证,实验操作题你来解一下
- vtuber面部捕捉工具_如何做一名VTuber?一个VUP就足够
- 毕业论文致谢(转自上交硕士论文)
- Flink 实时计算 - 进阶篇(如何自定义 Data Source 与 Data Sink)
- Guava-Splitter工具类
- 头同尾合十的算法_尾同头合十或头同尾合十等的速算方法word精品
- Dell清除BIOS密码及硬盘锁
- 笨方法学python习题4
- 百度地图开发实战案例:根据起点和终点计算路程和时间