ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态预训练视觉问答模型mPLUG,小编激动的搓搓小手,迫不及待的体验了一下。

一探:浅草才能没马蹄

市面上有好多号称“用户上手简单”,“一步到位”,“傻瓜式”,但是真的,如果不懂两三行代码,没有一些机器学习基础,不趟几次浑水,是真的没办法上手的。浅草才能没马蹄,ModelScope真的做到了,一步即可体验,所见即所得,没有任何的冗余,如丝般顺滑的的在线体验。

一步,点击「执行测试」,有手就行

那么这个号称超人类的模型怎么样呢?小编马上开始测试模型!就拿小编最近去西双版纳的图片来测试!!!西双版纳是中国热带生态系统保存最完整的地区,素有“植物王国”、“动物王国”、“生物基因库”、“植物王国桂冠上的一颗绿宝石”等美称。同时西双版纳还有好多好吃的,舂鸡脚、泰国菜、孔雀宴、老挝冰咖啡、小菠萝、傣式烧烤等等。

测完之后,真服了,真的是全知全能的问答模型,无论问物种、问数量、问位置,模型都能回答出来。图中小编刚认识的睡莲(lily pads)--泰国的国花都是精准无比,还有图4也能把背景中大象也能识别出来,实在太厉害了!

小编又想了个办法,我要测试孔雀&孔雀舞,这下终于难倒了模型!

二探:觉知此事要躬行

遇到这么强的模型,小编当然想深刻了解一下,觉知此事要躬行嘛!其实是想自己拥有一个,将来出去玩的时候可以把导游费给省了。ModelScope也为我考虑到了,右上角「在Notebook中打开」,点它!这里有CPU环境和GPU环境,看到GPU,小编眼睛都直了,这不就是和3090Ti齐名的V100,如此高性能的GPU,羊毛党果断薅一下。

测试过程非常流程,只需要会import就能实现整体流程,小编也整理了相关代码放出来可以使用!

###
!pwd
!mkdir data
!wget http://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/visual-question-answering/visual_question_answering.png -O data/visual_question_answering.png###
from PIL import Image
image = Image.open('data/visual_question_answering.png')
image.show()###
from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = 'damo/mplug_visual-question-answering_coco_large_en'
input_vqa = {'image': Image.open('data/visual_question_answering.png'),'question': 'What is grown on the plant?',
}pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)
print(pipeline_vqa(input_vqa))

为了方便大家,小编也把运行中间步骤展示出来,这样无论是小白还是新手,都可以玩起来了。

离部署只差最后一步了,用gradio就可以满足你,按照文档提示即可完成。

三探:无招胜有招

多模态预训练模型mPLUG是建立在千万图文数据预训练的基础上,小编就想探究下模型是不是真的都学会了吗?最近文本生成图像模型DALLE和扩散模型开始如火如荼根据文本生成各种想象的图片,小编就想对于这些生成出来的图片,视觉问答模型mPLUG还可以正确回答吗?会不会因为没见过类似的样本就没有办法回答呀?

小编先尝试了对大名鼎鼎的DALLE生成的图像进行问答,DALLE是OpenAI放出的文本生成图像模型,取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。测试之后,看看下面的结果,连艺术家dali都能识别出来,不愧是见多识广,知识也太渊博了!

###
from modelscope.msdatasets import MsDataset
# from icecream import ic
dataset = MsDataset.load('vqa_trial', subset_name='vqa_trial', split="test")
print(dataset[0])def resize_img(img):# set the base width of the resultbasewidth = 300# determining the height ratiowpercent = (basewidth/float(img.size[0]))hsize = int((float(img.size[1])*float(wpercent)))# resize image and saveimg = img.resize((basewidth,hsize), Image.ANTIALIAS)return imgresize_img(dataset[0]['image']).show()###
from PIL import Image
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksmodel_id = 'damo/mplug_visual-question-answering_coco_large_en'
pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)for item in dataset:input_vqa = {'image': item['image'],'question': item['question'],}answer = pipeline_vqa(input_vqa)resize_img(item['image']).show()print('Q: ' + item['question'])print('A: ' + answer['text'])

同时小编也拿了ModelScope上的文生图模型进行测试,测试结果如下:

可以看到视觉问答模型mPLUG具有非常强的泛化能力,针对各种生成的图片,各个不同领域的来源,都能回答正确。这就是训练了千万次,理解了视觉特征之后,达到了“无招胜有招”,实际测试中就可以融会贯通!

结语

到这里就结束了,赶紧上ModelScope一键体验超人类的视觉问答模型,一键直达:https://www.modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/summary 。

原文链接

本文为阿里云原创内容,未经允许不得转载。

5分钟让你在大火的多模态领域权威榜单VQA上超越人类相关推荐

  1. 再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了. 近日, ...

  2. 重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,并登顶权威榜单VCR

    ** 关注[百度NLP]微信官方公众号,及时获取更多自然语言处理技术干货! ** 阅读原文,获取相关论文地址:https://mp.weixin.qq.com/s/nB_yCkEXkgjv7saKpc ...

  3. 3分钟入门python_3分钟学完Python,直接从入门到精通「史上最强干货库」

    作为帅气小编,我已经把python一些模块的甩在这儿了qwq,只要你拿到这些干货,包你玩转python,直接冲向"大佬"的段位,如果已经学了C或者C++或者说如果你需要你的一段关键 ...

  4. NLP领域最近比较火的Prompt,能否借鉴到多模态领域?一文跟进最新进展

     ©PaperWeekly 原创 · 作者 | 杨浩 研究方向 | 自然语言处理 #01. VL-T5 论文标题: Unifying Vision-and-Language Tasks via Tex ...

  5. BERT在多模态领域中的应用

    ©PaperWeekly 原创 · 作者|李明晓 学校|鲁汶大学博士生 研究方向|自然语言处理 BERT (Bidrectional Encoder Representations from Tran ...

  6. 请使用recaptcha_如何在30分钟内使用ReCaptcha和PHP构建Bootstrap电子邮件表单

    请使用recaptcha by Ondrej Svestka 通过Ondrej Svestka 如何在30分钟内使用ReCaptcha和PHP构建Bootstrap电子邮件表单 (How to bui ...

  7. 数据 3 分钟 | PolarDB、OceanBase 相继宣布开源;OceanBase 斩获 TPC-H 榜单第一

    数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦-三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布.公司大事件.行业新闻等. 本期内容概览 ...

  8. CLIP:多模态领域革命者

    CLIP:多模态领域革命者 当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18 ...

  9. 极智AI | 多模态领域先行者 详解 CLIP 算法实现

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文详细介绍一下 CLIP 算法的设计与实现,包括代码.   多模态一定不是一个新鲜的话语,随着 AI 的发展,也 ...

最新文章

  1. Yii-yiic使用
  2. 就想写个爬虫,我到底要学多少东西啊?
  3. 一张图看Windows Store有多混乱 微软现在开始整治
  4. java String format占位符
  5. 机器学习中的lazy method与eager method的比较
  6. Emachines Em350拆机更换键盘详细流程
  7. Android开发 ---多线程操作:Handler对象,消息队列,异步任务下载
  8. 快速入门python_一天快速入门 Python
  9. springboot实战pdf_腾讯架构师Spring Boot实战篇(PDF文档)
  10. ubuntu重装显卡驱动
  11. C++ - Opencv模板匹配与块匹配
  12. 通过新版阿里ACE认证,实验操作题你来解一下
  13. vtuber面部捕捉工具_如何做一名VTuber?一个VUP就足够
  14. 毕业论文致谢(转自上交硕士论文)
  15. Flink 实时计算 - 进阶篇(如何自定义 Data Source 与 Data Sink)
  16. Guava-Splitter工具类
  17. 头同尾合十的算法_尾同头合十或头同尾合十等的速算方法word精品
  18. Dell清除BIOS密码及硬盘锁
  19. 笨方法学python习题4
  20. 百度地图开发实战案例:根据起点和终点计算路程和时间

热门文章

  1. 硬盘分区并且重新格式化之后的数据恢复
  2. 程序员工资可以比别人低,但是斗图撩妹不能怂!
  3. 牛顿问题(牛吃草问题)-python题解
  4. pyspider爬取王者荣耀数据(下)
  5. 硬件测试工程师(FPGA)常用英语单词
  6. 3纠结的刺:当专家还是管理者 1
  7. Java数组作为方法参数
  8. linux中的shuf命令
  9. 惠普LaserJet Pro MFP m132nw连接wifi
  10. stm32的VCC/VDD/VSS/VEE/VBAT/VREF的区别与联系