12月6日,PaddleMM在木兰开源社区TOC评审会上投票通过。按照章程,PaddleMM最终准入木兰开源社区进行孵化。木兰社区提供2名项目导师进行后续指导,飞桨也将一如既往为项目提供技术支持。欢迎广大开发者关注和使用PaddleMM,期待⼤家的加⼊和对PaddleMM的不断完善。

关于PaddleMM

‍‍‍

PaddleMM是由南京理工大学和百度共同发起的基于飞桨实现的开源多模态学习工具包。该项目提供了模态联合学习和跨模态学习算法模型库,为处理多模态数据提供高效的解决方案,助力多模态学习应用落地。

PaddleMM特性:

  • 丰富的任务场景:工具包提供多模态融合、跨模态检索、图文生成等多种多模态学习任务算法模型,支持用户自定义数据和训练;‍

  • 成功的工业应用:基于工具包算法已有相关落地应用,如球鞋真伪鉴定、图像字幕生成、舆情监控等。

PaddleMM贡献者:

  • 南京理工大学KMG小组

  • 百度人才智库TIC部门

  • 百度飞桨PaddlePaddle 开发团队

PaddleMM项目地址:

https://gitee.com/njustkmg/Mulan-PaddleMM

关于木兰开源社区

“木兰开源社区”建立于2019年8月,是国家重点研发计划重点专项“云计算和大数据开源社区生态系统”的核心成果。旨在促进产学研用各方开源领域的交流,推动国家科技创新成果开源,加强企业、科教研单位和行业用户之间的沟通,推动开源成果转化落地。同时,为各类开源项目提供中立托管,保证开源项目的持续发展不受第三方影响,通过更加开放的方式来打造和完善开源社区生态。

PaddleMM项目现状

PaddleMM应用展示

部分应用展示如下

球鞋真伪鉴定

智能招聘简历分析

PaddleMM项目架构

PaddleMM主要由以下三个模块组成:

  • 数据处理:提供统一的数据接口和多种数据处理格式;

  • 模型调用:包括多模态融合、跨模态检索、图文生成、多任务算法;

  • 训练评估:对每种任务设置统一的训练流程和相关指标计算。

自定义数据和训练示例
from paddlemm import PaddleMM# config: Model running parameters, see configs/
# data_root: Path to dataset
# image_root: Path to images
# gpu: Which gpu to userunner = PaddleMM(config='configs/cmml.yml',data_root='data/COCO', image_root='data/COCO/images', out_root='experiment/cmml_paddle',gpu=0)runner.train()
runner.test()

数据处理层:主要面向多模态原始数据,提供统一的数据接口与多模态数据处理方式。当前PaddleMM针对媒体数据提供了图像和文本的数据处理接口,后续会针对音频等模态进行数据接口的更新。

模型调用层:内置了面向多任务的数据集调用与模型库。目前模型仓库主要提供针对多模态联合学习、跨模态检索、跨模态图文生成与预训练模型四个部分的经典模型,如NIC、TMC等。后续会不断增加新的多模态任务以及对应的模型。

训练评估层:设定了任务无关的指标运算与训练流程。主要集成了ACC、Recall、CIDER、BLEU、METOR等多模态常用指标并针对当前的模型库提供统一的训练测试流程。

PaddleMM模型库(持续更新中)

PaddleMM包含了模态联合学习、跨模态学习和基于Transformer结构的多任务框架等一系列多模态学习算法。

模态联合学习-融合学习

  • Early (Multi-modal early fusion)

  • Late (Multi-modal late fusion)

  • LMF[1]

  • TMC[2]

模态联合学习-协同训练

  • CMML[3]

跨模态学习-模态翻译

  • ShowAttendTell[4]

  • AoANet[5]

  • CPRC[6]

跨模态学习-模态对齐

  • VSE++[7]

  • SCAN[8]

  • BFAN[9]

  • IMRAM[10]

  • SGRAF[11]

基于 Transformer 结构的多任务框架

  • VILBERT[12]

飞桨与开源

PaddleMM进入木兰开源社区孵化仅仅只是开始,飞桨欢迎广大开发者,为PaddleMM贡献使用反馈,也期待有更多基于飞桨开发的社区开源项目加入进来。飞桨将携手开源社区,对优秀的开源项目提供技术、资源和项目治理等支持。

PaddleMM项目地址:

https://gitee.com/njustkmg/Mulan-PaddleMM

参考文献‍‍‍‍‍‍‍

[1] Efficient Low-rank Multimodal Fusion with Modality-Specific Factors

[2] Trusted Multi-View Classification

[3] Comprehensive Semi-Supervised Multi-Modal Learning

[4] Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

[5] Attention on Attention for Image Captioning

[6] Exploiting Cross-Modal Prediction and Relation Consistency for Semi-Supervised Image Captioning

[7] VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

[8] Stacked Cross Attention for Image-Text Matching

[9] Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching

[10] IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

[11] Similarity Reasoning and Filtration for Image-Text Matching

[12] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

飞桨社区项目PaddleMM正式进入木兰开源社区进行孵化相关推荐

  1. 飞桨AI Studio - 人工智能学习与实训社区

    开源项目 - 飞桨AI Studio - 人工智能学习与实训社区集开放数据.开源算法.免费算力三位一体,为开发者提供高效学习和开发环境https://aistudio.baidu.com/aistud ...

  2. 木兰开源社区分论坛 | ChinaOSC

    ChinaOSC 2022[木兰开源社区]技术论坛将于[2022年8月21日15:00-17:30]在陕西省西安高新国际会议中心[***会议室]召开.[聚焦开源许可证与标准,探索开源发展模式,为国内开 ...

  3. 2022开门红 | 鲸鲮JingOS正式加入可信开源社区共同体

    1月5日,由中国信息通信研究院(以下简称"中国信通院")主办的2021 OSCAR开源先锋日在北京顺利开幕. 鲸鲮旗下JingOS 开源社区凭借在社区治理和运营上的优异表现,成功通 ...

  4. 【声明】DPDK开源社区更名为“DPDK与SPDK开源社区”

    DPDK与SPDK开源社区 更 名 通 知 DPDK开源社区公众号自2016年起进入公众视野,非常感谢大家一直以来的支持.由于网络存储联系日益紧密,同时应广大粉丝要求,即日起"DPDK开源社 ...

  5. 飞桨框架2.0正式版重磅发布,一次端到端的“基础设施”革新

    在人工智能时代,深度学习框架下接芯片,上承各种应用,是"智能时代的操作系统".近期,我国首个自主研发.功能完备.开源开放的产业级深度学习框架飞桨发布了2.0正式版,实现了一次跨时代 ...

  6. 百度飞桨EasyDL桌面版正式上线,没网也能训练AI

    智能时代来临,企业利用人工智能进行智能化升级势在必行.但由于业务性质等客观因素,不少企业在应用 AI 时,受场景网络环境.本地算力限制等,迫切需要满足本地实现高效 AI 开发和部署的解决方案.这也将成 ...

  7. 基于飞桨实现项目1 车牌识别

    文章目录 1 项目介绍 2 环境配置 3 数据集 3.1 CCPD02020介绍 3.2 解压数据集 3.3 提取文本检测数据集 3.4 提取文本识别数据集 4 模型 4.1 下载模型 4.2 文本检 ...

  8. 如何向开源项目提交issue以及为什么开源社区不推荐使用 fastjson库

    github 简介 Github是一个面向开源的私有软件托管平台,因为只支持Git作为唯一的版本库格式进行托管,所以叫Github.它于2008年4月10日正式上线,它的开发者也是linux之父:&q ...

  9. 三大开源社区是哪几个_3个衡量开源社区健康的指标

    三大开源社区是哪几个 社区建设是任何开源项目成功的关键. 甚至在开源之外,社区也被视为从零售,游戏,健身到许多行业的企业的竞争优势. (要进行更深入的了解,请参阅< 哈佛商业评论 >中的& ...

最新文章

  1. 伪激光雷达:无人驾驶的立体视觉
  2. 2021机器智能研究方向
  3. POJ 3463 Sightseeing(次短路问题)
  4. JavaWeb学习总结(五十三)——Web应用中使用JavaMail发送邮件
  5. 开发笔记:掉落系统模块设计思路
  6. 可伸缩视频编码svc
  7. VMWare虚拟机三种网络形式
  8. tracepro杂散光分析例子_光学系统杂散光分析(1)
  9. “Rule can only have one resource source”错误
  10. Solr基础教程之solrconfig.xml(三)
  11. java 向DB2插入数据
  12. 恰同学少年 - 片尾曲
  13. 使用 Android 开发 MQTT 客户端
  14. NTP-网络时间协议
  15. 软件测试工程师的日常工作流程
  16. Google Chorme
  17. 面试时,被问到职业规划如何作答?
  18. java-通知-阿里云短信服务
  19. python是黑客攻防第一语言么_为什么选择python编程语言入门黑客攻防 给你几个理由!...
  20. SecondLife 架构剖析

热门文章

  1. ArcGIS地形起伏度提取及出图设置
  2. oracle 以1开头以9结尾_好的作文开头、结尾
  3. root不到怎么刷机,没有root如何刷机
  4. 怎么绘制室内空间的立面图?
  5. 定制自己的Linux系统
  6. java getcolumns_Java DatabaseMetaData.getFunctionColumns方法代碼示例
  7. 小白学C语言之返回值(return语句)
  8. ShaderJoy —— 最简单的软阴影(SoftShadow)实现【GLSL】
  9. 学习使用CSS实现div中的内容垂直居中的方法
  10. 【时序】Reformer:局部敏感哈希(LSH)实现高效 Transformer 论文笔记