文章目录

  • 一、多模态简介
    • 1.什么是多模态?
    • 2.多模态的技术点及典型应用
  • 二、在文本分类和文本生成中的应用

一、多模态简介

1.什么是多模态?

  我们生活中的多模态指的是文字、文本、语音信号、图片信息、视频信息等这些模态以及更广泛的触觉、嗅觉等这些信号区都可以算作一种模态。目前在人工智能领域的多模态交互一般集中在文本、图像、视频、音频等信号的结合上面。
  多模态学习(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比 较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

2.多模态的技术点及典型应用

  多模态的技术点如下:

  • 多模态表示学习 (Representation)
    将实体化信息(文本、图片)通过向量来表示,分为联合表示与协同表示
    联合表示:将多个模态的信息一起映射到一个统一的多模态向量空间
    协同表示:将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之 间满足一定的相关性约束(例如线性相关)

      多模态表示学习本质上是在向量空间当中对应的特征关系与原始信息是否具有一致性
  • 模态转化 (Translation)
    多模态转化也可称为映射 (Mapping),主要是将一个模态的信息 转化或映射为另一个模态的信息。比如:从图像模态转化为文本模态或者音频模态。
    主要应用:

    • 机器翻译(MachineTranslation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)
    • 图片描述 (Image Captioning)与视频描述(Video Captioning)
    • 语音合成(Speech Synthesis)
  • 模态对齐 (Alignment)
    不同模态之间内容信息上的对齐;从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。
    相关任务:给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述 中对应的表述;图像语义分割(Image Semantic Segmentation)
  • 多模态融合(Fusion)
    将不同模态的信息作内容上的互补,联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)
    相关任务 :

    • 视觉-音频识别(Visual-Audio Recognition)
    • 多模态情感分析(Multimodal sentiment analysis)
    • 手机身份认证(Mobile IdentityAuthentication)
  • 协同学习(Co-learning)
    不同模态多任务的学习方式,这个是多模态研究的主要技术点。通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀 缺(比如较小数据)的模态建立模型。协同学习本质上是利用不同模态资源的稀缺

二、在文本分类和文本生成中的应用

  这些任务基本都是和图像、音频等信息结合起来共同作用。

  • 讽刺检测
    基于多模态信息讽刺检测


    Multi−ModalSarcasmDetectioninTwitterwithHierarchicalFusionModelMulti-Modal\ Sarcasm\ Detection\ in\ Twitter\ with\ Hierarchical\ Fusion\ ModelMulti−Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model
  • 情感分类
    给定一个句子用于判断句子是正向情感还是负向情感

    ContextualInter−modalAttentionforMulti−modalSentimentAnalysisContextual \ Inter-modal\ Attention\ for\ Multi-modal\ Sentiment\ AnalysisContextual Inter−modal Attention for Multi−modal Sentiment Analysis
    网络结构比较简单
  • 假新闻识别
    结合文本与图片检测假新闻


    ExploitingMulti−domainVisualInformationforFakeNewsDetectionExploiting\ Multi-domain\ Visual\ Information\ for\ Fake\ News\ DetectionExploiting Multi−domain Visual Information for Fake News Detection
  • 商品文案生成
    基于商品图片、商品标题、商品细节生成商品文案,是京东文案生成的核心业务。


    Aspect−awaremultimodalsummarizationforChineseE−commerceproductAspect-aware\ multimodal\ summarization\ for \ Chinese\ E-commerce\ productAspect−aware multimodal summarization for Chinese E−commerce product

如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!


NLP学习—15.多模态研究方向及在文本分类、文本生成的应用相关推荐

  1. 面向可解释的NLP:北大、哈工大等提出文本分类的生成性解释框架

    作者 | Hui Liu, Qingyu Yin, William Yang Wang 译者 | Rachel 编辑 | Jane 出品 | AI科技大本营(ID: rgznai100) [导语]北大 ...

  2. NLP学习笔记-循环神经网络RNN、情感分类、LSTM(二)

    循环神经网络和自然语言处理介绍 1. 文本的tokenization 1.1 概念和工具的介绍 tokenization就是通常所说的分词,分出的每一个词语我们把它称为token. 常见的分词工具很多 ...

  3. Datawhale NLP入门:Task5 基于深度学习的文本分类2

    Task5 基于深度学习的文本分类2 在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的.在本章我们将继续深入. 基于深度学习的文本分类 本章将继续学习 ...

  4. Datawhale组队学习-NLP新闻文本分类-TASK05

    Task5 基于深度学习的文本分类2 在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的.在本章我们将继续深入. 基于深度学习的文本分类 本章将继续学习 ...

  5. Datawhale零基础入门NLP day5/Task5基于深度学习的文本分类2

    基于深度学习的文本分类 本章将继续学习基于深度学习的文本分类. 学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN.TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 ...

  6. Datawhale零基础入门NLP赛事 - Task5 基于深度学习的文本分类2

    在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的.在本章我们将继续深入. 基于深度学习的文本分类 本章将继续学习基于深度学习的文本分类. 学习目标 学 ...

  7. NLP以赛代练 Task5:基于深度学习的文本分类 2

    基于深度学习的文本分类 2 学习目标 文本表示方法 Part3 词向量 1. Skip-grams原理和网络结构 2. Skip-grams训练 2.1 Word pairs and "ph ...

  8. NLP学习(一)基础篇

    一. 前言 2016年3月9日至15日和2017年5月23日至27日,分别在韩国首尔和中国嘉兴乌镇,韩国围棋九段棋手李世石.中国围棋九段棋手柯洁与人工智能围棋程序"阿尔法围棋"(A ...

  9. NLP学习(一)—基础篇

    本次代码的环境: 运行平台: Windows Python版本: Python3.x IDE: PyCharm 一.    前言 2016年3月9日至15日和2017年5月23日至27日,分别在韩国首 ...

  10. NLP学习基础入门(上)

    NLP (Natural Langunge Possns,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理.理解以及运用人类语言(如中文.英文等),达到人与计算 ...

最新文章

  1. python填写excel-Python向excel中写入数据的方法
  2. delphi之模糊找图
  3. 在阿里云上进行Docker应用的自动弹性伸缩
  4. 蓝桥杯JAVA省赛2013-----B------4(黄金连分数)
  5. 弱鸡儿终于没爆零Day7
  6. [转]linux用户管理
  7. 洛谷——P1554 梦中的统计
  8. mysql date_default_timezone_set,date_default_timezone_set
  9. mysql创建工作经历表_国内首款 Serverless MySQL 数据库重磅发布!
  10. easyui combobox根据输入内容动态查找_制作智能下拉菜单,自动筛选想要输入的数据,同事都看呆了...
  11. JavaScript内置对象之Array对象总结(附实例)
  12. JavaScript编写的《人生不纠结模拟器》
  13. 酷派Y60-C1刷官方ROM
  14. 实用的数据可视化工具大集合
  15. Matlab绘制柱状图(含显著性差异*)
  16. QT QTcpSocket
  17. js----------------------运算符
  18. SKYPE的BUG 7/8
  19. Java后台生成多个Excel并用Zip打包后(可以将excel文件放置到不同的目录)下载
  20. gsyVideoPlayer点击/拖动进度条播放视频会回退

热门文章

  1. individual program总结2.0
  2. delphi的多线程编程
  3. Firemonkey ListView 点击事件
  4. 题目1088:剩下的树(小端快排+大端判断边界)
  5. Qt QApplication 类简介--Qt 类简介专题(四)
  6. 从 Chrome 谈到 Adobe
  7. 使用libevhtp编写HTTP服务器的方法
  8. JSTL核心标签库详解
  9. linux下通过phpize为php在不重新编译php情况下安装模块memcache
  10. 一个U盘制作多个系统