前言

对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。

后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面的对比学习模型。两个模型的具体技术方案并不复杂,应该说主要受到了SimCLR和CLIP模型的启发(当然,其实CLIP模型明显也受到SimCLR模型的影响)。从后面介绍可以看出,文本类模型CD-TOM基本是图像领域里的SimCLR模型应用到文本领域做的改造,<文本,图片>类模型W-CLIP在结构上基本就是CLIP模型,只是做了一些小改动。在模型结构上,其实目前大多数对比学习系统都差不太多,很多模型差异来自于训练数据的正例、负例构造方法或损失函数定义上。我们这里提到的两个模型,和SimCLR或CLIP相比,模型结构差异不大,主要差异体现在采用的训练数据特性方面的差异。

我们知道,SimCLR是个纯自监督的任务,通过对无标注图片做不同的图像增强来构造训练数据的正例;而CLIP尽管叫做对比学习,它其实是个有监督的训练过程,它的正例来自于经过各种挖掘手段净化过的,比较干净的4亿<图片描述,图片>数据对。我们后文将要提到的两个模型采用的训练数据正例,可以理解为处于两者之间:既不像SimCLR,属于纯粹自监督的任务,也不像CLIP那样使用的是比较干净的数据对,而是以包含大量噪音的数据作为对比学习模型的训练正例。

我当时比较关心的其实是下列问题的答案:如果我们有海量的数据对<数据A,数

深度学习核心技术精讲100篇(三十七)-利用Contrastive Learning对抗数据噪声:对比学习在微博场景的实践相关推荐

  1. 深度学习核心技术精讲100篇(十七)-多标准中文分词( Multi-Criteria-CWS)

    前言 论文:https://arxiv.org/pdf/1712.02856.pdf  : 代码和语料:https://github.com/hankcs/multi-criteria-cws . 本 ...

  2. 深度学习核心技术精讲100篇(四十六)-情感分析算法在阿里小蜜的应用实践

    前言 人机对话一直是自然语言处理领域内的重要研究方向之一,近年来随着人机交互技术的进步,对话系统正逐渐走向实际应用.其中,智能客服系统受到了很多企业尤其是中大型企业的广泛关注.智能客服系统旨在解决传统 ...

  3. 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现

    前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法.原来背后有一个极为有意思的算法思想--对抗生成. 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN ...

  4. 深度学习核心技术精讲100篇(十八)-巨量数据下美团是如何实现数据治理的?

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

  5. 深度学习核心技术精讲100篇(六十二)-DQN 的三种改进在运筹学中的应用

    前言 假设有一个客服排班的任务,我们需要为 100 个人安排一个星期的排班问题,并且有以下约束条件: 一天被划分为 24 个时间段,即每个时间段为 1 个小时: 每个客服一个星期需要上七天班,每次上班 ...

  6. 深度学习核心技术精讲100篇(三十五)-美团餐饮娱乐知识图谱——美团大脑揭秘

    前言 " I'm sorry. I can't do that, Dave." 这是经典科幻电影<2001: A Space Odyssey>里HAL 9000机器人说 ...

  7. 深度学习核心技术精讲100篇(三十)-ClickHouse在字节跳动广告业务中的应用

    前言 广告是支撑互联网高速发展的经济基石,也是很多互联网公司的重要收入来源.字节跳动的广告平台管理着 EB 量级的数据和服务着数以千万的商业用户,其中 ClickHouse 作为核心引擎支撑了海量数据 ...

  8. 深度学习核心技术精讲100篇(三十一)-大众点评搜索基于知识图谱的深度学习排序实践

    1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带.而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜 ...

  9. 深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用

    前言 需要源码的小伙伴参见: Contextual Bandits 算法在推荐场景中的应用源码 https://download.csdn.net/download/wenyusuran/155784 ...

最新文章

  1. 开坑,写点Polymer 1.0 教程第3篇——组件注册与创建
  2. [转]24岁到26岁 奔三的尴尬年纪,你要知道的50件事
  3. VC++图像存取总结
  4. 【转】使用TCP协议连续传输大量数据时,是否会丢包,应如何避免?
  5. 再有人问你synchronized是什么,就把这篇文章发给他。
  6. 【深度学习】谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?...
  7. 最强整理!字节跳动历年Android中高级面试题全收录!附超全教程文档
  8. 为List配置一个搜索按钮
  9. 强化学习《基于价值 - MC方法和TD方法》
  10. Linux下辅助DNS的搭建以及远程和加密更新
  11. 1013 数素数 (20 分)—PAT (Basic Level) Practice (中文)
  12. 手把手教你写ORM(七)
  13. python与mongodb更新_Python对MongoDB增删改查
  14. 网盘多线程提速下载利器:JDownloader 2 for Mac
  15. 组态王与Modbus协议的地址对应规则
  16. 修复花雨庭服务器,我的世界手机版怎么进花雨庭服务器 | 手游网游页游攻略大全...
  17. 拉格朗日乘子法(自己总结一些要点)
  18. laravel教程 第一章安装laravel
  19. 万元:蜂拥而至 地产板块注意风险但机遇犹存
  20. 9.1 了解导航窗格

热门文章

  1. jquery技巧(持续更新。。)
  2. skynet-源码分析1:目录下的文件整理
  3. 短信网址价值不大不应被热炒
  4. linux 在文本模式下(命令模式)下,中文是乱码,如何解决?
  5. Cortex M3寄存器组
  6. 通信电子线路期末复习第三章正弦波振荡器
  7. Leetcode236 最近公共祖先-二叉树两次遍历
  8. skb_shinfo(skb)-dataref 含义
  9. linux怎么命令设置网络连接,Linux网络操作命令
  10. python多分类画混淆矩阵_【AI基础】分类器评估一:混淆矩阵、准确率、精确率、召回率、灵敏度、特异度、误诊率、漏诊率...