搜索是过拟合的生成;生成是欠拟合的搜索
神经搜索的最大竞争者可能来自于一种甚至不需要向量嵌入作为中间表示的技术 —— 一种直接返回你想要的结果的端到端技术。
"那么,谁将是神经搜索最大的竞争对手?"
本文作者:肖涵,Jina AI 创始人兼 CEO
谁将是神经搜索最大的竞争对手?
就在 2019 年的圣诞节前几天,我坐在一个狭小的会议室里,周围是我们种子风投公司的投资委员会。我们已经在办公室待了几个小时,来回地讨论。这是最后一轮令人紧张的路演,以确保我的神经搜索倡议获得所需的 200 万美元的孵化资金:Jina AI 的诞生就悬在一线,这是一个成败攸关的时刻。
其中一位从 2005 年就在纽约谷歌工作的合伙人问了我一个我永远不会忘记的问题:
"谁将是您最大的竞争者?"
“谷歌,Elastic,Algolia,……” 我自信地回答道,这是我早前准备过的问题。然后我咬紧牙关,只是等着他们问我那些无聊的陈词滥调的问题,比如“你怎么与谷歌竞争?”在他们回答之前,我补充说:“但更严峻的竞争可能来自一项不需要嵌入作为中间表示的技术 —— 一项端到端技术,它能直接返回您想要的结果。”
但他们没有听懂我的意思,他们坚持着那些老套问题。一直在追问我如何与谷歌竞争。
3 年过去,时间和“常识”都已经发生改变,他们理解了我所说的技术。
这项技术就是 生成式人工智能,而 神经搜索是判别式人工智能。
在那时,也就是在谷歌发布 BERT 的 15 个月后,生成式人工智能还不是可扩展且高质量搜索的答案。而神经搜索是一个灵活的框架,它可以轻松地使用密集的嵌入表示,并结合多个子任务,是当时搜索多模态数据的唯一现实的方法。
多模态人工智能异军突起
自 2021 年以来,我们在行业中看到了从单模态人工智能到多模态人工智能的巨大范式变革:
Jina AI愿景中的未来AI应用
多模态人工智能的兴起归功于近几年机器学习技术的进步:表征学习和迁移学习。
• 表征学习使模型为所有模态创建共同的表征。
• 迁移学习使模型首先学习基本知识,然后在特定领域进行微调来改进学习。
2021 年,我们看到了 CLIP,一种捕获图像和文本之间对齐关系的模型;2022 年,DALL·E 2 和 Imgen 通过文本提示生成了高质量的图像。由 Stable Diffusion 领导的 AI 生成艺术从一个社区嘉年华开始,现在已经演变成一场工业革命。这是一座刚刚探出头的巨大冰山。在未来,我们将看到更多 AI 应用超越单一数据模态,利用不同模态之间的关系。临时方法正在像恐龙一样消失,因为数据模态之间的界限变得模糊无意义。
但是,在开始想象花哨的高级人工智能应用之前,有两个基本问题我们必须先解决:搜索和生成。
或者我应该说,搜索,还是生成?
搜索和生成的二元性
搜索和生成是一枚硬币的两面,是一种二元性。
为了理解这一点,让我们以 text-to-image 和 image-to-image 为例,看看以下两个函数:
def foo(query: str) -> List[Image]:...def bar(query: Image) -> List[Image]:...
那么,foo
和 bar
是什么?
• 当它们是搜索时,
foo
表示以文搜图(CBIR),bar
表示以图搜图。• 当它们是生成时,
foo
表示从文本提示 Prompt 到 AI 生成图像,bar
指的是从初始图片到 AI 生成图像。
那么,你能分辨下面的区别吗?搜索结果是哪个,AI 生成的结果是哪个?以及这真的重要吗?搜索是找到你需要的东西;AI 生成是制作你需要的东西。如果一个系统返回了你需要的结果,它是来自搜索还是 AI 生成,这真的重要呢?
"嗯,但是数据库的完整性确实很重要," 你可能会反驳。"因为我不想在我的商品搜索结果中看到虚构的商品图像。" 有时人们确实关心数据库的准确性,但解决它很容易,我们只需要过拟合一个生成式人工智能模型。我们可以让模型记住它在训练数据中看到的所有内容,失去所有普遍性和泛化能力。它只会返回训练数据中的内容。你看,这样你就拥有了一个可靠的搜索系统。
生成式人工智能会使这种压抑性限制得到缓解。让模型即兴创作,让我们拥抱随机性,让感觉胜过保真性。生成式 AI 只是一个欠拟合的搜索系统。
硬币不断旋转着,它最终会落在哪边?它还重要吗?
总结
随着越来越多的大型语言模型(LLM)和生成人工智能的兴起,使用 LLM,特别是预训练的语言模型(PTLM),已经成为一种流行的机制,可以根据需要从自由形式文本中提取知识。尽管语料库中存在报告偏差问题,并且对查询缺乏鲁棒性,但 LLM 在一些相当成功的下游任务,比如基于人格的对话、叙事故事生成和隐喻生成。COLING 2022 最近也有一项工作,探索了像 CLIP 这样的跨模态模型作为常识知识库。你可以在这里找到我关于这篇论文的笔记。https://jina.ai/news/coling2022/
Are Visual-Linguistic Models Commonsense Knowledge Bases?
在写这篇文章的前一天,我读到 Yann LeCun 的推文,讲述了 Galactica —— 一个具有搜索界面的生成式人工智能:
我们抛出硬币,看着它在空中翻滚,一端接着一端翻转。我们的目光从未从它的轨迹上移开。当它到达弧线的顶点时,我们都知道结果不再重要。
拓展资料
搜索是过拟合的生成;生成是欠拟合的搜索相关推荐
- python3中多项式创建_机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures 欠拟合与过拟合...
本文主要向大家介绍了机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures 欠拟合与过拟合,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 分享 ...
- 4.3 欠拟合与过拟合
文章目录 一.数据生成 二.正常拟合 效果 代码 三.欠拟合 效果 代码 四.过拟合 效果 代码 一.数据生成 #采用多项式回归测试欠拟合与过拟合 import numpy as np import ...
- 使用学习曲线(Learning curve),判断机器学习模型过拟合、欠拟合,与解决过拟合、欠拟合的问题
文章目录 1.基本概念 过拟合与欠拟合 根据学习曲线判断过拟合.欠拟合 2.示例代码:绘制学习曲线 3.解决过拟合.欠拟合 解决过拟合 解决欠拟合 4. 过拟合.欠拟合的深层理解 1.基本概念 过拟合 ...
- 误差函数拟合优缺点_欠拟合、过拟合及如何防止过拟合
对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差.度量泛化能力的好 ...
- 过拟合欠拟合模拟 || 深度学习 || Pytorch || 动手学深度学习11 || 跟李沐学AI
昔我往矣,杨柳依依.今我来思,雨雪霏霏. ---<采薇> 本文是对于跟李沐学AI--动手学深度学习第11节:模型选择 + 过拟合和欠拟合的代码实现.主要是通过使用线性回归模型在自己生成的数 ...
- 欠拟合与过拟合、泛化能力概念总结及python示例
目录 1. 基本概念 2. python示例 3. 欠拟合产生的原因与解决方法 4. 过拟合产生的原因与解决方法 5. 欠拟合和过拟合的简明判断方法 1. 基本概念 机器学习中欠拟合(underfit ...
- 什么是欠拟合现象_深度学习中过拟合、欠拟合问题及解决方案
在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据 ...
- 欠拟合、过拟合、训练误差与泛化误差与模型复杂度的关系
文章目录 相关定义 欠拟合和过拟合 欠拟合原因 欠拟合解决方案 过拟合原因 过拟合解决方案 相关定义 训练误差: 模型在训练数据集上表现出的误差. 泛化误差: 模型在任意⼀个测试数据样本上表现出的误差 ...
- 机器学习中的欠拟合与过拟合
1.偏差与方差 要理解欠拟合与过拟合,先得理解偏差与方差. 假设有一个模型f,f精确地描述了特征X与目标y的关系,但我们不知道f的具体的样子,因此我们通过一定量的训练样本来估计f,.当我们改变训练集( ...
- 机器学习中过拟合、欠拟合与方差、偏差的关系是什么?
机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...
最新文章
- oracle dataguard 日志 很多no,oracle dataguard 日志传输原理
- 神经网络设计与分析之sin函数拟合分析
- 4.2.4 OS之磁盘管理(磁盘初始化、引导块、坏块的管理)
- flash遨游缓存问题
- 深度神经网络移动终端GPU加速实践
- 基于SpringBoot 2.3的WebService指南(包含案例)
- 利用百度搜索结果爬取邮箱
- 队列 句子分析 精辟的诠释 有图片
- Introduction to Computer Networking学习笔记(九):error detection 错误探查 Checksum、CRC、MAC
- http权威指南完整版
- 全网粉丝200万,他是如何打造个人IP账号的?
- 翻译:俄国卫星GLONASS 简介 天基全球导航卫星系统 (GNSS)
- android edittext 手机号码,Android Edittext 手机号码格式输入设置
- cannal 启动异常(show master status‘ has an error pls check. you need (at least one of) the SUPER,REPLI)
- opencv 旋转和平移的矩阵
- 基于深度学习的医学图像分割学习笔记(九)UNet 3+
- Mysql:Linux 中登录mysql客户端命令行以及常用命令
- java.net cidr接口_【算法】CIDR集合的算法
- 【linux】 不要再暴力关机了,讲讲我最近遇到的问题和完美解决方案
- TaiChi Lang 让Python代码提速100倍!(高性能计算、图形学、仿真等领域;加速 Python 中计算密集任务程序;希望使用 Python 开发但部署到其它环境)
热门文章
- 清空input输入框的历史记录
- swift取消黑暗模式
- python文件拷贝copyfile
- 三菱PLC控制—天塔之光
- 通过键盘输入某年某月某日,计算并输出这一天是这一年的第几天。例如,2001年3月5日是这一年的第64天。注意:使用分支结构语句实现。
- 使用 Blender SDF Exporter导出sdf文件
- oracle中overwrite写法,Overload Overwrite Override
- 8086寄存器简介 (转载从 博客园-首页原创精华区 作者:Zachary.XiaoZhen)
- linux嵌入式arm基础笔记3之触摸屏原理与输入子系统
- BUUCTF Crypto题目记录