人工智能AI系列 - 以图搜图，以文搜图，以图搜文的跨模态搜索

2024-06-02 18:27:42

目录：

http://aias.top/

图像&文本的跨模态相似性比对检索【支持40种语言】

本例子提供了通过文本搜图片的能力展示（模型本身当然也支持图片搜文字，或者混合搜索）。

主要特性

底层使用特征向量相似度搜索
单台服务器十亿级数据的毫秒级搜索
近实时搜索，支持分布式部署
随时对数据进行插入、删除、搜索、更新等操作

背景介绍

OpenAI 发布了两个新的神经网络：CLIP 和 DALL·E。它们将 NLP（自然语言识别）与图像识别结合在一起，对日常生活中的图像和语言有了更好的理解。之前都是用文字搜文字，图片搜图片，现在通过CLIP这个模型，可是实现文字搜图片，图片搜文字。其实现思路就是将图片跟文本映射到同一个向量空间。如此，就可以实现图片跟文本的跨模态相似性比对检索。

特征向量空间（由图片 & 文本组成）

CLIP - “另类”的图像识别

目前，大多数模型学习从标注好的数据集的带标签的示例中识别图像，而 CLIP 则是学习从互联网获取的图像及其描述, 即通过一段描述而不是“猫”、“狗”这样的单词标签来认识图像。为了做到这一点，CLIP 学习将大量的对象与它们的名字和描述联系起来，并由此可以识别训练集以外的对象。

如上图所示，CLIP网络工作流程：预训练图编码器和文本编码器，以预测数据集中哪些图像与哪些文本配对。然后，将CLIP转换为zero-shot分类器。此外，将数据集的所有分类转换为诸如“一只狗的照片”之类的标签，并预测最佳配对的图像。

CLIP模型地址： https://github.com/openai/CLIP/blob/main/README.md

支持的语言列表：

1. 打开浏览器

输入地址： http://localhost:8090
图片上传
1). 点击上传按钮上传文件.
测试图片数据

2). 点击特征提取按钮. 等待图片特征提取，特征存入向量引擎。通过console可以看到进度信息。

跨模态搜索
输入文字描述，点击查询，可以看到返回的图片清单，根据相似度排序。
例子1，输入文本：车

例子2，输入文本：雪地上两只狗

2. 帮助信息

swagger接口文档:
http://localhost:8089/swagger-ui.html

Milvus向量引擎参考链接
Milvus向量引擎官网
Milvus向量引擎Github

官网：

官网链接

Git地址：

Github链接
Gitee链接

人工智能AI系列 - 以图搜图，以文搜图，以图搜文的跨模态搜索相关推荐

有了AI智能绘画，我也可以成为绘画大师——全球最大规模中文跨模态生成模型ERNIE-ViLG
对于绘画一窍不通的我,也喜欢看动漫,看到一些绝美的画,何尝不会感叹,要是我也会画画就好了,现在终于有机会帮我实现这个想法了,无意间看到了AI的一个新应用,最近热度还挺高的AI绘画,充分引起了我的兴趣, ...
百度AI技术盛宴来了！大咖齐聚解读CV/NLP/跨模态大模型技术！
随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破.自2020年至今,越来越多的科技巨头和科研机构参与其中.去年12月,百度发布了全球首个知识增强千亿 ...
基于昇腾AI，空天院携手华为共同发布全球首个面向跨模态遥感数据的生成式大模型“空天.灵眸”
8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称"空天院")发布了首个面向跨模态遥感数据的生成式预训练大模型" ...
人工智能AI会话+文字转为markdown格式/思维导图的工具的介绍和使用
AI会话工具和文字转换为markdown格式 1.这里首先要有一个xmind思维导图软件,下载链接在下方. XMind: 2.本章中列举的AI工具是近期国内交火的prompt(文心一言作者还没排上队 ...
人工智能AI系列 - 人脸识别套件列表，包括人脸检测，人脸识别，人脸关键点，人脸比对，人脸搜索等等。
人脸识别套件列表打造最好的java开源人脸识别套件,包括人脸检测,人脸识别,人脸关键点,人脸比对,人脸搜索等等. 人脸检测SDK 人脸检测SDK 链接人脸检测 (含5个人脸关键点) SDK 链接 ...
【文生图系列】文生图大模型合集与效果对比
文章目录 DELL · E DELL · E 1 DELL · E 2 ERNIE-ViLG ERNIE-ViLG 1 ERNIE-ViLG 2 Paddlehub Imagen Midjourney ...
python人工智能课程实例_python人工智能AI深度学习/机器学习全套课程视频教程+ppt+代码...
这是一套Python/人工智能/AI/机器学习/深度学习全套实战课程,包含视频教程以及文档.源码等,欢迎下载 01. python数据分析与机器学习实战 02.深度学习入门视频课程(上篇) 03.深 ...
你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！
来源:机器之心本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型. 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的 ...
AIGC周报｜30秒定制一个文生图模型；60美元让AI玩转《我的世界》；手机版“文生图”模型：2秒不到出一张图
AIGC(AI Generated Content)即人工智能生成内容.近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2.Stable Diffusion 等文生图模型,都属于 A ...

最新文章

热门文章