人工智能Java SDK:图像文本的跨模态相似性比对检索【支持40种语言】
图像&文本的跨模态相似性比对检索 SDK【支持40种语言】
背景介绍
OpenAI 发布了两个新的神经网络:CLIP 和 DALL·E。它们将 NLP(自然语言识别)与 图像识别结合在一起,
对日常生活中的图像和语言有了更好的理解。
之前都是用文字搜文字,图片搜图片,现在通过CLIP这个模型,可是实现文字搜图片,图片搜文字。
其实现思路就是将图片跟文本映射到同一个向量空间。如此,就可以实现图片跟文本的跨模态相似性比对检索。
- 特征向量空间(由图片 & 文本组成)
CLIP,“另类”的图像识别
目前,大多数模型学习从标注好的数据集的带标签的示例中识别图像,而 CLIP 则是学习从互联网获取的图像及其描述,
即通过一段描述而不是“猫”、“狗”这样的单词标签来认识图像。
为了做到这一点,CLIP 学习将大量的对象与它们的名字和描述联系起来,并由此可以识别训练集以外的对象。
如上图所示,CLIP网络工作流程: 预训练图编码器和文本编码器,以预测数据集中哪些图像与哪些文本配对。
然后,将CLIP转换为zero-shot分类器。此外,将数据集的所有分类转换为诸如“一只狗的照片”之类的标签,并预测最佳配对的图像。
CLIP模型地址:
https://github.com/openai/CLIP/blob/main/README.md
SDK功能:
- 图像&文本特征向量提取
- 相似度计算
- softmax计算置信度
支持的语言列表:
- Albanian
- Amharic
- Arabic
- Azerbaijani
- Bengali
- Bulgarian
- Catalan
- Chinese (Simplified)
- Chinese (Traditional)
- Dutch
- English
- Estonian
- Farsi
- French
- Georgian
- German
- Greek
- Hindi
- Hungarian
- Icelandic
- Indonesian
- Italian
- Japanese
- Kazakh
- Korean
- Latvian
- Macedonian
- Malay
- Pashto
- Polish
- Romanian
- Russian
- Slovenian
- Spanish
- Swedish
- Tagalog
- Thai
- Turkish
- Urdu
- Vietnamese
运行例子 - ImageTextSearchExample
运行成功后,命令行应该看到下面的信息:
...
# 测试文本:
[INFO ] - texts: [在雪地里有两条狗, 一只猫在桌子上, 夜晚的伦敦]# 测试图片:
[INFO ] - image: src/test/resources/two_dogs_in_snow.jpg
# 向量维度:
[INFO ] - Vector dimension: 512# 生成图片向量:
[INFO ] - image embeddings: [0.22221693, 0.16178696, ..., -0.06122274, 0.13340257]# 生成文本向量 & 计算相似度:
[INFO ] - text [在雪地里有两条狗] embeddings: [0.07365318, -0.011488605, ..., -0.10090914, -0.5918399]
[INFO ] - Similarity: 30.857948%[INFO ] - text [一只猫在桌子上] embeddings: [0.01640176, 0.02016575, ..., -0.22862512, -0.091851026]
[INFO ] - Similarity: 10.379046%[INFO ] - text [夜晚的伦敦] embeddings: [-0.19309878, -0.008406041, ..., -0.1816148, 0.12109539]
[INFO ] - Similarity: 14.382527%#softmax 置信度计算:
[INFO ] - texts: [在雪地里有两条狗, 一只猫在桌子上, 夜晚的伦敦]
[INFO ] - Label probs: [0.9999999, 1.2768101E-9, 6.995442E-8]# "在雪地里有两条狗" 与图片相似的置信度为:0.9999999
目录:
http://www.aias.top/
Git地址:
https://github.com/mymagicpower/AIAS
https://gitee.com/mymagicpower/AIAS
人工智能Java SDK:图像文本的跨模态相似性比对检索【支持40种语言】相关推荐
- 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...
来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...
- 人工智能Java SDK:大数据如何与AI技术结合使用 - kafka - 句向量提取【支持15种语言】
kafka-句向量提取[支持15种语言]SDK 句向量是指将语句映射至固定维度的实数向量. 将不定长的句子用定长的向量表示,为NLP下游任务提供服务. 支持 15 种语言: Arabic, Chine ...
- Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...
- 人工智能Java SDK:人车非识别
目录: http://aias.top/ 人车非识别SDK 人车非(人.机动车,非机动车)识别sdk,支持6种目标检测识别. SDK功能 支持的6种目标检测识别如下: 1-person 行人 2-bi ...
- 人工智能Java SDK:动物分类识别
动物分类识别SDK 动物识别sdk,支持7978种动物的分类识别. SDK功能 支持7978种动物的分类识别,并给出置信度. 提供两个可用模型例子 1). 大模型(resnet50)例子:Animal ...
- 人工智能Java SDK:菜品分类识别
菜品分类识别SDK 菜品识别sdk,支持8416种菜品的分类识别. SDK功能 支持8416种菜品的分类识别,并给出置信度. 提供两个可用模型例子 1). 大模型(resnet50)例子:Dishes ...
- 元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...
- 元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...
- 跨模态语义关联对齐检索-图像文本匹配(Image-Text Matching)CVPR2022
最新文章
- 《Java8实战》-第六章读书笔记(用流收集数据-01)
- php 提取全部html标签,php提取html中的img标签
- Go语言资源自动回收技术
- Nginx流媒体支持配置
- 如何在VB例程中接收自定义消息
- python人脸识别环境搭建_人脸识别:Windows10系统环境搭建
- 如何在前端生成二维码
- docker社区的geodata/gdal镜像dockerfile分析
- springcloud- FeginClient 调用统一拦截添加请求头 RequestInterceptor ,被调用服务获取请求头...
- 启动计算机实现5秒开机,win10提高开机速度的设置教程 电脑五秒开机优化步骤...
- 贴片铝电容识别及型号_电路板上的贴片电容怎样核实它的型号及参数是多少
- SPSS中方差分析(F检验)的作用以及使用前提
- methodsignature java_Java MethodSignature.getMethod方法代碼示例
- 李彦宏清华经管学院演讲:11年创业心路历程与人生感悟
- 罗杨美慧 20190912-2 命令行
- 用spark分析北京积分落户数据,按用户身份证所在省份城市分析
- UICollectionView添加headerview/footerView
- 使用git拉取项目、创建分支、提交代码教程
- python不属于ipo模型的是_以下不属于IPO模型的是
- Python入门自学进阶-Web框架——33、瀑布流布局与组合查询