图像&文本的跨模态相似性比对检索 SDK【支持40种语言】

背景介绍

OpenAI 发布了两个新的神经网络:CLIP 和 DALL·E。它们将 NLP(自然语言识别)与 图像识别结合在一起,
对日常生活中的图像和语言有了更好的理解。
之前都是用文字搜文字,图片搜图片,现在通过CLIP这个模型,可是实现文字搜图片,图片搜文字。
其实现思路就是将图片跟文本映射到同一个向量空间。如此,就可以实现图片跟文本的跨模态相似性比对检索。

  • 特征向量空间(由图片 & 文本组成)

CLIP,“另类”的图像识别

目前,大多数模型学习从标注好的数据集的带标签的示例中识别图像,而 CLIP 则是学习从互联网获取的图像及其描述,
即通过一段描述而不是“猫”、“狗”这样的单词标签来认识图像。
为了做到这一点,CLIP 学习将大量的对象与它们的名字和描述联系起来,并由此可以识别训练集以外的对象。

如上图所示,CLIP网络工作流程: 预训练图编码器和文本编码器,以预测数据集中哪些图像与哪些文本配对。
然后,将CLIP转换为zero-shot分类器。此外,将数据集的所有分类转换为诸如“一只狗的照片”之类的标签,并预测最佳配对的图像。

CLIP模型地址:
https://github.com/openai/CLIP/blob/main/README.md

SDK功能:

  • 图像&文本特征向量提取
  • 相似度计算
  • softmax计算置信度

支持的语言列表:

  • Albanian
  • Amharic
  • Arabic
  • Azerbaijani
  • Bengali
  • Bulgarian
  • Catalan
  • Chinese (Simplified)
  • Chinese (Traditional)
  • Dutch
  • English
  • Estonian
  • Farsi
  • French
  • Georgian
  • German
  • Greek
  • Hindi
  • Hungarian
  • Icelandic
  • Indonesian
  • Italian
  • Japanese
  • Kazakh
  • Korean
  • Latvian
  • Macedonian
  • Malay
  • Pashto
  • Polish
  • Romanian
  • Russian
  • Slovenian
  • Spanish
  • Swedish
  • Tagalog
  • Thai
  • Turkish
  • Urdu
  • Vietnamese

运行例子 - ImageTextSearchExample

运行成功后,命令行应该看到下面的信息:

...
# 测试文本:
[INFO ] - texts: [在雪地里有两条狗, 一只猫在桌子上, 夜晚的伦敦]# 测试图片:
[INFO ] - image: src/test/resources/two_dogs_in_snow.jpg

# 向量维度:
[INFO ] - Vector dimension: 512# 生成图片向量:
[INFO ] - image embeddings: [0.22221693, 0.16178696, ..., -0.06122274, 0.13340257]# 生成文本向量 & 计算相似度:
[INFO ] - text [在雪地里有两条狗] embeddings: [0.07365318, -0.011488605, ..., -0.10090914, -0.5918399]
[INFO ] - Similarity: 30.857948%[INFO ] - text [一只猫在桌子上] embeddings: [0.01640176, 0.02016575, ..., -0.22862512, -0.091851026]
[INFO ] - Similarity: 10.379046%[INFO ] - text [夜晚的伦敦] embeddings: [-0.19309878, -0.008406041, ..., -0.1816148, 0.12109539]
[INFO ] - Similarity: 14.382527%#softmax 置信度计算:
[INFO ] - texts: [在雪地里有两条狗, 一只猫在桌子上, 夜晚的伦敦]
[INFO ] - Label probs: [0.9999999, 1.2768101E-9, 6.995442E-8]# "在雪地里有两条狗" 与图片相似的置信度为:0.9999999

目录:

http://www.aias.top/

Git地址:

https://github.com/mymagicpower/AIAS
https://gitee.com/mymagicpower/AIAS

人工智能Java SDK:图像文本的跨模态相似性比对检索【支持40种语言】相关推荐

  1. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...

    来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...

  2. 人工智能Java SDK:大数据如何与AI技术结合使用 - kafka - 句向量提取【支持15种语言】

    kafka-句向量提取[支持15种语言]SDK 句向量是指将语句映射至固定维度的实数向量. 将不定长的句子用定长的向量表示,为NLP下游任务提供服务. 支持 15 种语言: Arabic, Chine ...

  3. Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...

  4. 人工智能Java SDK:人车非识别

    目录: http://aias.top/ 人车非识别SDK 人车非(人.机动车,非机动车)识别sdk,支持6种目标检测识别. SDK功能 支持的6种目标检测识别如下: 1-person 行人 2-bi ...

  5. 人工智能Java SDK:动物分类识别

    动物分类识别SDK 动物识别sdk,支持7978种动物的分类识别. SDK功能 支持7978种动物的分类识别,并给出置信度. 提供两个可用模型例子 1). 大模型(resnet50)例子:Animal ...

  6. 人工智能Java SDK:菜品分类识别

    菜品分类识别SDK 菜品识别sdk,支持8416种菜品的分类识别. SDK功能 支持8416种菜品的分类识别,并给出置信度. 提供两个可用模型例子 1). 大模型(resnet50)例子:Dishes ...

  7. 元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  8. 元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  9. 跨模态语义关联对齐检索-图像文本匹配(Image-Text Matching)CVPR2022

最新文章

  1. 《Java8实战》-第六章读书笔记(用流收集数据-01)
  2. php 提取全部html标签,php提取html中的img标签
  3. Go语言资源自动回收技术
  4. Nginx流媒体支持配置
  5. 如何在VB例程中接收自定义消息
  6. python人脸识别环境搭建_人脸识别:Windows10系统环境搭建
  7. 如何在前端生成二维码
  8. docker社区的geodata/gdal镜像dockerfile分析
  9. springcloud- FeginClient 调用统一拦截添加请求头 RequestInterceptor ,被调用服务获取请求头...
  10. 启动计算机实现5秒开机,win10提高开机速度的设置教程 电脑五秒开机优化步骤...
  11. 贴片铝电容识别及型号_电路板上的贴片电容怎样核实它的型号及参数是多少
  12. SPSS中方差分析(F检验)的作用以及使用前提
  13. methodsignature java_Java MethodSignature.getMethod方法代碼示例
  14. 李彦宏清华经管学院演讲:11年创业心路历程与人生感悟
  15. 罗杨美慧 20190912-2 命令行
  16. 用spark分析北京积分落户数据,按用户身份证所在省份城市分析
  17. UICollectionView添加headerview/footerView
  18. 使用git拉取项目、创建分支、提交代码教程
  19. python不属于ipo模型的是_以下不属于IPO模型的是
  20. Python入门自学进阶-Web框架——33、瀑布流布局与组合查询

热门文章

  1. STM32 开发笔记
  2. 什么是智能手机?智能手机操作系统有哪些?
  3. 不只有广发卡,其他银行也为你圆购物梦
  4. csdn发表博客时出现选择文章类型”
  5. QML 信号和信号处理器程序
  6. No module named flask 错误解决
  7. easyui datagrid 控件全选
  8. 维修中心计算机系统英文,电脑维修基本英文
  9. HTML学生作业网页:网页设计期末作业 使用HTML CSS技术实现非遗文化网页设计题材【汉服文化—共12个页面】
  10. 智能家居---遥控器APP