如果要是你给驼鹿吃松饼

by Mariya Yao

姚iya(Mariya Yao)

吉娃娃还是松饼? 我在寻找最好的计算机视觉API (Chihuahua or muffin? My search for the best computer vision API)

This popular internet meme demonstrates the alarming resemblance shared between chihuahuas and muffins. These images are commonly shared in presentations in the Artificial Intelligence (AI) industry (myself included).

这个流行的网络模因展示了吉娃娃和松饼之间惊人的相似之处。 这些图像通常在人工智能(AI)行业的演示文稿中共享(包括我自己)。

But one question I haven’t seen anyone answer is just how good IS modern AI at removing the uncertainty of an image that could resemble a chihuahua or a muffin? For your entertainment and education, I’ll be investigating this question today.

但是我还没有一个人能回答的一个问题是,现代AI在消除可能类似于吉娃娃或松饼的图像不确定性方面有多好? 为了您的娱乐和教育,我今天将调查这个问题。

Binary classification has been possible since the perceptron algorithm was invented in 1957. If you think AI is hyped now, the New York Times reported in 1958 that the invention was the beginning of a computer that would “be able to walk, talk, see, write, reproduce itself and be conscious of its existence.” While perceptron machines, like the Mark 1, were designed for image recognition, in reality they can only discern patterns that are linearly separable. This prevents them from learning the complex patterns found in most visual media.

自感知感知器算法于1957年发明以来,便可以进行二进制分类。如果您认为AI现在被炒作了, 《纽约时报》在1958年报道说,这项发明是一台计算机的开端,它将“能够走路,说话,看,写作,自我复制并意识到它的存在。” 虽然像Mark 1这样的感知器机器是专为图像识别而设计的,但实际上,它们只能分辨出线性可分离的图案。 这阻止了他们学习大多数视觉媒体中发现的复杂模式。

No wonder the world was disillusioned and an AI winter ensued. Since then, multi-layer perceptions (popular in the 1980s) and convolutional neural networks (pioneered by Yann LeCun in 1998) have greatly outperformed single-layer perceptions in image recognition tasks.

难怪这个世界幻灭了,随之而来的是人工智能冬天 。 从那时起,在图像识别任务中, 多层感知 (在1980年代流行)和卷积神经网络 (由Yann LeCun于1998年开创)在性能上大大超过了单层感知 。

With large labelled data sets like ImageNet and powerful GPU computing, more advanced neural network architectures like AlexNet, VGG, Inception, and ResNet have achieved state-of-the-art performance in computer vision.

借助ImageNet等大型标签数据集和强大的GPU计算功能, AlexNet , VGG , Inception和ResNet等更高级的神经网络体系结构已实现了计算机视觉的最先进性能。

计算机视觉和图像识别API (Computer vision and image recognition APIs)

If you’re a machine learning engineer, it’s easy to experiment with and fine-tune these models by using pre-trained models and weights in either Keras/Tensorflow or PyTorch. If you’re not comfortable tweaking neural networks on your own, you’re in luck. Virtually all the leading technology giants and promising startups claim to “democratize AI” by offering easy-to-use computer vision APIs.

如果您是机器学习工程师,可以通过在Keras / Tensorflow或PyTorch中使用预训练的模型和权重来轻松进行实验和微调这些模型。 如果您不愿意自己调整神经网络,那么您很幸运。 几乎所有领先的技术巨头和有希望的初创企业都声称通过提供易于使用的计算机视觉API来“使AI民主化”。

Which one is the best? To answer this question, you’d have to clearly define your business goals, product use cases, test data sets, and metrics of success before you can compare the solutions against each other.

哪一个是最好的? 要回答此问题,必须先明确定义业务目标,产品用例,测试数据集和成功指标,然后才能将解决方案相互比较。

In lieu of a serious inquiry, we can at least get a high-level sense of the different behaviors of each platform by testing them with our toy problem of differentiating a chihuahua from a muffin.

代替严肃的询问,我们至少可以通过用区分吉娃娃和松饼的玩具问题来测试它们,从而至少了解每个平台的不同行为。

进行测试 (Conducting the test)

To do this, I split the canonical meme into 16 test images. Then I use open source code written by engineer Gaurav Oberoi to consolidate results from the different APIs. Each image is pushed through the six APIs listed above, which return high confidence labels as their predictions. The exceptions are Microsoft, which returns both labels and a caption, and Cloudsight, which uses human-AI hybrid technology to return only a single caption. This is why Cloudsight can return eerily accurate captions for complex images, but takes 10–20 times longer to process.

为此,我将规范模因分为16个测试图像。 然后,我使用工程师Gaurav Oberoi编写的开放源代码来合并来自不同API的结果。 每个图像都通过上面列出的六个API推送,这些API返回高可信度标签作为其预测。 唯一的例外是Microsoft(它同时返回标签和标题)和Cloudsight (其使用人工AI混合技术仅返回单个标题)。 这就是为什么Cloudsight可以返回复杂图像的准确字幕,但处理时间要长10-20倍。

Below is an example of the output. To see the results of all 16 chihuahua versus muffin images, click here.

以下是输出示例。 要查看所有16张奇瓦瓦州和松饼图像的结果, 请单击此处 。

How well did the APIs do? Other than Microsoft, which confused this muffin for a stuffed animal, every other API recognized that the image was food. But there wasn’t an agreement about whether the food was bread, cake, cookies, or muffins. Google was the only API to successfully identify muffin as the label that is most probable.

API做得如何? 除了微软公司(Microsoft )将松饼与毛绒玩具相混淆之外,其他所有API都认为该图像是食物。 但是,关于食物是面包,蛋糕,饼干还是松饼,尚无共识。 Google是唯一成功将松饼识别为最可能的标签的API。

Let’s look at a chihuahua example.

让我们看一个吉娃娃的例子。

Again, the APIs did rather well. All of them realized that the image is a dog, although a few of them missed the exact breed.

同样,这些API的表现也不错。 他们中的所有人都意识到这只狗是狗,尽管其中一些人错过了确切的品种。

There were definite failures, though. Microsoft returned a blatantly wrong caption three separate times, describing the muffin as either a stuffed animal or a teddy bear.

但是,肯定有失败。 微软分三次错误地返回了一个错误的标题,称松饼是毛绒玩具还是泰迪熊。

Google was the ultimate muffin identifier, returning “muffin” as its highest confidence label for 6 out of the 7 muffin images in the test set. The other APIs did not return “muffin” as the first label for any muffin picture, but instead returned less relevant labels like “bread”, “cookie”, or “cupcake.”

Google是最终的松饼标识符,在测试集中的7张松饼图像中,有6张返回“ muffin”作为其最高置信度标签。 其他API并未将“松饼”作为任何松饼图片的第一个标签返回,而是返回了相关性较低的标签,例如“面包”,“ cookie”或“杯子蛋糕”。

However, despite its string of successes, Google did fail on this specific muffin image, returning “snout” and “dog breed group” as predictions.

但是,尽管取得了一系列成功,但Google并未在这个特定的松饼图像上失败,返回了“鼻子”和“狗品种组”作为预测。

Even the world’s most advanced machine learning platforms are tripped up by our facetious chihuahua versus muffin challenge. A human toddler beats deep learning when it comes to figuring out what’s food and what’s Fido.

即使是世界上最先进的机器学习平台,也因我们奇妙的吉娃娃与松饼挑战而challenge绊绊。 当要弄清什么是食物和什么是菲多时,人类的学步者需要进行深度学习。

那么哪种计算机视觉API最好呢? (So which computer vision API is the best?)

In order to find out the answer to this elusive mystery, you’ll have to head over to TOPBOTS to read the original article in full!

为了找出答案,您必须前往TOPBOTS 完整阅读原始文章 !

翻译自: https://www.freecodecamp.org/news/chihuahua-or-muffin-my-search-for-the-best-computer-vision-api-cbda4d6b425d/

如果要是你给驼鹿吃松饼

如果要是你给驼鹿吃松饼_吉娃娃还是松饼? 我在寻找最好的计算机视觉API相关推荐

  1. 如果要是你给驼鹿吃松饼_有时候你必须把驼鹿放在桌子上

    如果要是你给驼鹿吃松饼 红帽以其开放的文化而闻名. 人们公开分享他们的观点,互相给予积极和建设性的反馈,并通过协作做出更好的决策. 吉姆·怀特赫斯特( Jim Whitehurst) 最近写了一篇关于 ...

  2. html5中秋博饼,2020年中秋博饼优秀作文(精选5篇)

    2020年中秋博饼优秀作文(精选5篇) 在平平淡淡的日常中,大家对作文都不陌生吧,作文是通过文字来表达一个主题意义的记叙方法.那么你知道一篇好的作文该怎么写吗?以下是小编收集整理的2020年中秋博饼优 ...

  3. html 圆饼画布,html5 canvas画饼

    ​2. [文件] lqdpie.html ~ 801B     下载(7) 刘强东吃饼 Your browser does not support the HTML5 canvas tag. var ...

  4. java吃豆游戏_利用java编写的精灵吃豆的游戏

    学完线程的时候做了一个精灵吃豆的小游戏. 窗体类: package www.csdn.net.zuoye; //用窗体实现精灵吃豆子的小游戏 import java.awt.Color; import ...

  5. 平方的观测值表概率_茆诗松的概率论与数理统计(第六章)

    本章干货十足: 开篇集中讨论"无偏.有效.相合.渐近正态"四大性质,整理它们的联系与差异: 不同方法解决EM例题,引入"双硬币模型"说明EM算法的应用场景和基本 ...

  6. 微服务 松耦合_超值干货:微服务架构下如何解耦,对于已经紧耦合下如何重构?...

    今天准备谈下微服务架构下各个微服务间如何解耦,以及对于已经紧耦合的微服务如何进行重构.要明白实际上微服务后续出现的诸多问题往往都是一开始微服务模块划分就不合理导致,对于具体的模块划分方法和原则,我总结 ...

  7. 二陈丸配什么吃不上火_宝妈一个人带孩子是什么感觉?前三种场景,不知道是怎么熬过来的...

    导语:很多人认为一个家庭主妇很轻松,每天就带带孩子,其他什么都不需要做,远远没有那些人说的那么辛苦,无论是老公还是很多婆婆都认为是在家享福呢,经常就会甩出一句话"每天不就带个孩子吗?至于整天 ...

  8. pacman吃豆人_通过Tensorflow和强化学习实现自动化吃豆人PacMan

    介绍 在涉及GradientCrescent强化学习基础的文章中,我们研究了基于模型和基于样本的强化学习方法. 简而言之,前一类的特征是需要了解所有可能状态转换的完整概率分布,并且可以通过马尔可夫决策 ...

  9. python饼状图颜色一样_使用echarts画饼状图,设置饼状图颜色

    前言: 前面已经跟大家分享了使用echarts画柱状图.折线图,一些之前自己遇到的坑也跟大家说了,这次就不再赘述.官方有配置文档,很详细,大家不懂的地方也可以交流. 今日分享重点:画饼状图. 1.引入 ...

最新文章

  1. Windows基本路由配置(cmd/route)
  2. freemarker 内置函数
  3. ##安装MySql数据库并解决如果安装出错卸载的注意事项
  4. CodeForces - 103E Buying Sets(最小权闭合子图)
  5. 南通工学院计算机97级,2021年南通理工学院录取结果查询网址入口及录取结果公布时间...
  6. python怎么让输出结果为01_python从0到1--01.python中的输入/输出(基础篇)
  7. 48周岁交的社保,加医疗合计每月1200,想问问退休能开多少?
  8. ML Case Studies(0)
  9. C语言编程判断字母大小并转换,towupper()
  10. python语言简单界面选择苏康码图片文字识别
  11. PAT考试大纲/如何刷pat(想要在pat甲级拿80到90分)
  12. Hololens开发笔记_在Unity运行没问题,在Hololens跑出现PathNotFoundException:Could not find a part of path.
  13. 游戏厂商出海记:韩国内卷严重,其它地区占到什么地盘?
  14. 数字图像处理 直方图均衡化 MATLAB实验
  15. 在fedora 15 中安装汉语拼音输入法
  16. 泛函分析 02.04 赋范空间-有限维赋范空间
  17. 醉梦尘缘,花落为谁伤
  18. 2020年有寓意的领证日期_2020领证吉日,这些特殊寓意的好日子不能错过
  19. 如何在win11中用双硬盘或移动硬盘装Ubuntu 20.04 双系统
  20. 知乎问答丨对于大一即将进入大二的学生有什么建议?

热门文章

  1. Windows文件名区分大小写
  2. Unity自由涂鸦轨迹检测(VR)
  3. 空压机变频改造|空气压缩机变频改造原理
  4. android微信怎么建群,微信可以建群吗 图文教你微信怎么建群
  5. 技嘉服务器主板装系统,技嘉AB350M-DS3H主板u盘重装系统win7教程
  6. MATLAB用fwind1函数去设计一个近似圆对称的二维带通滤波器
  7. 《我们与恶的距离》引发媒体反思:假新闻抢热点,机器学习能做些什么?
  8. 本地搭建Spring源码环境
  9. R——R的一些边边角角
  10. 西安财经大学信息计算机科学怎咋,中清研 -西安财经大学信息学院