来源:财经头条

摘要:人工智能的发展离不开基础支持层和技术层,基础支持层包括大数据、计算力和算法;技术层包括计算机视觉、语音识别和自然语言处理。人工智能的技术本质是什么,本文会详细分析。

人工智能的发展离不开基础支持层和技术层,基础支持层包括大数据、计算力和算法;技术层包括计算机视觉、语音识别和自然语言处理。人工智能的技术本质是什么,本文会详细分析。

总览人工智能技术图谱


基础支撑层的算法创新发生在20世纪80年代末,是大数据和计算力将人工智能推到镁光灯之下,而建立在这之上的基础技术便是计算机视觉、语音识别和自然语言理解,机器试图看懂、听懂人类的世界、用人类的语言和人类交流,研究人类智能活动的规律。


1.计算机视觉技术(Computer Vision)


1)·什么是计算机视觉

“人的大脑皮层的活动, 大约70%是在处理视觉相关信息。视觉就相当于人脑的大门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速, 其它感觉是两旁的人行道。如果不能处理视觉信息的话,整个人工智能系统是个空架子,只能做符号推理,比如下棋、定理证明, 没法进入现实世界。计算机视觉之于人工智能,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。”——朱松纯,加州大学洛杉矶分校UCLA统计学和计算机科学教授根据科普中国撰写的对计算机视觉的定义,这是一门研究如何让机器“看”的科学,更进一步的说,是指用计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。

2)·计算机视觉 VS 机器视觉


计算机视觉更关注图像信号本身以及图像相关交叉领域(地图、医疗影像)的研究;机器视觉则偏重计算机视觉技术工程化,更关注广义上的图像信号(激光和摄像头)和自动化控制(生产线)方面的应用。

3)计算机视觉识别技术的分类


物体识别分为“1 VS N”对不同物体进行归类,以及“1 VS 1”对同类型的物体进行区分和鉴别;物体属性识别,结合地图模型让物体在视觉的三维空间里得到记忆的重建,进而进行场景的分析和判断;物体行为识别分为3个进阶的步骤,移动识别判断物体是否做了位移,动作识别判断物体做的是什么动作,行为识别是结合视觉主体和场景的交互做出行为的分析和判断。

4)·计算机视觉的识别流程


计算机视觉识别流程分为两条路线:训练模型和识别图像。

训练模型:样本数据包括正样本(包含待检目标的样本)和负样本(不包含目标的样本),视觉系统利用算法对原始样本进行特征的选择和提取训练出分类器(模型);此外因为样本数据成千上万、提取出来的特征更是翻番,所以一般为了缩短训练的过程,会人为加入知识库(提前告诉计算机一些规则),或者引入限制条件来缩小搜索空间。

识别图像:会先对图像进行信号变换、降噪等预处理,再来利用分类器对输入图像进行目标检测。一般检测过程为用一个扫描子窗口在待检测的图像中不断的移位滑动,子窗口每到一个位置就会计算出该区域的特征,然后用训练好的分类器对该特征进行筛选,判断该区域是否为目标。

5 )计算机视觉技术模式图和对应企业图


目前世界上图像识别最大的数据库,是斯坦福大学人工智能实验室提供的ImageNet,针对诸如医疗等细分领域也需要收集相应的训练数据;Google、Microsoft此类科技巨头会面向市场提供开源算法框架,为初创视觉识别公司提供初级算法。

2.语音识别(Automatic Speech Recognition)


1)什么是语音识别

语音识别是以语音为研究对象,通过信号处理和识别技术让机器自动识别和理解人类口述的语言后,将语音信号转换为相应的文本或命令的一门技术。由语音识别和语音合成、自然语言理解、语义网络等技术相结合的语音交互正在逐步成为当前多通道、多媒体智能人机交互的主要方式。

2)语音识别的流程


语音识别流程分为训练和识别两条线路。

语音信号经过前端信号处理、端点检测等预处理后,逐帧提取语音特征,传统的特征类型包括有MFCC、PLP、FBANK等特征,提取好的特征会送到解码器,在训练好的声学模型、语言模型之下,找到最为匹配的此序列作为识别结果输出。


3)语音识别技术模式图和对应企业图


基础层:包含大数据、计算力和算法三块,其中大数据等接入的是相应领域的第三方服务商。机器在识别人类的语音指令后接入、提供相应的服务。诸如影视、电影票、餐饮等;

技术层:以科大讯飞为首的语音技术提供商;

应用层:传统家居环境中的电视、音箱厂商都给加上了语音识别功能,新增交互方式;还有智能车载采用语音交互让手不离开方向盘提高安全系数;还有搜索厂商基于搜索做出来的语音助手等。

3.自然语言理解(Natural Language Understanding)


1)什么是自然语言理解

自然语言理解即文本理解,和语音图像的模式识别技术有着本质的区别,语言作为知识的载体,承载了复杂的信息量,具有高度的抽象性,对语言的理解属于认知层面,不能仅靠模式匹配的方式完成。


2)自然语言理解的应用:搜索引擎+机器翻译;

自然语言理解最典型两种应用为搜索引擎和机器翻译。搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。

3)自然语言理解技术在搜索引擎中的应用


4)自然语言理解技术在机器翻译中的应用


事实上搜索引擎和机器翻译不分家,互联网、移动互联网为其充实了语料库使得其发展模态发生了质的改变。互联网、移动互联网除了将原先线下的信息(原有语料)进行在线化之外,还衍生出来的新型UGC模式:知识分享数据,像维基百科、百度百科等都是人为校准过的词条,噪声小;社交数据,像微博和微信等展现用户的个性化、主观化、时效性,可以用来做个性化推荐、情感倾向分析、以及热点舆情的检测和跟踪等;社区、论坛数据,像果壳、知乎等为搜索引擎提供了问答知识、问答资源等数据源。另一方面,因为深度学习采用的层次结构从大规模数据中自发学习的黑盒子模式是不可解释的,而以语言为媒介的人与人之间的沟通应该要建立在相互理解的基础上,所以深度学习在搜索引擎和机器翻译上的效用没有语音图像识别领域来得显著。


一图看懂新一代


人工智能知识体系大全









未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

一图看懂新一代人工智能知识体系大全相关推荐

  1. 一张图看懂新一代人工智能知识体系

    https://www.cnblogs.com/timxgb/p/7789948.html 今天大香看到一张图,关于人工智能的前世今生.内涵意义,可以说是大香见过最清楚全面的一张图了.人工智能是未来一 ...

  2. 新一代人工智能知识体系大全

    新一代人工智能知识体系大全,如下图:

  3. 一图看懂| 人工智能知识体系大全

    今天的文章比较特别,是的,如题,就是只有图,N张图带你看懂新一代人工智能知识体系大全!准备好了吗?Let's go! 不知道你看完之后是否对人工智能有一定的了解了呢?人工智能细分的范畴比我们想象的多太 ...

  4. 【格局】一张图看懂全球人工智能竞争格局|湾区人工智能

    5月24日,由科技部新一代人工智能发展研究中心.中国科学技术发展战略研究院联合国内外十余家机构编写.中国科学技术信息研究所.教育部学校规划建设中心.中国科学院自动化所.中国社科院工业经济研究所.上海市 ...

  5. 一张图看懂微软人工智能

    来源:微软科技 摘要:对于微软人工智能,你了解多少?是Cortana?是小冰?还是机器翻译?看完下面这张信息图,你会发现你所了解的,很可能只是冰山一角. 看完你是否想要立刻参加 微软中国首届人工智能大 ...

  6. 八张图看懂上海人工智能产业发展现状

    来源:中商产业研究院 据<行动方案>提出:集聚优势创新资源,聚焦开展专项行动,到2021年,全力打响上海人工智能"一流创新生态"标志性品牌.此外,<行动方案> ...

  7. 一张图看懂微软人工智能的布局

    一向低调的微软,最近在人工智能领域前所未有地高调了起来. 前两天,微软(亚洲)互联网工程院发布了一份技术声明,称人类历史上第一次与人工智能进行全双工语音电话,并不是发生在美国,而是在中国!这个人工智能 ...

  8. 思维导图-人工智能知识体系大全

  9. 人工智能知识体系大全

    知识的搬运工,转从https://blog.csdn.net/j2iayu7y/article/details/79709420 转自:https://blog.csdn.net/wyx100/art ...

最新文章

  1. aspose.cells 无法读取公式值_隐藏 Excel表格、公式的9种方法
  2. TinaFace:人脸检测新纪录
  3. 华为OJ系列之---表示数字
  4. script async和defer
  5. OpenCV计算机视觉实战(Python版)_002图像基本操作
  6. 性能测试:基础(4)
  7. 漏洞C:/Windows/Fonts/csrss.exe文件找不到简单查找方法
  8. 微信小程序需要用到服务器吗?
  9. PhotoShop 常用技巧记录
  10. NoSQLBooster for MongoDB延长使用时间
  11. python英语单词 扇贝英语安卓下载_扇贝单词英语版app最新版
  12. Android沉浸式
  13. 物联网卡设置_移动、联通、电信物联网卡APN设置教程
  14. Vue+ .netcore3.1 模拟QQ邮箱发送验证码
  15. Java工具类cntool
  16. 02操作符(Operators)操作符
  17. 操作系统——时钟中断的发生
  18. 第三方注解框架,黄牛刀.使用步骤和方法
  19. @高校学生开发者,为什么你一定要“上手”开源项目?
  20. Python_OpenCV调用摄像头完成人脸识别

热门文章

  1. 商汤及联合实验室入选论文重点解读 | ECCV 2018
  2. Linux实用命令集
  3. SAP零售行业解决方案初阶 4 – 维护品类
  4. 深度学习也利用进化论!李飞飞谈创建具身智能体,学动物进化法则
  5. 刘知远、赵鑫、施柏鑫:AI青年科研人员成长之路
  6. ACL2020 | 无监督?无监督!你没试过的BERT的全新用法
  7. 向海龙回应“被百度开除”:离开是为了专心做投资
  8. 强化学习在携程酒店推荐排序中的应用探索
  9. 他为何能够领跑互联网与AI时代?李彦宏讲述成功之道
  10. SAP LSMW 导入物料主数据报错 - You have not fully maintained the descriptions - 之分析