原文链接:https://blog.csdn.net/lhh08hasee/article/details/81748680
作者:凌晨点点

人工智能测试

什么是人工智能,人工智能是怎么测试的。可能是大家一开始最想了解的。

大家看图中关于人工智能的定义。通俗点来说呢,就是 让机器实现原来只有人类才能完成的任务;比如看懂照片,听懂说话,思考等等。
很多人测试的同学会问,那人工智能是怎么测试的?其实这个问题本身问的不太对。

举个例子,把 人工智能 比做 水果。如果有人问你 “水果是怎么吃的”,你可能不知道怎么回答。
在不知道是什么类型的水果,或者具体是什么水果的时候,恐怕不能很好的回答这个问题。
那正确的问法是什么,可以从具体的人工智能应用的来问:

机器学习项目怎么测试
推荐系统项目怎么测试
图像识别项目怎么测试
自然语言处理项目怎么测试。

目前应用最广泛的人工智能也是这四个类型。

刚刚把人工智能比作水果,我们知道,吃水果的方法有很多。可以把机器学习比作 一种吃水果的方法。如果用刀切这种方法。深度学习又是机器学习的一个分支。大概的关系图如图中显示。

测试什么
一般这些项目都要测试什么,要进行什么类型的测试。

1. 模型评估测试

模型评估主要是测试 模型对未知新数据的预测能力,即泛化能力。
泛化能力越强,模型的预测能力表现越好。而衡量模型泛化能力的评价指标,就是性能度量(performance measure)。性能度量一般有错误率、准确率、精确率、召回率等。

2. 稳定性/鲁棒性测试

稳定性/鲁棒性主要是测试算法多次运行的稳定性;以及算法在输入值发现较小变化时的输出变化。
如果算法在输入值发生微小变化时就产生了巨大的输出变化,就可以说这个算法是不稳定的。

3. 系统测试

将整个基于算法模型的代码作为一个整体,通过与系统的需求定义作比较,发现软件与系统定义不符合或与之矛盾的地方。
系统测试主要包括以下三个方面:
1、项目的整体业务流程
2、真实用户的使用场景
3、数据的流动与正确

4. 接口测试

接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换,传递和控制管理过程,以及系统间的相互逻辑依赖关系等。

5. 文档测试

文档测试是检验用户文档的完整性、正确性、一致性、易理解性、易浏览性。
在项目的整个生命周期中,会得到很多文档,在各个阶段中都以文档作为前段工作成果的体现和后阶段工作的依据。为避免在测试的过程中发现的缺陷是由于对文档的理解不准确,理解差异或是文档变更等原因引起的,文档测试也需要有足够的重视。

6. 性能测试

7. 白盒测试–代码静态检查

8. 竞品对比测试

如果有涉及时,可针对做竞品对比测试,清楚优势和劣势。比如AI智能音箱产品。

9. 安全测试

发布上线后,线上模型监控

测试数据
不管是机器学习,推荐系统,图像识别还是自然语言处理,都需要有一定量的测试数据来进行运行测试。
算法测试的核心是对学习器的泛化误差进行评估。为此是使用测试集来测试学习器对新样本的差别能力。然后以测试集上的测试误差作为泛化误差的近似。测试人员使用的测试集,只能尽可能的覆盖正式环境用户产生的数据情况。正式环境复杂多样的数据情况,需要根据上线后,持续跟进外网数据。算法模型的适用性一定程度上取决于用户数据量,当用户量出现大幅增长,可能模型会随着数据的演化而性能下降,这时模型需要用新数据来做重新训练。

上线只是完成了一半测试,并不像APP或者WEB网站测试一样,测试通过后,发布到正式环境,测试工作就完成了。
测试集如何选取很关键,一般遵循两个原则:

测试集独立同分布
测试数据的数量和训练数据的比例合理
测试集独立同分布
不能使用训练数据来做为测试数据,此为独立。
测试数据需要和训练数据是同一个分布下的数据,此为分布。
举个例子,训练数据中正样本和负样本的分布为7:3,测试数据的分布也需要为7:3,或者接近这个分布,比较合理

测试数据的数量和训练数据的比例合理
当数据量比较小时,可以使用 7 :3 训练数据和测试数据
(西瓜书中描述 常见的做法是将大约 2/3 ~ 4/5 的样本数据用于训练,剩余样本用于测试)
或者 6: 2 : 2 训练数据,验证数据和测试数据。
如果只有100条,1000条或者1万条数据,那么上述比例划分是非常合理的。

如果数据量是百万级别,那么验证集和测试集占数据总量的比例会趋向于变得更小。如果拥有百万数据,我们只需要1000条数据,便足以评估单个分类器,并且准确评估该分类器的性能。假设我们有100万条数据,其中1万条作为验证集,1万条作为测试集,100万里取1万,比例是1%,即:训练集占98%,验证集和测试集各占1%。对于数据量过百万的应用,训练集可以占到99.5%,验证和测试集各占0.25%,或者验证集占0.4%,测试集占0.1%。

一般算法工程师会将整个数据集,自己划分为训练集、验证集、测试集。或者训练集、验证集 等等。(这里的测试集是算法工程师的测试数据)
算法工程师提测时,写明自测时的准确率或其他指标。测试人员另外收集自己的测试集。
测试数据可以测试人员自己收集。或者公司的数据标注人员整理提供。或者爬虫。外部购买。
测试人员可以先用算法工程师的测试集进行运行测试查看结果。再通过自己的测试集测试进行指标对比。

测试用例思考点
第二篇(https://blog.csdn.net/lhh08hasee/article/details/82080090)

【AI测试】什么是人工智能, 怎么测试人工智能 (AI)项目相关推荐

  1. AI小白也可以用的人工智能算力平台—极链AI云(附yolov5的测试与部署)

    环境配置难,小白无从下手? 使用模型学习成本高? 下载数据集用时太久? 学习的路上总是有这么多绊脚石...... 但是在极链AI云平台,以上都不是问题! 平台有大量的现成模型和数据集,供小白随取随用! ...

  2. 人工智能测试是什么意思_测试工程师必须懂这些

    阿里妹导读:近几年人工智能.机器学习等词漫天遍地,似乎有一种无AI,无研发,无AI,无测试的感觉.有人说:不带上"智能"二字,都不好意思说自己是创新.我们先暂且不评论对错,只探讨这 ...

  3. Uber 提出损失变化分配方法 LCA,揭秘神经网络“黑盒” 60s测试:你是否适合转型人工智能? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

    神经网络(Neural networks,NN)在过去十年来硕果累累,推动了整个行业的机器学习进程.然而,虽然许多神经网络在一些任务中表现相当出色,但网络本质上是一个复杂的系统,之前的研究已经分析了神 ...

  4. 我们正在努力; 具备人工智能的测试机器人

    2017.6.8, 深圳, Ken Fang 软件测试是否真正具备 AI (人工智能) 的自动化测试, 应该是有它的定义或层级的: @ 真正期望的是:我们分不清楚到底是 AI (人工智能) 机器人正在 ...

  5. 《人工智能学家》启动2016世界人工智能智商测试,原理和方法

    2016年1月11日,<人工智能学家>研究团队正式启动2016年世界人工智能系统智商测试工作.<人工智能学家>主编,计算机博士刘锋,科学院大学刘颖,胡蓝艺,余曼璐联合研究团队在 ...

  6. AI一分钟 | 柯洁战胜AI“求报道”,期待正式与围棋AI下让子棋;小米MIUI 10全面启动,主打人工智能人机交互

    一分钟AI 柯洁战胜AI求报道 称与zero下差距不会超过3子 小米MIUI 10全面启动 主打人工智能人机交互 AI医药研发公司晶泰科技完成1500万美元B轮融资,红杉领投,谷歌跟投,腾讯追加投资 ...

  7. ai人工智能收入_人工智能促进收入增长:使用ML推动更有价值的定价

    ai人工智能收入 介绍 (Introduction) Pricing optimization is a powerful lever for revenue growth, yet it's too ...

  8. AI技术的“践行者” — 云测试成为企业降本增效利器

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 目前,人工智能技术对于加速企业数字化转型.提高信息利用效率等方面都起着重大作用. 尤其在提升社会劳 ...

  9. 【AI+餐饮】人工智能进军餐饮:AI 调酒,越喝越有

    By 超神经 场景描述:「吃」,现在已经成了一种文化,对食物的不懈追求,可以说是人类历史的一种推动力.从烹饪的进化,到现在花样百出的美食,食物搭配又会出现哪些新意,对于食物相克的盲从,也预示着新的方法 ...

  10. AI实战!开源一个机器学习/情感分析实战项目(附源码/教程)|湾区人工智能...

    分享一个在公司做的机器学习文本分类项目的demo,该分类项目是一个通用的文本分类项目,这里的数据集我酒店用户评价数据,分类模型为二分类,正面评价和负面评价,这里所说的通用,就是你可以根据你自己的数据, ...

最新文章

  1. 有些时候,我们以为对的意见,往往在行家看来是比较幼稚之亲身经历
  2. java通过ldap添加用户后_ldap连接不上改用户_JAVA通过LDAP做用户登录认证,怎么做业务的异常处理?...
  3. DataTable的Merge\COPY\AcceptChange使用说明
  4. Linux守护进程的创建(结合nginx框架)
  5. html兼容webki,评IE10对HTML5的完美支持
  6. 使用Python 正则匹配两个特定字符之间的字符方法
  7. KR C C90,C99的改进
  8. 普元EOS开发积累第二篇(常见错误解决方法) 持续更新
  9. on one's own用法
  10. 保持hlist_node内存的紧凑性连续性以提高遍历性能
  11. 窥尽大数据背后被遮掩起来的财富
  12. Android自定义折线图,可设置基准线,不同点颜色
  13. 利用VBA在Word中排出漂亮的代码
  14. oracle 10g ora12560,OracleORA-12560解决方法
  15. 基于深度强化学习的室内场景目标驱动视觉导航
  16. 史上最详细Mysql免安装版教程
  17. SSM医院移动收费运维平台毕业设计源码161045
  18. 甲骨文混合云战略融合数据库技术
  19. Ubuntu 18.04环境配置系统设置
  20. oracle 测试坚挺,Oracle RMAN测试

热门文章

  1. oracle wip表,oracle ebs wip表关系(Oracle, EBS, WIP table relations).doc
  2. maven可用国内镜像 阿里云 飞速下载
  3. Chrome浏览器将.crx文件拖到扩展程序却无法使用
  4. Android美图手机太低,十个你不知道的美图秀秀Android版小秘密
  5. 基于matlab/simulink环境下空调房间仿真模型的建立,基于Matlab/Simulink环境下空调房间仿真模型的建立...
  6. PyTorch机器学习与深度学习技术方法与案例实践应用
  7. linux文件权限加密,Linux用户权限文件详解
  8. express安全响应头中间件helmet
  9. seo 优化 诗歌‘百雅歌’
  10. 产品经理常用工具锦集