最近一直在加班,总算是把课题指标和项目集成的第三方测评通过了,也踩了不少坑,正好总结反思一下。

任务背景

  • 为了项目和课题验收,需要对任务书中的技术指标进行第三方测试,并拿到第三方出具的测试报告,作为项目和课题验收的一个重要材料。

测评要求

  • 第三方测试中心对所测任务提出了补充要求:
  • 采用“离线+在线”结合的形式,要有现场注册验证环节;
  • 各个任务点对测试集至少随机采样2次以上,取其平均结果作为最终评测结果;
  • 各任务点能够对预测/识别/检测的数据输入、处理过程、输出结果进行可视化,仅仅给出一个数字结果不够。
  • 程序的运行命令、输入路径、输出路径、运行时间等信息也需要输出,以证明结果是由程序跑出来的,程序和数据集也需要拷贝留存。

单项测评和集成测评

  • 单项测评主要针对每一项算法的性能指标,比如某算法准确率、计算速度等。
  • 集成测评则是针对整个项目关键技术集成后的验证系统进行测评,包含功能项测评和技术指标测评。

测评流程

  • 首先,需要用明确的文字对测评流程的每一步骤进行细化,必要时现场修改相关测试项,并向第三方测评机构的人员解释清楚每一个测试步骤和计算原理
  • 然后,在测评电脑上开启录屏,输入数据或命令,运行测试程序,操作程序和获取指标计算结果的全过程都需要录像,作为相关证据存档。
  • 测评过程中,需要从数据集中多次采样,计算指标结果,并与预期目标进行比较,验证测评结果。
  • 最后,整理所有过程数据、结果数据、计算脚本和录屏文件,提交给第三方测评公司存档。

测评中遇到的各种问题

  • 任务拆分与总目标的对接
    负责关键技术研发的课题,和负责验证系统研发的课题,缺乏交流和对接,导致快到项目验收阶段,很多关键技术来不及进行有效集成,各个课题只关心自己的技术指标,只做了在固定数据集上、demo层面的展示,没有在真实应用场景里进行集成和优化,用测评公司的人的来说,你们这就是各自开发了一堆demo,根本不能说明这些关键技术进行了集成和应用呀。
  • 分工不明确、职责不明晰:
    当一群人都听到一个任务时,尤其是比较繁琐、比较麻烦的任务,谁也不会主动去做,因为总觉得别人会去做。心理学上有一种“拉绳实验”就是解释这种“责任分散效应” 。以后在分配任务时,就应该明确各个成员的职责,把责任落实到个人,如果分工不明确、职责不明晰,就会导致大家都不愿意为模糊的任务目标负责,导致进度的延误。
  • 给测试环节预留充分时间:
    这次由于集成测评的时间安排非常紧张,只有7天左右的时间进行准备,包括代码编写、数据采集和算法调优等工作,所以我分配了2天时间采集、整理、标注数据,2天时间写代码和测试脚本,剩余2天左右与后台集成联调,最后1天进行参数调优以保证指标顺利通过。 实际发现——在集成联调阶段出现的问题是最多的,不光是算法的问题,后台的调用、析构、多线程都可能会对算法运行结果造成影响,下次需要给联调测试留出更多的时间,而不是一直只在算法模块这边进行单路测试。

一次项目测评反思:数据准备、测评要求和各种问题记录相关推荐

  1. 国内主流PHP语言的CMS数据负载测评报告 织梦、帝国竟排倒数

    当今时代网络已经进入家庭,很多网民已经不满足于QQ以及一些blog的个性展现而走向了网站建设的站长之路,一些个人网站的崛起也让他们看到了成功的曙光,与此同时,各类网站管理系统(以下简称cms)也犹如雨 ...

  2. 大数据测评/大数据技术与应用 - 电子书下载(高清版PDF格式+EPUB格式)

    大数据测评_大数据技术与应用-蔡立志 在线阅读                   百度网盘下载(guj0) 书名:大数据测评/大数据技术与应用 作者:蔡立志 格式:EPUB, HTMLZ, PDF ...

  3. 利用JAVA向Mysql插入一亿数量级数据—效率测评

    利用JAVA向Mysql插入一亿数量级数据-效率测评 这几天研究mysql优化中查询效率时,发现测试的数据太少(10万级别),利用 EXPLAIN 比较不同的 SQL 语句,不能够得到比较有效的测评数 ...

  4. 【等级测评师】等级测评师怎么报名?多少分及格?

    随着等保政策的严格落地执行,越来越多的企业需要过等保,越来越多小伙伴想成为等保测评师.那怎么才能成为等级测评师呢?怎么报名?多少分及格? 等级测评师怎么报名? 需要去等级测评机构单位统一报名.初.中. ...

  5. 等保测评--网络安全等级保护测评过程指南

    GB/T 28449-2018 信息安全技术网络安全等级保护测评过程指南 范围 适用于测评机构.定级对象的主管部门及运营使用单位开展网络安全等级保护测试评价工作 规范等保测评工作过程,规定测评活动及工 ...

  6. 亚马逊手机端测评软件/PC端测评软件各有什么优缺点?

    亚马逊手机端测评软件/PC端测评软件各有什么优缺点? 亚马逊测评氛围手机端测评和web端测评.之前用的更多的还是手机端测评,因为这比较符合真实用户的操作习惯,但是随着亚马逊网页端的不断优化,不少欧美国 ...

  7. 数仓建模 项目_音乐数据项目火力全开,技能双倍提升!

    ↑ 点击上方"尚学堂"关注我们 音乐数据中心数仓综合项目 1项目介绍 音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户.机器.内容等主题 ...

  8. 全球项目多区域数据同步问题解决方案

    全球项目多区域数据同步问题解决方案 参考文章: (1)全球项目多区域数据同步问题解决方案 (2)https://www.cnblogs.com/jaylongli/p/11210376.html 备忘 ...

  9. 后盾网lavarel视频项目---1、数据迁移

    后盾网lavarel视频项目---1.数据迁移 一.总结 一句话总结: 1.lavarel的数据迁移比较简单,就是用php来创建数据表 2.创建迁移文件:php artisan make:migrat ...

最新文章

  1. SQL语句中的AND和OR执行顺序问题
  2. Android 圆形/圆角图片的方法
  3. 每天一道LeetCode-----将单词数组分成多行,每行长度相同,单词之间用空格分隔,要求空格尽量均匀分布
  4. eclipse launching workspace太慢的解决方法
  5. 12-图像梯度-Scharr算子和laplacian算子
  6. C++ STL 迭代器5种类型 简介
  7. UVA 694-The Collatz Sequence
  8. transformer中attention计算方式_Transformer在推荐模型中的应用总结
  9. oracle日志可以存多久,oracle存档日志
  10. Redis安装基本步骤
  11. 新品流量 DRS动态评分 店铺层级 搜索权重 增加流量 保持流量持续上升的技巧
  12. java导出excel_Java使用poi组件导出Excel格式数据
  13. 001.flink内存分配机制
  14. unity 导入gltf_GLTF相关资料
  15. 带宽、线速、吞吐量概念
  16. 计算机清单笔记本,2019吃鸡笔记本电脑配置清单,吃鸡高手给你分享
  17. 【陈工笔记】# 如何用WPS演示给PPT加水印 #
  18. 关键字驱动和数据驱动
  19. KISSY基础篇乄KISSY之DOM(2)
  20. anaconda3 mysql_Win10+Anaconda3+Eclipse+Django+MySQL 配置Python的Web开发环境

热门文章

  1. ecshop操作数据库类
  2. 换了一个皮肤,心情也好多了
  3. 面试:String 常量池
  4. NodeJS配置国内源
  5. 容器编排技术 -- Kubernetes kubectl 与 Docker 命令关系
  6. 容器编排技术 -- Kubernetes Pod 生命周期
  7. OSPF工作机制——OSPF邻居状态机详解(附图)
  8. .net core 开发 Windows Forms 程序
  9. UiPath实践经验总结(二)
  10. 【Fiddler 问题】解决关于Fiddler 抓包中,手机网络配置代理后,无法上网