点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

作者丨仿佛若有光、DLing、CC查理

来源丨知乎问答

编辑丨极市平台

深度学习领域新技术层出不穷,顶尖的研究人员也愈来越多,当研究领域的前人精度已经很高了,我们该怎么创新,从哪些角度去创新呢?

问题链接:

https://www.zhihu.com/question/451438634

# 回答一

作者:仿佛若有光

公众号:CV技术指南

来源链接:

https://www.zhihu.com/question/451438634/answer/1813414490

常见的思路我临时给它们取了几个名字:无事生非,后浪推前浪,推陈出新,出奇制胜。

1. 在原始的数据集上加一些噪声,例如随机遮挡,或者调整饱和度亮度什么的,主要是根据具体的任务来增加噪声或扰动,不可乱来。如果它的精度下降的厉害,那你的思路就来了,如何在有遮挡或有噪声或其他什么情况下,保证模型的精度。(无事生非)

2. 用它的模型去尝试一个新场景的数据集,因为它原来的模型很可能是过拟合的。如果在新场景下精度下降的厉害,思路又有了,如何提升模型的泛化能力,实现在新场景下的高精度。(无事生非)

3. 思考一下它存在的问题,例如模型太大,推理速度太慢,训练时间太长,收敛速度慢等。一般来说这存在一个问题,其他问题也是连带着的。如果存在以上的问题,你就可以思考如何去提高推理速度,或者在尽可能不降低精度的情况下,大幅度减少参数量或者计算量,或者加快收敛速度。(后浪推前浪)

4. 考虑一下模型是否太复杂,例如:人工设计的地方太多,后处理太多,需要调参的地方太多。基于这些情况,你可以考虑如何设计一个end-to-end模型,在设计过程中,肯定会出现训练效果不好的情况,这时候需要自己去设计一些新的处理方法,这个方法就是你的创新。(后浪推前浪)

5. 替换一些新的结构,引入一些其它方向的技术,例如transformer,特征金字塔技术等。这方面主要是要多关注一些相关技术,前沿技术,各个方向的内容建议多关注一些。(推陈出新)

6.尝试去做一些特定的检测或者识别。通用的模型往往为了保证泛化能力,检测识别多个类,而导致每个类的识别精度都不会很高。因此你可以考虑只去检测或识别某一个特定的类。以行为识别为例,一些通用的模型可以识别几十个动作,但你可以专门只做跌倒检测。在这种情况下你可以加很多先验知识在模型中,换句话说,你的模型就是专门针对跌倒设计的,因此往往精度可以更高。(出奇制胜)

注:这种特定类的检测最好是有些应用前途,让人觉得现实中可以有。

以上都是一些针对性的思路,最原始的做法应该是看完方向上比较重要的论文后自己写一个综述,写的过程中往往会发现一些问题,不一定就是要去跟sota模型比精度,而是解决这个方向上还存在的问题。

例如前面提到的实现轻量化,提高推理速度,实现实时检测,设计end to end模型,都属于解决这个方向上存在的问题,此外还包括一些其他的问题,这个得根据具体任务才能分析。

如果说写完综述后还是没思路,一来是建议尝试以上思路,二来建议找一些跟你方向相关的经典论文看一看,边看边想,这四个字最重要。

# 回答二

作者:DLing

来源链接:

https://www.zhihu.com/question/451438634/answer/1815201106

这个创新暂且分学术创新和工业落地的业务创新。

学术创新:

大家在写论文做研究的时候,需要找创新点,但是别人指标已经很高了,这还怎么创新呢?其实创新也不一定非要提精度啊。

你看看下面这张图,有思路了没?

你模型指标不是很高么?那也是你现有的分布下指标高,我给你加点料你还能高么?大家可能要想,这不没事找事么,这人真讨厌。但实际上,目前深度学习被人诟病的就有这点,为什么一个人身上加点图案你就检测不出来了啊,那深度学习还能可信么?这样关于深度学习的攻击对抗方向就有了很重要的研究价值。

再看看这张图,有思路了没?

大家都知道transformer在nlp上效果很好,而最近大家cnn,cnn加传统attention已经玩腻了,指标也很高了,那就跨个界呗,让transformer也来cv界玩一玩,这样基本以前所有的论文都可以加transformer再来一次了。目前是transformer在cv上效果不错,大家趋之若鹜。即使,效果没这么好,那这种新的方向的引入也是很有价值的,效果好,皆大欢喜,效果没想象的那么好,那这个研究也至少为后人踩坑了嘛。

当然,除了这些,也可以在目前比较新的论文的结论和展望里看看作者有没有给出未来的研究目标与方向,如果有,那省的自己想了,沿着思路干就完了。

业务上的创新:

回答这一块,我还更熟一点,毕竟搞算法落地的。

工作中,经常有组内小伙伴说,这个模型已经99.5%了呀,还用优化么?怎么优化啊?我当时就会说,当然得优化了啊。

我们常常在业务中听说一个模型指标已经很高了,那肯定是现有场景,现有测试集的,但是客户需求一直在增加,场景在增加,老模型在新场景上的指标肯定会打折的,所以,持续更新测试集和训练集就很重要。

在更新数据集的同时,是不是可以想着优化优化推理速度呀,模型复杂度呀什么的。毕竟工程中也不是唯精度论嘛,有时候精度没那么重要,你要跟你leader说,你把推理时间从50ms优化到5ms,大概率会比准确率从98%优化到99%更让他高兴。

所以,真正工作业务中关注精度的同时,得关注具体业务,看业务需要什么?那我们就在哪个点做优化,做创新。精度啊,计算复杂度啊,部署友好啊,数据管理友好啊,训练时间友好啊,等等等等,多了去了。

最后,不管学术还是工程,做个有心人,一定会发现很多创新点的。

# 回答三

作者:CC查理

来源链接:

https://www.zhihu.com/question/451438634/answer/1816128126

自己在一直想同样的问题,也跟几个教授聊过,现在趁机整理一下。

我自己能理解的最高形式的创新是创建一个新的任务。往大了说叫做开创一个新的领域,往小了说是创建一个新的设定。这种情况下不用关心之前的方法的精度如何因为设定不同了,而只需要和自己新创立的基准方法(baseline)相比较即可。大概就是这么个意思,我认为想做这种工作需要非常强的学术能力和对于某几个方向的很深刻的理解才可能成功,一般交叉学科比容容易出现。但是现在很多瞎提研究方向都挺扯淡的以次充好。我自己也是在摸索,希望未来几年能做出来一个。

我认为的稍次一些但是依然非常好的创新形式是开发一个通用的方法。这种情况下不在乎也无需在一个流行的巨大的数据库上展示出很高的精度,而只是需要在一些很简单的数据库上显出其独特的优势和特性即可,精度不是重点。之前有一些很有启发性的方法就是这样提出来的,虽然很多方法后来被证明无法推广但是依然是有借鉴意义的。当然也有些很牛的通用性方法直接就在大型数据库上干翻所有人。我认为想做这种工作需要学术能力工程能力都很强才行,而且想出来的点子也很精妙。偶然见过一些被拒的文章也想走这个思路但是功力不够反而弄巧成拙。希望自己以后能做一些这种的工作。

再次的话就是观察现有的公开数据库的缺点,然后自己提出并采集一个新的数据库。新的数据库一定要戳中本领域现有数据库的一个或者几个痛点,并且完美补上这个痛点,这样开放数据库之后才会有很多人去使用。想做这种工作需要对一个小领域非常了解并且有能力有钱去做数据库。我看到过一些数据库没有切中痛点即使发表也不会有很多人使用,更多的是费力做数据库之后到处被拒。我之前做过一些工作就是数据库,觉得这个方向如果摸索到方式方法并且有资金还是很容易出成果的,而且对于目前科研推动意义也很大。

再再次就是提出一些模型的改进了并且一般都会在流行的大型数据库上刷一下分数,这里就有很多很多不同的方法来做,一般可以尝试用现在比较火的一些方法结构用在另外一个领域上,或者做一些各种方法的组合,或者专注于轻量化而不注重提高精度等等。只要创新性上做得够,即使精度没有提高甚至有那么一点下降也是可以接受的。这里的方法和形式就太多了,做的人最多竞争也是最激烈的。我自己的工作大都是这种类型毕竟自己还是处于初级阶段,希望自己以后能尽量减少这方面的工作。

以上是我自己的总结想法,当然也会有别人不认同的地方。比如大佬说:

点个在看 paper不断!

深度学习前人精度很高了,该怎么创新?相关推荐

  1. 深度学习前人精度很高了,该怎么创新?(论文发表,论文创新)

    深度学习领域新技术层出不穷,顶尖的研究人员也愈来越多,当研究领域的前人精度已经很高了,我们该怎么创新,从哪些角度去创新呢? 目录 回答一: 1.无事生非: 2.后浪推前浪: 3.推陈出新 4.出奇制胜 ...

  2. 深度学习前人精度很高了怎么创新?

    常见的思路我临时给它们取了几个名字:无事生非,后浪推前浪,推陈出新,出奇制胜. 1. 在原始的数据集上加一些噪声,例如随机遮挡,或者调整饱和度亮度什么的,主要是根据具体的任务来增加噪声或扰动,不可乱来 ...

  3. 深度学习对GPU要求高吗?为什么深度学习要用GPU?

    深度学习对GPU要求高吗?为什么深度学习要用GPU?实际上深度学习并不一定需要用GPU,只是如果不使用GPU,训练模型所耗的时间会变得巨长.GPU优势在于并行运算,而深度学习中的运算大部分都是矩阵运算 ...

  4. 点火提前角的修正方式有哪些_“天问一号”完成第二次轨道中途修正:精度很高,本次修正量很小...

    "天问一号"完成第二次轨道中途修正:精度很高,本次修正量很小 来源:央视网 记者从国家航天局获悉,2020年9月20日23时,在我国首次火星探测任务飞行控制团队控制下,天问一号探测 ...

  5. Carsim和simulink联合仿真轮胎力估计 基于滑模观测器SMO估计轮胎的纵向力和侧向力 模型估计的精度很高,测试的工况为双移线工况

    Carsim和simulink联合仿真轮胎力估计 基于滑模观测器SMO估计轮胎的纵向力和侧向力 模型估计的精度很高,测试的工况为双移线工况 基于SMO滑模观测器的轮胎力估计方法省去了轮胎模型的使用,避 ...

  6. 【深度学习】精度超越 ConvNeXt 的新 CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互...

    作者丨科技猛兽    编辑丨极市平台 本文提出了一种基于递归的门控卷积的通用视觉模型,是来自清华大学周杰老师,鲁继文老师团队,以及 Meta AI 的学者们在通用视觉模型方面有价值的探索. 本文目录 ...

  7. 浅谈深度学习混合精度训练

    ↑ 点击蓝字 关注视学算法 作者丨Dreaming.O@知乎 来源丨https://zhuanlan.zhihu.com/p/103685761 编辑丨极市平台 本文主要记录下在学习和实际试用混合精度 ...

  8. 【深度学习】知乎高赞:深度学习如何调参?

    深度学习如何调参?看看高赞的回答: 高赞回答一 作者:Towser 链接:https://www.zhihu.com/question/41631631/answer/862075836 总结一下我遇 ...

  9. 身份证识别(深度学习)-- 精度商用

    身份证识别-深度学习 -- 精度商用 身份证识别 身份证识别场景 身份证识别的流程 使用效果以及对应的python调用方式 识别效果 接口试用方式 效果交流方式 身份证识别 身份证识别场景 最近在做身 ...

最新文章

  1. javascript中实例方法与类方法的区别
  2. 被绞杀的网景:互联网门口第一滴血,互联网营销
  3. T.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.reflection.Reflectio
  4. 高等数学下-赵立军-北京大学出版社-题解-练习10.3
  5. pythondatetime_Date
  6. HDFS Shell基本操作总结
  7. java uuid fasterxml_可笑!可悲!可叹!你竟然还不知道Java如何生成UUID?
  8. K8S_Google工作笔记0009---通过二进制方式_操作系统初始化
  9. SAP License:SAP项目上线的时间选择
  10. java 跟 咖啡的关系
  11. html文本框自动填充,html利用文本框input自动填写当前日期
  12. wxWindows Frame程序简化版
  13. 综合能源系统及其应用
  14. 电信吉比特光纤猫虚拟服务器设置,光猫设置教程 华为光猫设置教程
  15. 安徽大学本科毕业论文中英文题目修改指南
  16. 使用电脑小技巧70个
  17. Silverlight学习之调用bing搜索引擎进行网络搜索
  18. tecplot——Fluent重叠网格解决方案
  19. 讨论java类的图书推荐
  20. php相册管理插件,相册插件-ZBLOGPHP插件-鸟儿网络

热门文章

  1. 对着电脑笑了二十分钟(2)
  2. C#语言与面向对象技术(6)
  3. VS2010 CUDA 5.5 VA_X Win7 64位配置
  4. 【Java】类与对象 - 参数传值
  5. Meta 发布 Bean Machine 帮助衡量 AI 模型的不确定性
  6. 大脑芯片公司Neuralink计划在人脑内植入芯片,他们到底想干什么?
  7. 支撑亿级用户“刷手机”​,百度Feed流背后的新技术装备有多牛?
  8. GitHub App终于来了,iPhone用户可尝鲜,「同性交友」更加便捷
  9. 前端也能玩转机器学习?Google Brain 工程师来支招
  10. 华为又一重拳!全球首款5G基站核心芯片“天罡”发布!