来源:知乎
原文链接:深度学习系统相比较传统的机器学习系统,针对常见的分类问题,精度究竟能有多大提升?

问题:

我现在手头有一个binary classification的问题。数据量在一百万左右。每个sample都是一个14个feature组成的vector。每个feature都是一个0~1的float数值。

我用random forest ;1000棵树,grid search 调参数。10 fold validation 大概76% 左右的precision/recall .

我是一个机器学习的外行,但是比较好奇如果我用一些深度学习的系统,比方说TensorFlow,针对我描述的这种二项分类的问题,我能否期盼着会有一个准确度的显著提升? 如果可以有这样的预期,一般大家都是怎么做的呢?

我手头的机器就是一台128G 32核的服务器。好像暂时没有别的好机器了。够用么?

我描述清楚了么? 恳请大家给予指导,谢谢!

我爱机器学习回答:

先分析下问题,100万训练数据14个特征,如果你的特征表征能力牛逼,数据偏差不大,机器学习书里面随便挑个分类算法90%精度不在话下,但现在模型能力很强的随机森林都只能到76%左右,那么肯定哪里出了问题,问题在哪里,看case是王道。当然这个问题中特征表征能力不够可能性比较大,那接下来的事情就是特征工程,找什么样的特征,依然是看case,看看badcase是因为缺失什么样的特征导致,紧紧围绕问题本身。

连续特征的二分类问题,除了数据本身和特征工程,模型方面GBDT系列应该是非常合适的选择,这块无需细说,翻翻Kaggle就知其厉害。

不要在当前阶段跳出来寻觅炒上天的Deep Learning的帮助,Deep Learning确实足够强大,但它有自己的适用场景,比如人脸识别/OCR之类的视觉应用,如果是这类应用,那就直接上Deep Learning就好。

那么二分类或者多分类的传统机器学习问题(特征为整数/浮点数/枚举等类型时)上,Deep Learning到底搞得过传统机器学习算法不?答案依然是需要具体问题具体分析。
1. 有些问题,手写规则足以秒杀一切,只要规则击中要害就好;
2. 有些数据量非常大特征工程足够细致时,模型的重要性变得相对次要,LR系列广义线性模型足以满足需求,比如广告点击预测很长时期都是LR/BPR/FTRL之类为主要模型,只是特征工程中可能广泛用到LDA/Deep Learning等模型;
3. 当然还有些问题,比如判断图片是不是汽车的二分类问题,只要标注数据到位,Deep Learning可以本色出演了。

转载于:https://www.cnblogs.com/DjangoBlog/p/7795073.html

深度学习系统相比较传统的机器学习系统,针对常见的分类问题,精度究竟能有多大提升?...相关推荐

  1. 深度学习的开胃菜——常用的机器学习知识梳理

    文章目录 摘要 1.1 常见概念 1.1.1 机器学习本质 1.1.2 什么是神经网络 1.1.3 各种常见算法图示 1.1.4 计算图的导数计算 1.1.5 理解局部最优与全局最优 1.1.6 大数 ...

  2. 基于深度学习的高精度家禽猪检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度家禽猪检测识别系统可用于日常生活中或野外来检测与定位家禽猪目标,利用深度学习算法可实现图片.视频.摄像头等方式的家禽猪目标检测识别,另外支持结果可视化与图片或视频检测结果的导 ...

  3. 基于深度学习的高精度牙齿健康检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度牙齿健康检测识别系统可用于日常生活中检测牙齿健康状况,利用深度学习算法可实现图片.视频.摄像头等方式的牙齿目标检测识别,另外支持结果可视化与图片或视频检测结果的导出.本系统采 ...

  4. 清华大学矣晓沅:“九歌”——基于深度学习的中国古典诗歌自动生成系统

    授权自AI科技大本营(ID:rgznai100) 本文共2714字,建议阅读6分钟. 本文为你介绍清华自然语言处理与社会人文计算实验室的自动作诗系统--"九歌"及其相关的技术方法和 ...

  5. 基于深度学习的智能PCB板缺陷检测系统(Python+清新界面+数据集)

    摘要:智能PCB板缺陷检测系统用于智能检测工业印刷电路板(PCB)常见缺陷,自动化标注.记录和保存缺陷位置和类型,以辅助电路板的质检.本文详细介绍智能PCB板缺陷检测系统,在介绍算法原理的同时,给出P ...

  6. 【深度学习】一文读懂机器学习常用损失函数(Loss Function)

    [深度学习]一文读懂机器学习常用损失函数(Loss Function) 最近太忙已经好久没有写博客了,今天整理分享一篇关于损失函数的文章吧,以前对损失函数的理解不够深入,没有真正理解每个损失函数的特点 ...

  7. 深度学习导论与应用实践(机器学习篇)

    深度学习导论与应用实践(机器学习篇) 前言 机器学习概述 机器学习基本定义和基本术语 数据预处理 数据清洗 数据集拆分 机器学习三要素 1.模型 判别模型和生成模型 概率模型和非概率模型 机器学习方法 ...

  8. 基于深度学习的恶意样本行为检测(含源码) ----采用CNN深度学习算法对Cuckoo沙箱的动态行为日志进行检测和分类...

    from:http://www.freebuf.com/articles/system/182566.html 0×01 前言 目前的恶意样本检测方法可以分为两大类:静态检测和动态检测.静态检测是指并 ...

  9. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

最新文章

  1. VIM 必知必会12大类型操作
  2. Mongodb最佳实践及使用问题
  3. 《像计算机科学家一样思考Java》—— 导读
  4. C++小项目-吃豆子游戏
  5. 远程登录shell命名sftp_开发好物推荐13强于XShell远程连接FinalSHell
  6. 精品软件 推荐 常用软件 游戏的 运行库 下载 合集 3D game 玩游戏的一定要收藏一下。...
  7. python中的反三角函数_用公式计算反三角函数
  8. 强化学习算法TRPO之共轭梯度优化
  9. android qq传文件夹,电脑传到手机QQ的资料在哪个文件夹里?
  10. 接地/漏电(原理图)/接零/零线保护
  11. 计算机显示器分辨率,现在电脑的主流显示器的分辨率一般是多大?
  12. android悬浮按钮实现方法
  13. 百度 android 市场,百度Q2报告:Android市场份额21.4% 同比增长890%
  14. HMM(马尔科夫过程及隐马尔科夫过程)
  15. QQ宠物吹泡泡游戏小助手 VC++6.0代码分析
  16. JAVA unusual问题收集
  17. html如何让前端搜索框靠右?
  18. NOIP2017 复赛游记
  19. 数据库的数据导入与导出
  20. 2006A每日任务安排

热门文章

  1. nextcloud服务器处于维护模式,Nextcloud 加密开启与管理
  2. linux 后台计算,科学网-如何在Linux中做批处理和后台计算-张彦的博文
  3. rust怎么不要的墙拆掉_封阳台,栏杆要不要拆掉?栏杆装在玻璃窗里面还是外面...
  4. c语言在dos下执行bat文件,应用dos批处理文件经常用到的DOS常用命令
  5. 编写mysql的工具_自己编写的数据库工具类
  6. 实验7-3-3 统计大写辅音字母 (15分)
  7. 『设计模式』大话西游的移魂大法竟移出来了桥接模式
  8. 分布式锁是啥?zk还是redis?
  9. linux应用之----进程控制理论
  10. 【Ubuntu-opencv3.4.0-Error】对‘cv::Mat::updateContinuityFlag()’未定义的引用