文 /杨晓宁

随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,传统的小数据上的机器学习算法很多已不再适用。因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。

传统机器学习的问题主要包括如下4个方面:理解并模拟人类的学习过程;针对计算机系统和人类用户之间的自然语言接口的研究;针对不完全的信息进行推理的能力,及自动规划的问题;构造可发现新事物的程序。

传统机器学习面临的一个新挑战是如何处理大数据。由于现有的机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。如何让新机器学习算法适应大数据处理需求,是大数据时代的研究热点之一。

数据分治与并行处理策略是大数据处理的基本策略,尤其是近年来在分布式和并行计算有很大发展的情况下,分治策略显得尤为重要。一般来说,数据中不同样本对学习结果的重要程度并不相同,一些冗余和噪音数据不仅造成大量的存储耗费,降低学习运行效率,还会影响学习进度,因此更倾向于依据一定的性能标准(如保持样本分布、拓扑结构以及保持分类精度等)选择代表性样本形成原样本空间的子集,之后在子集上构造学习方法,完成学习任务。

在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据往往是大数据集,其中包含的属性和记录数据都很大,导致处理算法的执行效率低下,通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。

鲁棒是Robust的译音,是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,也指控制系统在一定结构、大小的参数摄动下,维持其他某些性能的特性。

在监督学习中面临的挑战是如何处理大数据,面临的两大瓶颈是计算密集几乎不能用于大规模数据集,鲁棒和非参数的置信区间的拟合预测往往是未知的。

国内外学者已开始对机器学习算法进行改进,针对大规模数据的分类问题,在增量核主成分分析和基于共轭梯度的最小二乘支持向量机算法基础上,大数据领域专家卡姆等提出适用于大数据特征提取和分类算法。该算法所需内存较少,无需存储较大矩阵,可更好地解决大规模数据分类问题。类似改进还有很多,常用的改进方法有随机梯度下降、小批量梯度下降、在线学习等。

(作者单位:北京弘治锐龙教育科技有限公司)

大数据算法_大数据时代,机器学习算法该如何升级?相关推荐

  1. 深度学习算法和机器学习算法_是否可以使机器学习算法无需编码

    深度学习算法和机器学习算法 I am a firm believer that the previous step to making your own Machine Learning Algori ...

  2. #时间预测算法_基于超级学习者机器学习算法预测ICU患者急性低血压发作

    点击"蓝字"关注,更多精彩内容! 背景 急性低血压发作(AHE),定义为平均动脉压下降至<65mmHg且至少持续5分钟,是重症监护病房(ICU)最严重的不良事件,往往导致重症 ...

  3. 如何成为数据科学家_成为数据科学家需要了解什么

    如何成为数据科学家 Data science is one of the new, emerging fields that has the power to extract useful trend ...

  4. k近邻算法_图穷匕见:K近邻算法与手写数字识别

    机器学习算法是从数据中产生模型,也就是进行学习的算法.我们把经验提供给算法,它就能够根据经验数据产生模型.在面对新的情况时,模型就会为我们提供判断(预测)结果.例如,我们根据"个子高.腿长. ...

  5. 【大数据实战项目八】使用机器学习算法进行预测分析并进行网上部署

    使用机器学习算法进行预测分析并进行网上部署 9 使用机器学习算法进行预测分析 9.1 数据探索式分析 9.1.1 环境配置与数据读入 9.1.2 探究延误航班有多少数据量 9.1.3 探究出发延期到达 ...

  6. 学大数据要学哪些算法_大数据专业是学什么?

    01 大数据技术专业属于交叉学科:以统计学.数学.计算机为三大支撑性学科:生物.医学.环境科学.经济学.社会学.管理学为应用拓展性学科.还需要学习数据采集.分析.处理软件,学习数学建模软件及计算机编程 ...

  7. 大数据算法_大数据最核心的关键技术——32个算法

    奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果, ...

  8. 什么是大数据口子_大数据分析师年薪几十万,学什么专业才能从事大数据?

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  9. 机器学习算法_五分钟了解机器学习十大算法

    本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的机器学习算法. 机器学习是该行业的一个创新且重要的领域.我们为机器学习程序选择的算法类型,取决于我们想要实现的目标. 现在,机器学习有很多算法 ...

最新文章

  1. 如何创建一个百分百懂你的产品推荐系统 | 深度教程(附代码详解)
  2. ACMNO.27 Python的两行代码解决 C语言-字符逆序 写一函数。使输入的一个字符串按反序存放,在主函数中输入输出反序后的字符串。 输入 一行字符 输出 逆序后的字符串
  3. 交换变量和String类初始化:JAVA入门基础
  4. python语言能做什么软件-python语言能做什么?
  5. 从tcp到netty(一)
  6. python 单元测试 unittest
  7. (59) 解决在列表视图复制导致打开详细内容
  8. 2.php函数,PHP常用函数总结(2)
  9. 四叶草社交平台——十天冲刺(5)
  10. 服务器集成显卡性能,Win8.1与Ubuntu 14.10:集成显卡性能PK
  11. 单源最短路径——Dijkstra代码实现
  12. php中嵌套html代码和html代码中嵌套php方式
  13. Flink WriteRedis
  14. 厉害了,Apache架构师们遵循的 30 条设计原则
  15. 大数据的核心价值是什么?
  16. 前加加与后加加(自增)
  17. UiPath Excel 数据筛选修改
  18. python 词云(Word Cloud)设计
  19. 谷歌浏览器里部分字体变模糊的问题。
  20. USACO 2018 January Contest

热门文章

  1. windows中打开计算器的快捷键
  2. scrapy深入爬取苏宁易购图书信息
  3. Cascade RCNN
  4. Springboot中添加contextPath
  5. Cordova 编译打包 gradle下载慢的曲线救国解决办法
  6. Android-嵌入式蓝牙 多年蓝牙产品开发学习心路历程分享-A2DP音频流的建立、A2DP播放暂停音乐命令交互、HFP、AVRCP、RFCOMM、OPP、AVDTP
  7. JavaScript 国庆倒计时小案例
  8. 拥抱 Spring 全新 OAuth 解决方案
  9. Minecraft 1.18.1、1.18.2模组开发 01.eclipse 开发包构建教程
  10. 袁红岗的程序员修炼之道