在大数据时代,人们迫切希望在由普通机器组成的大规模集群上实现高性能的以机器学习算法为核心的数据分析,为实际业务提供服务和指导,进而实现数据的最终变现。与传统的在线联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术,一般而言,机器学习模型的训练过程可以归结为最优化定义于大规模训练数据上的目标函数并且通过一个循环迭代的算法实现,因而与传统的OLAP相比较,基于机器学习的大数据分析具有自己独特的特点。

(1)迭代性:由于用于优化问题通常没有闭式解,因而对模型参数确定并非一次能够完成,需要循环迭代多次逐步逼近最优值点。

(2)容错性:机器学习的算法设计和模型评价容忍非最优值点的存在,同时多次迭代的特性也允许在循环的过程中产生一些错误,模型的最终收敛不受影响。

(3)参数收敛的非均匀性:模型中一些参数经过少数几轮迭代后便不再改变,而有些参数则需要很长时间才能达到收敛。

这些特点决定了理想的大数据分析系统的设计和其他计算系统的设计有很大不同,直接应用传统的分布式计算系统应用于大数据分析,很大比例的资源都浪费在通信、等待、协调等非有效的计算上。

传统的分布式计算框架MPI(messagepassinginterface,信息传递接口)虽然编程接口灵活功能强大,但由于编程接口复杂且对容错性支持不高,无法支撑在大规模数据上的复杂操作,研究人员转而开发了一系列接口简单容错性强的分布式计算框架服务于大数据分析算法,以MapReduce、Spark和参数服务器ParameterServer等为代表。

分布式计算框架MapReduce将对数据的处理归结为Map和Reduce两大类操作,从而简化了编程接口并且提高了系统的容错性。但是MapReduce受制于过于简化的数据操作抽象,而且不支持循环迭代,因而对复杂的机器学习算法支持较差,基于MapReduce的分布式机器学习库Mahout需要将迭代运算分解为多个连续的Map和Reduce操作,通过读写HDFS文件方式将上一轮次循环的运算结果传入下一轮完成数据交换。在此过程中,大量的训练时间被用于磁盘的读写操作,训练效率非常低效。为了解决MapReduce上述问题,Spark基于RDD定义了包括Map和Reduce在内的更加丰富的数据操作接口。不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,这些特性使得Spark能更好地适用于数据挖掘与机器学习等需要迭代的大数据分析算法。基于Spark实现的机器学习算法库MLLIB已经显示出了其相对于Mahout的优势,在实际应用系统中得到了广泛的使用。

近年来,随着待分析数据规模的迅速扩张,分析模型参数也快速增长,对已有的大数据分析模式提出了挑战。例如在大规模话题模型LDA中,人们期望训练得到百万个以上的话题,因而在训练过程中可能需要对上百亿甚至千亿的模型参数进行更新,其规模远远超出了单个节点的处理能力。为了解决上述问题,研究人员提出了参数服务器(ParameterServer)的概念,如图5所示。在参数服务器系统中,大规模的模型参数被集中存储在一个分布式的服务器集群中,大规模的训练数据则分布在不同的工作节点(worker)上,这样每个工作节点只需要保存它计算时所依赖的少部分参数即可,从而有效解决了超大规模大数据分析模型的训练问题。目前参数服务器的实现主要有卡内基梅隆大学的Petuum、PSLit等。

在大数据分析的应用过程中,可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。可视化与可视分析能够迅速和有效地简化与提炼数据流,帮助用户交互筛选大量的数据,有助于使用者更快更好地从复杂数据中得到新的发现,成为用户了解复杂数据、开展深入分析不可或缺的手段。大规模数据的可视化主要是基于并行算法设计的技术,合理利用有限的计算资源,高效地处理和分析特定数据集的特性。通常情况下,大规模数据可视化的技术会结合多分辨率表示等方法,以获得足够的互动性能。在科学大规模数据的并行可视化工作中,主要涉及数据流线化、任务并行化、管道并行化和数据并行化4种基本技术。微软公司在其云计算平台Azure上开发了大规模机器学习可视化平台(AzureMachineLearning),将大数据分析任务形式为有向无环图并以数据流图的方式向用户展示,取得了比较好的效果。在国内,阿里巴巴旗下的大数据分析平台御膳房也采用了类似的方式,为业务人员提供的互动式大数据分析平台。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
怎么才能转入大数据领域 ,成为一名合格的大数据分析师
http://www.duozhishidai.com/article-14929-1.html
大数据分析现状是什么,主要的分析技术是什么?
http://www.duozhishidai.com/article-13338-1.html
大数据分析工具越来越多,怎么才能选择最适合自己的大数据分析工具
http://www.duozhishidai.com/article-9701-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大数据分析与可视化介绍,基于机器学习的大数据分析具有哪些独特的特点相关推荐

  1. 基于机器学习的天气数据分析与预测系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从某天气预报网站抓取某一城市的历史天气数据,构建天气数据分析与预测系统,实现对 ...

  2. 【Python】基于机器学习的财务数据分析——识别财务造假

    [Python]基于机器学习的财务数据分析--识别财务造假 前言: 本文数据使用了2021泰迪杯官方给出的数据. 其中第一章的代码给出了如何由比赛数据生成案例分析所使用的数据 而第二章则重点介绍了 如 ...

  3. [转载] Python数据分析与可视化学习笔记(一)数据分析与可视化概述

    参考链接: Python | 数据分析的数学运算 数据分析与可视化(一) 1.1 数据分析1.1.1 数据.信息与数据分析1.1.2数据分析与数据挖掘的区别1.1.3数据分析的流程 1.2 数据可视化 ...

  4. 【自然语言处理】【大模型】PaLM:基于Pathways的大语言模型

    PaLM:基于Pathways的大语言模型 <PaLM: Scaling Language Modeling with Pathways> 论文地址:https://arxiv.org/p ...

  5. Python数据分析与可视化学习笔记(一)数据分析与可视化概述

    数据分析与可视化(一) 1.1 数据分析 1.1.1 数据.信息与数据分析 1.1.2数据分析与数据挖掘的区别 1.1.3数据分析的流程 1.2 数据可视化 1.3 数据分析与可视化常用工具 1.4 ...

  6. 大屏数据可视化源码_AxureBI数据大屏可视化原型设计软件

    产品名称:70套BI数据大屏可视化Axure RP原型设计软件 软件版本: Axure 8,Axure 9(兼容) 作品类型: BI数据大屏可视化Axure原型 文件类型: .rp (可通过 Axur ...

  7. python大数据分析基础教程_基于Python的大数据分析基础及实战

    第1部分 基 础 篇 第1章 Python语言基础 /2 1.0 引子 /2 1.1 工欲善其事,必先利其器(安装Python) /3 1.2 学跑得先学走(语法基础) /9 1.3 程序结构 /11 ...

  8. [数据分析与可视化] 数据绘图要点3-意大利面条图

    数据绘图要点3-意大利面条图 文章目录 数据绘图要点3-意大利面条图 绘图实例 改进方法 针对特定群体 使用子图 组合方法 参考 线条太多的折线图通常变的不可读,这种图一般被称为意大利面条图.因此这种 ...

  9. python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计

    数据分析及可视化介绍 这门课涉及多个库,其中Numpy用于数值运算:Pandas用于数据处理:Matplotlib.Seaborn.Pyecharts用于数据可视化. 数据分析介绍 概念 用适当的统计 ...

最新文章

  1. 【前端开发系列】—— 文字阴影与样式
  2. jQuery Mobile动态刷新页面样式
  3. ***经验之教你穿透ADSL路由***内网
  4. ecshop实现弹出登录框
  5. python in visual studio
  6. thinkPHP 空模块和空操作、前置操作和后置操作 详细介绍(十四)
  7. Python敏感词过滤DFA算法+免费附带敏感词库
  8. 基于JSP+Servlet的图书管理系统
  9. ASDM的网管的环境搭建
  10. 【其他】电脑ADB连接手机的方式
  11. hadoop原理及安装启动
  12. java 京东秒杀系统_京东秒杀浪费坑位惩罚你可知道?
  13. 升级safari 12版本,easyconnectplugin插件等不能使用解决办法
  14. ctfshow MengXIn 下(pearcmd.php妙用条件竞争简单密码简单misc)
  15. 在ssd上win10和linux双系统,windows 10 ssd ubuntu hdd双系统
  16. 关于Kurento 和 WebRTC-Kurento学习(一)
  17. android开发脚本之awk
  18. Trigger与Flip-Flop两种‘触发器’的区别
  19. linux 格式化 sda,linux – 如何将/ dev / sda挂载并格式化为不同的/ dev / name?
  20. AtCoder Regular Contest 084

热门文章

  1. linux 电源管理源码分析,Linux 3.8.1 电源管理之OMAP Voltage Domain分析
  2. 微信小程序 获取地理位置使用
  3. 企企通持续助力全球管道预制先行者「迈科管道」,二期项目逐步启动
  4. 服务器虚拟化技术主要有什么优势
  5. 性价比降噪耳机:NANK南卡降噪耳机和小米降噪耳机买哪个好?
  6. 第17章 国际贸易与资本流动
  7. 如何快速把芝麻信用分提高到750以上?
  8. 一个java程序员看待互联网行业与物联网行业的区别
  9. Topaz DeNoise AI for Mac(AI智能图像降噪工具)
  10. 2018年浙江省网络安全技能竞赛ctf部分解题思路writeup