3.大数据分析的几个核心概念

3.1K―平均算法

K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较高的相似度。

在应用该算法进行数据分析时,首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不断重复,随后计算出簇中对象的均值,将每个对象分配到最相似的簇并且不断更新簇均值,最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0(nkt),所以该算法在处理大数据集时是相对可伸缩的和高效率的。

3.2奇异值分解

假设A是一个m×n阶矩阵,其中的元素全部属于实数域或复数域。如此则存在一个分解使得A=U∑V*。其中U是m×m阶酉矩阵,Σ是半正定m×n阶对角矩阵,而V*是n×n阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。

在MATLAB仿真软件中计算奇异值分解的函数式为:[b.c.d]=svd(x)

3.3主成分分析(PCA算法)

从宏观上来说,主成分分析是指在研究一项变量较多的课题时,将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域,主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数,同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之,就是保留低阶主成分,忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解,从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换,把数据整体变换到一个新的坐标系中,使得这一数据的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次类推。

3.4决策树学习

从广义上讲,决策树是一种运用图解法的概率分析,即在已知各种事件发生概率的基础上,通过构建决策树来探究期望值大于等于零的概率,同时判断可行性的决策分析方法。

决策树学习是数据分析领域常用的方法,其目的是构建一个模型来预测样本的目标值。一棵决策树的训练就是依据一个既定指标,将训练数据集分为几个子集并且在所产生的子集中不断重复此方法的过程,直到一个训练子集的类标都相同时为止。决策树主要有两种类型:分类树和回归树。其中分类树的输出是样本的类标,而回归树输出的是一个实数。决策树的优点体现在即可以处理数值型数据也可以处理类别型数据,并且适合处理大规模数据。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
怎么才能转入大数据领域 ,成为一名合格的大数据分析师
http://www.duozhishidai.com/article-14929-1.html
大数据分析,主要有哪些核心技术?
http://www.duozhishidai.com/article-1938-1.html
如何设计企业级大数据分析平台?
http://www.duozhishidai.com/article-9762-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

数智时代,大数据分析的几个核心概念相关推荐

  1. 高密度 ARM 服务器如何引领“数智时代”发展,打通“智变质变”正循环

    并行计算 | 多样性计算 | ARM架构 深度学习 | 高性能计算 | ARM服务器 如今随着算力.高性能计算的快速发展,数字经济已经成为全球经济增长的主引擎.数字经济的快速发展,使得深度学习.数据分 ...

  2. 宝利德余海军浙商封面 :新数智时代的修行者

    很少有一种发明如汽车一般改变人类的生活,转动的车轮不仅仅意味着人类可触达距离的延伸,也代表着更为广阔的天地.而对宝利德控股集团(以下简称宝利德)董事长余海军而言,再没有一种产品如汽车般改变他的人生. ...

  3. 立根铸魂 崛起数智时代 欧拉部署超300万套

    操作系统产业峰会2022于12月28日在线上举办.本次峰会由开放原子开源基金会.中国软件行业协会.CCF(中国计算机学会)开源专委会.绿色计算产业联盟.中关村科学城管委会共同主办,以"立根铸 ...

  4. 一分钟图情论文:《数智时代情报学与情报工作的发展透视》

    数智时代情报学与情报工作的发展透视 当前,以人工智能.大数据和云计算为代表的数智技术在社会各个领域的应用中发挥了独特而强大的作用,这对传统的情报学和情报工作带来了巨大的冲击和挑战.然而,这也为情报学和 ...

  5. 迈入数智时代的恒生电子:四大新品推动金融数智化从量变走向质变

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 最近两三年,国内金融科技行业风云迭起.而随着<数据安全法>.<征信业管理条例>和<征信业务管理办法>等一系列法 ...

  6. 科创人·微软中国CTO韦青:数智时代创业得跳下巨人肩膀

    韦青 微软(中国)CTO 投身亚洲移动通信.信息技术和智能设备等领域三十余年,2003年加入微软,如今主要负责将微软的产业愿景.创新技术与数字化转型的切身体会介绍给中国的行业伙伴与业界领导者,著有&l ...

  7. 《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

    <Spark商业案例与性能调优实战100课>第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写

  8. 数智时代下,值得关注的大技术趋势

    (1)区块链将得到更广泛的应用. 区块链是一种每一个人都能够分享和访问的电子分类账,交易的双方可通过区块链来跟踪交易记录.区块链这个词在整个2017年都备受大家关注,这是因为加密货币比特币采用了一个分 ...

  9. 人工智能时代大数据分析面临的最大挑战!

    对于大数据和人工智能(AI)来说,已经发展十年了,这是我们在本世纪看到的最大的两个技术趋势.从数据驱动制造到自动驾驶汽车,我们目睹了数百个令人惊叹的,以前难以想象的壮举,这要归功于大数据分析和人工智能 ...

最新文章

  1. 真是O(1)吗?想清楚了没?
  2. Matlab生成各种伪随机信号_idinput指令
  3. JDK 7和JDK 8中大行读取速度较慢的原因
  4. 【Java数据结构与算法】第九章 顺序查找、二分查找、插值查找和斐波那契查找
  5. Redis的使用原理
  6. 使用Maven+Nexus+Jenkins+Svn+Tomcat+Sonar搭建持续集成环境(一)
  7. matlab 非线性辨识,非线性系统辨识Matlab实现
  8. Flac3d v3.00.251
  9. 尔雅 2017大学计算机基础答案,2018超星尔雅大学计算机基础答案.docx
  10. IP转换器 V2.6
  11. linux键盘按键驱动
  12. 未来教育计算机二级学生文档,未来教育计算机二级MS-office题库(解题步骤)题库.docx...
  13. 关于readyState
  14. 学习笔记(01):Java小白修炼手册-工欲善其事必先利其器,掌握Java开发工具
  15. Android开发基础学习总结
  16. 学习笔记之——Java 8
  17. windows下WNMP(windows+nginx+mysql+php)配置
  18. (四)linux下配置jenkins--构建一个自由风格的项目
  19. 李沐动手学深度学习笔记---含并行连结的网络 GoogLeNet / Inception V3
  20. 树和二叉树的概念、性质、计算

热门文章

  1. 注意了!使用微信外挂账号将被处理惩罚
  2. oracle油井数据分析,长庆油田信息分析数据库系统设计.doc
  3. ANR超时种类及产生原因
  4. webRTC 实现两端通信
  5. com之套间(Apartment)
  6. 2015年9月30日的作业
  7. 你真的会TVS二极管选型吗
  8. kubeSphere 功能框架思维导图
  9. 第十二章 Python文件操作【转】
  10. 资料 | O‘Reilly精品图书系列:算法精解 C 语言描述 (简体中文)