大数据-机器学习导论-1
理论基础
文章目录
- 理论基础
- 一、大数据时代改变了什么
- 二、大数据思维特征
- 三、大数据项目架构示例
- 四、人工智能
- 五、机器学习
一、大数据时代改变了什么
- 思维方式
- 1.数据的重要性:数据资源–>数据资产(增值)
- 2.方法论:
- 基于知识的理论完美主义–>基于数据的历史经验主义
- 翻译
- 基于知识翻译:借助语言学家
- 基于数据翻译
- 3.数据分析:统计学–>数据科学
- 4.计算智能:复杂算法–>简单算法(MapReduce)
- 5.决策方面:基于目标决策–>基于数据决策
- 6.业务方面:基于业务的数据化–>基于数据的业务化
- 7.产业竞合:以战略为中心–>以数据为中心
二、大数据思维特征
数据量大
- TB-PB-ZB
- HDFS分布式文件系统
数据种类多
- 结构化数据:Mysql
- 非结构化数据:
- 图像、音频
- HDFS、MR、 Hive
- 半结构化数据
- XML形式、HTML形式
- HDFS、MR、 Hive、Spark
速度快
- 数据的增长速度快
- TB-PB-ZB
- HDFS
- 数据的处理速度快
- MR-HIVE-PIG-impala(离线)
- Spark-Flink
- 数据的增长速度快
价值密度低
- 价值密度=有价值的数据/所有数据
- 价值高
- 机器学习算法解决的问题
大数据做的是基础数据存储和数据统计,机器学习是从大数据中挖掘出大量有价值的数据。
三、大数据项目架构示例
四、人工智能
1. 热门方向: 图像识别、无人驾驶、语音识别、智能翻译,医疗智能诊断、数据挖掘。
2. 发展:
- 1950-1970:符号主义流派:专家系统—IBM跳棋
- 1980-2000:统计主义流派:用统计模型解决问题(SVM提出)—IBM象棋
- 2010-至今:神经网络、深度学习、大数据流派—DeepMind围棋
3. 人工智能、机器学习、深度学习
机器学习是人工智能的一个分支,其他分支:数据挖掘、模式识别
深度学习是机器学习的一种方法,为了解决机器学习领域中如图像识别等问题。
人工智能依靠机器学习落地。
4. 数据挖掘、数据分析:
数据:观测值或者测量值
信息:可信数据
数据->信息:数据分析
信息->有价值的信息:数据挖掘
机器学习是实现数据挖掘的方法。
数据—数据分析—信息—数据挖掘—有价值信息
五、机器学习
1. 概念: 机器学习致力于研究如何通过计算手段,在给定算办法结合数据构建模型,通过模型达到预测的功能。机器学习的目的是建立预测模型, 基础统计问题,确定性问题不需要机器学习。
2. 基于规则的学习是硬编码的方式进行学习,基于模型的学习是通过数据构建机器学习模型,通过模型进行预测。
- X(自变量、定义域->特征)
- f(函数、映射->模型)
- Y(因变量、值域->结果)
- 最终目的是求解y=kx+by=kx+by=kx+b 中的k和b
- 机器学习学习的是模型,学习的是模型中的k和b(即参数)
大数据-机器学习导论-1相关推荐
- 《人工智能与大数据技术导论》适合用来深度了解AI和BD技术
#好书推荐##好书速递##好书奇遇季#<人工智能与大数据技术导论>京东当当天猫都有发售. 本书已被几十所高等院校.研究生院选为教材,适合好学的开发人员用来深度了解AI和BD技术. 2017 ...
- 大数据+机器学习#x3D;天下无敌!
通俗的说,机器学习就是基于一些高度复杂的算法和技术,在一个非生命的物体.机器或系统中构建人类行为.制造一台能够符合数十亿用户期望的人脑复制品的机器绝不是一件容易的事.但也有一些项目正在解决基于情境.情 ...
- 新工科背景下大数据专业导论课程的改革与探索
新工科背景下大数据专业导论 课程的改革与探索 张祖平 中南大学计算机学院,湖南 长沙 410083 摘要:在申报与建设数据科学与大数据技术专业的热潮中,专业培养体系与相关课程大纲一直是各个高校体现 ...
- 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(上)...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...
- 《大数据》第1期“专题”——大数据机器学习系统研究进展(下)
6 跨平台统一大数据机器学习系统Octopus的研究设计 6.1 Octopus的基本设计思想 上述绝大多数大数据机器学习方法和系统都是基于特定平台构建的,难以集成和兼容现有和未来出现的多种大数据处理 ...
- 《大数据》第1期“专题”——大数据机器学习系统研究进展(上)
大数据机器学习系统研究进展 黄宜华1,2 1.南京大学计算机软件新技术国家重点实验室 南京 210023: 2.南京大学PASA大数据技术实验室 南京 210023 摘要:要实现高效的大数据机器学习, ...
- 一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习
导语:今天,大数据.数据科学.机器学习分析不再只是热词,已经真实地渗透于生活方方面面.根据福布斯,到2025年,全球每年将会有 175 泽字节的数据产生.Kyligence的诞生为企业带来了极速的大数 ...
- 大数据 机器学习 分类算法_13种用于数据科学的机器学习分类算法及其代码
大数据 机器学习 分类算法 The roundup of most common classification algorithms along with their python and r cod ...
- 使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户、物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline
使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户.物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline 一.项目简 ...
最新文章
- UI设计比较流行的插画类型和运用
- Bash中的管道输出和捕获退出状态
- python中模块和包是什么_Python中模块和包的概念
- c字符串中包含双引号_必须知道的C语言知识细节:单引号和双引号正确用法
- Node.js开发之Express框架安装
- oracle监听程序无法分配,Oracle监听器服务不能启动的解决方法
- svn 版本控制操作命令
- Intel 64/x86_64/IA-32/x86处理器 - 指令格式(8) - 80386/32位指令前缀
- k8s核心技术-Controller(DaemonSet)_部署守护进程---K8S_Google工作笔记0034
- asp.net怎么实现按条件查询_用这个提取函数王中王,制作数据查询表
- 广东省汕头大学毕业设计论文撰写规范[2006]
- 欧华android导航刷机,寻找欧华DVD导航一体机刷机文件。
- 一个数如果恰好等于它的因子之和,这个数就称为“完数”。例如,6的因子为1,2,3,而6=1+2+3,因此6是“完数”。编程序找出1000之内的所有完数,并输出其因子。
- 模仿 Github设计一个博客网站的 API
- 什么是视频内容推荐引擎?
- 怎样理解vue中的slot
- 登陆港股市场,阳光保险的 “价值锚点”
- css隐藏浏览器的x/y轴
- 计算机领域国际学术会议和期刊
- 动态设置html样式或style具体属性
热门文章
- NGINX反向代理缓存
- Unity制作AR图片和视频展示
- 安卓马赛克view_Android图形图像处理:马赛克(Mosaic)效果
- 解决gns3连接不上本地的几种情况
- 2021-10-12 Java 中 Filed.modifiers 之 java.lang.reflect.Modifier
- iPhone忘记访问限制密码的解决方案
- 几款主流浏览器的简单比对实验,360极速最适合我_我是亲民_新浪博客
- 分别用Java应用程序和Applet程序实现星星三角形图案的绘制
- 17 RFID卡的读写
- 魔兽怀旧服务器位置,《魔兽世界》怀旧服稀有狼位置坐标大全