熟悉大数据存储基础(实验报告)
【实验与思考】
实验目的
(1) 熟悉大数据存储基础
(2)熟悉大数据技术的基本概念
(3)熟悉开源技术及其商业支援熟悉分布式系统,了解hadoop分布式处理技术
(4)熟悉大数据的数据处理基础知识,了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前,请认真阅读课程的相关内容。
准备一台带有浏览器,能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料,为“大数据”给出一个权威性的定义。
答:"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产
这个定义来源于:Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答:①Volume(数量):是大数据的首要特征,数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别,跃升到PB甚至EB级别
②Variety(种类):数据类型繁多。大数据的挑战不仅是数据量的大,也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外,还有视频、图片等非结构化数据
③Velocity(速度):处理速度快。信息的价值在于及时,超过特定时限的信息就失去了使用的价值。请查阅相关文献资料,简述“促进大数据发展”的主要因素答::数据可视化使数据解读到了一种更加通俗易懂的阶段,使数据的接收和理解变得更加快速和简单:数据集成治理后使得原来零散无用的数据变得有价值,利用互联网络技术还能进行实时统计分析:人工智能算法可以对数据进行深度挖掘和分析,可以产生更优的解决方案和让原来无解的问题得到解决
(4)请仔细阅读本章课文,熟悉大数据的基本概念,了解分布式系统,熟悉大数据的数据处理基础,在此基础上,撰写一篇500字的小论文,讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性,如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于,在 HDFS 中存储数据时不需要模式定义。因此,可以减少预先设计的麻烦。在 Hadoop 中,存储在 HDFS 中的数据在每次处理时都被赋予了意义,因此可以暂时存储它,并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义,让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价(教师)
熟悉大数据存储基础(实验报告)相关推荐
- 大数据技术基础实验十三:Kafka实验——订阅推送示例
大数据技术基础实验十三:Kafka实验--订阅推送示例 文章目录 大数据技术基础实验十三:Kafka实验--订阅推送示例 一.前言 二.实验目的 三.实验要求 四.实验原理 1.Kafka简介 2.K ...
- 大数据技术基础实验三:HDFS实验——部署HDFS
大数据技术基础实验三:HDFS实验--部署HDFS 文章目录 大数据技术基础实验三:HDFS实验--部署HDFS 一.前言 二.实验要求 三.实验原理 1.什么是HDFS? 2.HDFS的体系结构 3 ...
- 大数据应用技术实验报告五 NoSQL
NoSQL数据库Redis在Linux系统下的安装和运维 可参考https://blog.csdn.net/qq_15329947/article/details/87003791 Redis常用命令 ...
- 【大数据】Hadoop实验报告
文章目录 实验一 熟悉常用的Linux操作和Hadoop操作 1.实验目的 2.实验平台 3.实验内容和要求 实验二 熟悉常用的HDFS操作 1.实验目的 2.实验平台 3.实验步骤 实验三 熟悉常用 ...
- 大数据应用技术实验报告六 Hive和MySQL
MapReduce 实现 HiveQL 常见操作 Join的实现原理: select u.name, o.orderid from order o join user u on o.uid = u.u ...
- Hadoop大数据开发基础项目化教程
项目一 大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
- Hadoop大数据开发基础
项目一:大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
- 主流大数据存储解决方案评析
EMC Isilon:横向扩展 性能突出 大数据存储不是一类单独的产品,它有很多实现方式.EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理 ...
- 大数据系统的基础,大数据存储和计算技术
在存储方面,2000 年左右谷歌等提出的文件系统(GFS).以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基 ...
最新文章
- [WCF编程]13.并发:服务并发模式
- selinux关闭后mysql_centos下关闭selinux不重启的方法
- 计算机网络 | 网络层 :IP协议详解
- 对查询出来的结果进行筛选(having)
- golang日志输出
- 今日英语:out of the box
- Win10家庭版安装docker(WSL与WSL2两种安装方式)
- 用terminal安装时候,若遇到网络问题,connection refused,可能需要关闭网络代理
- FreeRTOS 教程指南 学习笔记 第三章 任务管理(二)
- 【iOS-Cocos2d游戏开发之十八】解决滚屏背景/拼接地图有黑边(缝隙)以及禁止游戏中自动锁屏问题!
- 精准测试白皮书2020版
- LINUX中ECHO命令的使用
- 水果店圈子:水果店开张怎样做促销活动,水果店开业一般有些什么活动
- centos 日志审计_生产环境日志审计
- 无所不能的Java系列文章
- 查看windows系统默认编码 修改windows系统默认编码
- (二)五次多项式轨迹规划
- scratch——打砖块
- BEA CEO庄思浩清华大学演讲(2002/12)
- 论文解读:《DeepIDC:基于异构信息和深度学习的注射用药物组合预测框架》
热门文章
- 锐捷路由器——NAT应用案例----TCP负载均衡
- angular8 | 网易云音乐项目实战(一)
- Spring 注解 hibernate 实体方法 property name=packagesToScan value=com.sise.domain/
- 嵌入式项目的开发经验
- httpd的编译安装
- 最新Landsat数据下载教程
- Oracle INTERVAL YEAR TO MONTH数据类型
- 基于MATLAB的二维与三维插值拟合运算(附完整代码)
- 买电脑时500G电脑硬盘为什么实际不足500G?
- css移动端页面单位,移动端web开发PX单位问题