熟悉大数据存储基础（实验报告）

【实验与思考】
实验目的
（1）熟悉大数据存储基础
（2）熟悉大数据技术的基本概念
（3）熟悉开源技术及其商业支援熟悉分布式系统，了解hadoop分布式处理技术
（4）熟悉大数据的数据处理基础知识，了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前，请认真阅读课程的相关内容。
准备一台带有浏览器，能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料，为“大数据”给出一个权威性的定义。
答："大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
这个定义来源于：Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答：①Volume（数量）：是大数据的首要特征，数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别，跃升到PB甚至EB级别
②Variety（种类）：数据类型繁多。大数据的挑战不仅是数据量的大，也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外，还有视频、图片等非结构化数据
③Velocity（速度）：处理速度快。信息的价值在于及时，超过特定时限的信息就失去了使用的价值。请查阅相关文献资料，简述“促进大数据发展”的主要因素答：：数据可视化使数据解读到了一种更加通俗易懂的阶段，使数据的接收和理解变得更加快速和简单：数据集成治理后使得原来零散无用的数据变得有价值，利用互联网络技术还能进行实时统计分析：人工智能算法可以对数据进行深度挖掘和分析，可以产生更优的解决方案和让原来无解的问题得到解决
（4）请仔细阅读本章课文，熟悉大数据的基本概念，了解分布式系统，熟悉大数据的数据处理基础，在此基础上，撰写一篇500字的小论文，讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性，如果分布式处理的 HDFS 容量或资源用完，可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外，可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于，在 HDFS 中存储数据时不需要模式定义。因此，可以减少预先设计的麻烦。在 Hadoop 中，存储在 HDFS 中的数据在每次处理时都被赋予了意义，因此可以暂时存储它，并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完，可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外，可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义，让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价（教师）

熟悉大数据存储基础（实验报告）相关推荐

大数据技术基础实验十三：Kafka实验——订阅推送示例
大数据技术基础实验十三:Kafka实验--订阅推送示例文章目录大数据技术基础实验十三:Kafka实验--订阅推送示例一.前言二.实验目的三.实验要求四.实验原理 1.Kafka简介 2.K ...
大数据技术基础实验三：HDFS实验——部署HDFS
大数据技术基础实验三:HDFS实验--部署HDFS 文章目录大数据技术基础实验三:HDFS实验--部署HDFS 一.前言二.实验要求三.实验原理 1.什么是HDFS? 2.HDFS的体系结构 3 ...
大数据应用技术实验报告五 NoSQL
NoSQL数据库Redis在Linux系统下的安装和运维可参考https://blog.csdn.net/qq_15329947/article/details/87003791 Redis常用命令 ...
【大数据】Hadoop实验报告
文章目录实验一熟悉常用的Linux操作和Hadoop操作 1.实验目的 2.实验平台 3.实验内容和要求实验二熟悉常用的HDFS操作 1.实验目的 2.实验平台 3.实验步骤实验三熟悉常用 ...
大数据应用技术实验报告六 Hive和MySQL
MapReduce 实现 HiveQL 常见操作 Join的实现原理: select u.name, o.orderid from order o join user u on o.uid = u.u ...
Hadoop大数据开发基础项目化教程
项目一大数据时代大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
Hadoop大数据开发基础
项目一:大数据时代大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...
主流大数据存储解决方案评析
EMC Isilon:横向扩展性能突出大数据存储不是一类单独的产品,它有很多实现方式.EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理 ...
大数据系统的基础，大数据存储和计算技术
在存储方面,2000 年左右谷歌等提出的文件系统(GFS).以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基 ...

熟悉大数据存储基础（实验报告）

熟悉大数据存储基础（实验报告）相关推荐

最新文章

热门文章