【实验与思考】
实验目的
(1) 熟悉大数据存储基础
(2)熟悉大数据技术的基本概念
(3)熟悉开源技术及其商业支援熟悉分布式系统,了解hadoop分布式处理技术
(4)熟悉大数据的数据处理基础知识,了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前,请认真阅读课程的相关内容。
准备一台带有浏览器,能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料,为“大数据”给出一个权威性的定义。
答:"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产
这个定义来源于:Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答:①Volume(数量):是大数据的首要特征,数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别,跃升到PB甚至EB级别
②Variety(种类):数据类型繁多。大数据的挑战不仅是数据量的大,也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外,还有视频、图片等非结构化数据
③Velocity(速度):处理速度快。信息的价值在于及时,超过特定时限的信息就失去了使用的价值。请查阅相关文献资料,简述“促进大数据发展”的主要因素答::数据可视化使数据解读到了一种更加通俗易懂的阶段,使数据的接收和理解变得更加快速和简单:数据集成治理后使得原来零散无用的数据变得有价值,利用互联网络技术还能进行实时统计分析:人工智能算法可以对数据进行深度挖掘和分析,可以产生更优的解决方案和让原来无解的问题得到解决
(4)请仔细阅读本章课文,熟悉大数据的基本概念,了解分布式系统,熟悉大数据的数据处理基础,在此基础上,撰写一篇500字的小论文,讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性,如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于,在 HDFS 中存储数据时不需要模式定义。因此,可以减少预先设计的麻烦。在 Hadoop 中,存储在 HDFS 中的数据在每次处理时都被赋予了意义,因此可以暂时存储它,并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义,让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价(教师)

熟悉大数据存储基础(实验报告)相关推荐

  1. 大数据技术基础实验十三:Kafka实验——订阅推送示例

    大数据技术基础实验十三:Kafka实验--订阅推送示例 文章目录 大数据技术基础实验十三:Kafka实验--订阅推送示例 一.前言 二.实验目的 三.实验要求 四.实验原理 1.Kafka简介 2.K ...

  2. 大数据技术基础实验三:HDFS实验——部署HDFS

    大数据技术基础实验三:HDFS实验--部署HDFS 文章目录 大数据技术基础实验三:HDFS实验--部署HDFS 一.前言 二.实验要求 三.实验原理 1.什么是HDFS? 2.HDFS的体系结构 3 ...

  3. 大数据应用技术实验报告五 NoSQL

    NoSQL数据库Redis在Linux系统下的安装和运维 可参考https://blog.csdn.net/qq_15329947/article/details/87003791 Redis常用命令 ...

  4. 【大数据】Hadoop实验报告

    文章目录 实验一 熟悉常用的Linux操作和Hadoop操作 1.实验目的 2.实验平台 3.实验内容和要求 实验二 熟悉常用的HDFS操作 1.实验目的 2.实验平台 3.实验步骤 实验三 熟悉常用 ...

  5. 大数据应用技术实验报告六 Hive和MySQL

    MapReduce 实现 HiveQL 常见操作 Join的实现原理: select u.name, o.orderid from order o join user u on o.uid = u.u ...

  6. Hadoop大数据开发基础项目化教程

    项目一 大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...

  7. Hadoop大数据开发基础

    项目一:大数据时代 大数据定义: 所谓大数据( Big Data ),或称巨量资料,指的是"所涉及的资料量规模巨大到无法通过 目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮 ...

  8. 主流大数据存储解决方案评析

    EMC Isilon:横向扩展 性能突出 大数据存储不是一类单独的产品,它有很多实现方式.EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理 ...

  9. 大数据系统的基础,大数据存储和计算技术

    在存储方面,2000 年左右谷歌等提出的文件系统(GFS).以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基 ...

最新文章

  1. [WCF编程]13.并发:服务并发模式
  2. selinux关闭后mysql_centos下关闭selinux不重启的方法
  3. 计算机网络 | 网络层 :IP协议详解
  4. 对查询出来的结果进行筛选(having)
  5. golang日志输出
  6. 今日英语:out of the box
  7. Win10家庭版安装docker(WSL与WSL2两种安装方式)
  8. 用terminal安装时候,若遇到网络问题,connection refused,可能需要关闭网络代理
  9. FreeRTOS 教程指南 学习笔记 第三章 任务管理(二)
  10. 【iOS-Cocos2d游戏开发之十八】解决滚屏背景/拼接地图有黑边(缝隙)以及禁止游戏中自动锁屏问题!
  11. 精准测试白皮书2020版
  12. LINUX中ECHO命令的使用
  13. 水果店圈子:水果店开张怎样做促销活动,水果店开业一般有些什么活动
  14. centos 日志审计_生产环境日志审计
  15. 无所不能的Java系列文章
  16. 查看windows系统默认编码 修改windows系统默认编码
  17. (二)五次多项式轨迹规划
  18. scratch——打砖块
  19. BEA CEO庄思浩清华大学演讲(2002/12)
  20. 论文解读:《DeepIDC:基于异构信息和深度学习的注射用药物组合预测框架》

热门文章

  1. 锐捷路由器——NAT应用案例----TCP负载均衡
  2. angular8 | 网易云音乐项目实战(一)
  3. Spring 注解 hibernate 实体方法 property name=packagesToScan value=com.sise.domain/
  4. 嵌入式项目的开发经验
  5. httpd的编译安装
  6. 最新Landsat数据下载教程
  7. Oracle INTERVAL YEAR TO MONTH数据类型
  8. 基于MATLAB的二维与三维插值拟合运算(附完整代码)
  9. 买电脑时500G电脑硬盘为什么实际不足500G?
  10. css移动端页面单位,移动端web开发PX单位问题