说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角

大数据的概念:

1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。

2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

3、海量异构的数据(包括文本、图像、声音等)。

大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)

大数据处理的应用场景有很多:

1.阿里巴巴平台----淘宝双十一

2.证券交易系统

3.智慧城市

4.情报分析,舆情监控

大数据处理的的发展历史和架构演进,可以看成:

是从传统手工作坊(分布式批处理)到流水线工厂(hadoop)再到没有中间商 的O2O平台(spark)

开源工具简介---批处理

Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。

MapReduce:是一种编程模型,用于大规模数据集的并行运算。

Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。

Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin。

Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是Google bigtable的一个开源的实现。

Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。

舆情监控系统的系统流程:

最近去一个文科院校讲了一节课:基于大数据处理的舆情监控系统及其应用简介,ppt分享出来希望大家批评指正:

http://download.csdn.net/detail/wangyaninglm/9504994

大数据处理的一些总结和应用(有关舆情监控)相关推荐

  1. 大数据处理也要安全--关于MaxCompute的安全科普

    [TOC] 1.企业大数据处理现状 当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(百GB.TB乃至PB)级别.基于此,阿里云推出有了一套快速.完全托 ...

  2. 从Storm到Flink:大数据处理的开源系统及编程模型(文末福利)

    本文节选自CCF大数据教材系列丛书之<大数据处理>,本书由华中科技大学金海教授主编,包括大数据处理基础技术.大数据处理编程与典型应用处理.大数据处理系统与优化三个方面.本教材以大数据处理编 ...

  3. 算法原理:大数据处理的分治思想!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:周彬莲,东北石油大学,Datawhale优秀学习者 引言 MapR ...

  4. 基础搭建Hadoop大数据处理-编程

    Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA).网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和 ...

  5. 生物医学大数据处理研究探讨

    生物医学大数据处理研究探讨 摘要: 随着生物分析和计算技术的快速发展以及医疗信息化水平的不断提高, 生物医学领域 产生了大量的数据,促进了生物医学大数据的形成,也使得生物医学的研究由原来的假设 驱动向 ...

  6. 大数据处理语言U-SQL介绍

    微软宣布了新的 Azure 数据湖(Azure Data Lake)服务,该服务被用于云分析,包括了一个超大规模信息库:一个在 YARN 上建立的新的的分析服务,该服务允许数据开发者和数据科学家分析全 ...

  7. 大数据处理——Hadoop解析(一)

    概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正 ...

  8. 想学大数据?大数据处理的开源框架推荐

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研.除此之外,文章还从多个层次对框架进行深入研究,如存储,资 ...

  9. 省时省事省力 巧用阿里ECS D1构建大数据处理平台

    随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简 ...

  10. 海量大数据处理最新面试题-1

    徐海蛟 教学用途 何谓海量大数据处理? 所谓海量大数据处理,无非就是基于海量大数据上的存储.处理.操作.何谓海量,就是数据量大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装 ...

最新文章

  1. Matlab计时函数的使用
  2. 安卓开发面试书籍,每个程序员都必须掌握的8种数据结构!面试必会
  3. LeetCode 2115. 从给定原材料中找到所有可以做出的菜(拓扑排序)
  4. python图形界面编程库_Python支持哪些图形界面的第三方库
  5. python怎么返回上一行代码_Python实现判断一行代码是否为注释的方法
  6. 李飞飞斯坦福博士提出SLIDE模型
  7. delete请求怎么传参数_postman第2讲-核心功能一:Request(请求)
  8. MQTT进阶:web端远程控制LED灯
  9. ubuntu 16.04 手动安装Java过程
  10. 供销大集有潜力吗_社区团购遭点名批评,互联网巨头真的只是惦记那几捆白菜吗?| 吴坚浙商频道...
  11. mybatis主键是在insert前生成还是之后生成
  12. 30岁菜鸟涛学习VB.net 第十三天
  13. 小米8刷Magisk工具详细教程以及问题的解决方案
  14. 解析数论 2: Abel求和法
  15. 影响计算机启动硬件,电脑开机速度跟哪些硬件有关。
  16. 激活函数:阶跃函数、sigmoid函数、ReLU函数、softmax函数
  17. SHELL脚本获取某天的上一周日期(星期一为第一天)
  18. 游戏掉帧怎么办,刷新率方案
  19. 苹果将于18日举行新品发布会
  20. F5 Networks:应用交付的“4G”挑战

热门文章

  1. 使用HttpClient下载图片常用代码,以及下载失败原因
  2. GitHub使用指南(自用)
  3. Web安全 XXE漏洞的 测试和利用.(读取服务器的任何文件 和 收集服务器的内网信息.)
  4. 图像处理项目-监控视频的行人追踪
  5. SQL server 数据库表的配置及其表的导入导出
  6. 关于IBM的X3200M3型IMM和UEFI的问题解决方案汇总
  7. 【有利可图网】PS干货:学会这个LOGO设计思路,分分钟拿下甲方!
  8. 计算机软件logo设计,硕思logo设计师(logo设计软件)
  9. Linux系统开启服务器BBR加速教程
  10. 华中科技大学 计算机硕士,我所经历的华中科技大学计算机考研复试