车联网海量数据存储与分析是典型的大数据应用场景:车载终端连接车辆内部CAN控制总线,实时收集车辆数据。一部分数据通过无线通讯方式及时传给后台以满足对车辆状态及故障状态实时监控的需求;其余大部分数据将先进行本地存储(如SD卡),再通过离线导入存储在大数据框架中,以便后续进行深度挖掘。

恒润科技针对车联网大数据平台(后称‘大数据平台’)的架构规划请见下图。

数据源

大数据平台的数据源包括两类数据:

• 车载终端数据

系统规模由车载终端并发接入量与消息并发处理需求决定,其特点为增长迅速,数据类型繁多且数据格式多变。大数据平台必须可能保证车载终端高并发远程接入并传输数据。同时还应兼顾历史数据的导入,传统数据存储及分析方式往往以两种形式处理这些车载终端数据:一是用传统型关系型数据库,二是用文件系统。

• 应用数据

应用系统相关数据,数据相对较小,增长较慢。数据结构与应用强相关且较为稳定。

数据传输

针对上述数据源,大数据平台应提供相应的数据传输接入工具:

• 车载终端数据

♦实时数据

大数据平台应支持多设备同时接入并进行数据传输。高并发的规模应考虑在十万级别。

♦历史数据

大数据平台应提供面向关系型数据库与文件系统的数据导入接口。

♦通讯协议

如果车载终端由不同供应商提供且使用不同的私有自定义通讯协议,大数据平台应提供私有协议解析适配功能。

• 应用数据

大数据平台不应对建设在其上的应用系统附加限制,如开发语言,通讯协议等。大数据平台应遵循‘面向服务架构’(Service-Oriented Architecture)的设计模式,即各种异构的应用系统可通过独立的消息中间件进行通信,且通信的数据路由、消息传输协议、传输质量与安全都可管理。大数据平台应提供面向消息中间件的数据接入与导出接口。

数据预处理

车载终端数据的一个显著特点是数据源源不断,且具有周期性。因此此类数据随车载终端数量增多,系统部署规模的扩大会迅速积累增长,对数据存储与分析带来较大压力。对此,大数据平台需在数据存储之前进行一些必要的预处理:

• 解析

每种车载终端数据均有固定的schema,大数据平台应提供一种统一的schema定义工具,所有车载终端供应商可便捷的通过此工具将数据schema导入或直接编辑。大数据平台还应提供‘通用信号’功能,在应用与数据间提供了一个适配层,使应用无需关注某一信号在每个异构车载终端中的名称。即将类似‘车速’、‘车门故障’这样的通用描述与各种异构车载终端中的信号名(例如不同列车总线对车速信号的定义可能是Spd/speed/carspeed等)进行绑定。

• 过滤

针对解析后的数据值,大数据平台应提供去重、降噪、筛选、清洗等工具将无效数据进行过滤,以达到节省存储空间的目的。这些操作应该是在数据接入时实时处理的。

• 预处理

此外,大数据平台为数据分析提供预处理功能,以便提高后续数据分析的效率。预处理包括合并、分类、转换与增强等。

数据存储

传统的集中式的数据存储方案在存储车载终端数据时均存在一些性能瓶颈。关系型数据库的规模扩展是其性能瓶颈,纵向扩展意味着花费高昂的成本采购硬件设备,横向扩展则对数据库管理软件、数据库管理员乃至网络带宽与环境等均提出非常高的要求。这主要是因为在其核心设计理念提出的上世纪70年代,分布式的概念尚未出现。而文件系统则在数据分析时面临数据索引、文件切分等问题,影响分析效率。

大数据平台应针对车载终端数据与应用数据提供分布式与集中式的混合型存储建构。其中对车载终端数据的存储是对客观事实的记录,即一旦存入便不会变更,应采用分布式方案来存储车载终端数据,以便于灵活扩展系统存储规模。应用相关数据则可采用传统关系型数据库进行存储。此外,系统应提供数据导出功能以便用户使用专业工具进行数据处理。

数据分析

大数据平台的核心功能是将原始数据通过各种数据分析的手段转换成对用户有意义的信息。大数据平台的数据分析包括:

• 基础数据运算

针对各种数据类型,提供相应基础数据分析功能,例如求平均数、最值、变化率、数值积分等。

• 机器学习

大数据平台应内置各种机器学习的算法,并为用户提供友好的客户端接口。

• 自定义数据分析工作流

用户可结合应用需求将基础数据运算功能、机器学习以及其他分析手段结合在一起组合成自定义工作流,由大数据平台提供任务的调度与结果的展示。

• 实时分析

有些数据时效性较强,即需要被实时处理才能将原始数据转化为对用户有意义的信息或被用于支持一些即时决策。一旦处理不及时,这些数据所包含的信息量将大幅下降。大数据平台可在数据预处理时提供实时数据处理.

车联网大数据框架_车联网大数据平台架构设计-系统总体架构相关推荐

  1. 车联网大数据框架_车联网大数据:发展、支撑与应用

    智能交通是自动化领域研究的热点方向之一,小编整理了IEEE/CAA Journal of Automatica Sinica和<自动化学报>近期发表的智能交通文章,欢迎阅读~ 1.加拿大滑 ...

  2. 车联网大数据框架_车联网大数据平台架构设计

    v1.0 可编辑可修改 1 车联网大数据平台架构设计 - 软硬件选型 1. 软件选型建议 数据传输 处理并发链接的传统方式为: 为每个链接创建一个线程并由该线程负责所有的 数据处理业务逻辑. 这种方式 ...

  3. 深度学习数据自动编码器_如何学习数据科学编码

    深度学习数据自动编码器 意见 (Opinion) When I first wanted to learn programming, I coded along to a 4 hour long Yo ...

  4. excel导入数据校验_使用Excel数据验证限制日期范围

    excel导入数据校验 Yesterday, one of my clients emailed to let me know that she was having trouble entering ...

  5. dgi数据治理_什么是数据治理?什么是数据安全治理?两者关系如何?

    本文作者:MR王峰 本文转载自:CSDN 免责声明:本号发布的文章均转载自互联网或经作者投稿授权的原创,其内容和图片版权归原网站或作者本人所有,并不代表安全+的观点,若有无意侵权或转载不当之处请联系我 ...

  6. 医疗大数据处理流程_我们需要数据来大规模改善医疗流程

    医疗大数据处理流程 Note: the fictitious examples and diagrams are for illustrative purposes ONLY. They are ma ...

  7. python查看数据大小_科多大数据带你看Python可以列为最值得学习的编程语言

    原标题:科多大数据带你看Python可以列为最值得学习的编程语言 不知道从什么时候开始,这句话开始流行.不过也从侧面反映出 Python 语言的特点:简单.高效. 从近期代表技术趋势的业界报告以及编程 ...

  8. 工业制造中的大数据分析应用_工业大数据分析方案-美林数据

    认识工业大数据 什么是工业大数据? 我们先看看维基百科的说法:"工业大数据(Industrialbig data)是构成工业人工智能的重要元素,指由工业设备高速产生的大量数据,对应不同时间下 ...

  9. python大数据入门书籍_初学大数据,一定要知道这些

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 经常有初学者问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高.......如果自己很迷茫,为了这些原因想 ...

  10. rdd数据存内存 数据量_「大数据」(七十七) Spark之IO机制

    [导读:数据是二十一世纪的石油,蕴含巨大价值,这是·情报通·大数据技术系列第[77]篇文章,欢迎阅读和收藏] 1 基本概念 与传统的 IO 相比, Spark IO 有很大区别.传统的数据存在单个计算 ...

最新文章

  1. 博士在读却连矩阵的秩都搞不清,我该如何毕业?
  2. 9 Django 模型层(2)
  3. const的使用CC++
  4. 合并数组:双针模型,原地实现
  5. 实验:PIO外部中断
  6. test1 3-15 模拟赛1
  7. socket网络编程实现远程备份
  8. linux input输入子系统分析《四》:input子系统整体流程全面分析
  9. 【Machine Learning】TensorFlow实现K近邻算法预测房屋价格
  10. Gartner:2020年数据与分析领域的十大技术趋势
  11. shutdown immediate ,无法关闭数据库的解决方案
  12. CentOS7部署Nginx
  13. 深入解读Linux与Android的相互关系 Android消息处理系统的原理
  14. 软考:数据库系统工程师
  15. 数据结构c语言课程设计报告,数据结构c语言课程设计报告.doc
  16. 如何在Tomcat后台通过文件上传getshell总结(个人学习笔记思路)
  17. win10安装php8.0
  18. the owning Session was closed
  19. 零基础如何学习Java和web前端
  20. 3570. 【GDKOI2014】壕壕的寒假作业

热门文章

  1. 织梦列表页list标签调用支持flag属性方法
  2. Win系统 - WIN10 版本号说明
  3. 快速了解Spyder
  4. Unity中的Compute Shader
  5. iOS 开发:知识地图(不定期更新)
  6. Python数据分析师工资怎么样?
  7. Win11玩红警2黑屏的解决办法
  8. C语言方差和标准差公式,方差概念及计算公式.docx
  9. UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xfe in position 198369: illegal multibyte sequenc
  10. 用python制作上海疫情评论词云图-自定义形状