前言

物联网、大数据、人工智能是近几年经常相提并论的概念。每一个概念背后都涵盖了丰富的技术和应用,三者各有特点,也互有重叠,甚至还有依赖。物联网侧重于让物体联网,形成万物互联的局面,这是物理世界深刻的数字化过程,必然带来大量的数据,并且是各种类型的数据;大数据不仅在于数据量大,更在于数据的维度复杂,它们来自于真实世界、可在线访问,并且对真实世界有独特的指导作用(价值);人工智能是指通过机器学习算法,让机器能够具备人类的智能特征,可以完成一些通常需要人类智能才能完成的复杂工作,甚至比人类完成得更好。

人工智能作为计算机科学的一个研究领域,侧重于机器学习算法和各种应用场景任务,如图像识别、语音识别、自然语言处理、自动驾驶汽车、机器人等,为了让机器像人一样工作,需要各种传感器采集数据,需要对环境的认知等。因此,人工智能融合了机器学习、物联网、大数据、分布式系统等各种技术,按使用场景有机地将这些技术集成在一起,以更好地让机器服务于人类。

本文将重点讨论大数据与物联网的关系,从物联网的角度来看待大数据,通过大数据技术发挥物联网的优势;以及从大数据的角度来看待物联网,丰富数据的来源,凸显数据的价值。本文也讨论了大数据技术的基本原理和一些系统软件,以及在从物联网数据到形成大数据过程中物联网操作系统的应用,有助于进一步发挥物联网数据的价值。

在上一篇物联网与大数据(一)中,我们介绍了物联网与大数据的背景,本章将带大家一起从物联网角度看大数据。更多精彩文章请点击文末阅读原文

从物联网看大数据

一个显然的事实是,在很多应用场景下,物联网设备是数据的来源。从数据产生到数据被分析和处理,再发挥其应有的价值,这是由物联网形成大数据的一个合理路径。这一节我们来讨论其中的主要环节。

一2.1一

一 2.1 一

物联网产生的数据

现实中物联网设备产生的数据多种多样,数据量的大小不尽相同,数据存储的位置也各有不同。它们难以有统一的数据模型,为便于理解,我们通过几种典型的物联网设备来看一下它们产生的数据,以及相应的业务背景(参见图1)。

图1 物联网设备使用场景示意图

智能电表(或智能水表)。电表每次读取并上传的关键数据为表ID和电量值,大约数十个字节。对于电表的使用场景,不需要很频繁地读取数据,一天读几次就够了,这也符合设备节电的要求,因此,单个电表的数据量不大,数据通信的压力很小。然而,在一定的区域,这些数据会集中到一起进行存储和处理,形成业务相关的数据。比如,在一个城市区域,按几万个电表来计算,原始的电表数据每天在MB量级。像智能电表的使用场景,数据量不大,存储和处理都容易满足。类似地,还有很多物联网设备,包括一些家居类设备,像空调、洗衣机、电饭煲等,只需接收少量的指令信息,并上传相应的状态数据,就可以完成日常智能化动作。

共享单车。共享单车是一种典型的移动物体,并且需要实时联网才能解锁和还车。在解锁或还车的流程中,单车上的智能锁需要提供信息,包括车的ID、经纬度位置、锁的状态等少量基本信息,或者接收来自云端(通过GPRS、NB-IoT或短信通道)或智能手机(通过蓝牙通信)的指令,主要的数据处理流程由云端服务与智能手机协同完成。通信的频率与骑行的次数成正比,通常一天几次或者数十次,每次数十个字节。此外,在骑行过程中或者静止停放过程中,单车也会上报位置信息。若按照城市范围来运营,通常大型的城市拥有百万量级共享单车,对于单车运营商来说,每天通信数据量在GB量级,后台处理过程会放大数据量,但以当前的云端存储和处理能力而言,相当于一个普通的移动服务,物联网设备增加的数据负担相对有限。

智能手表。智能手表是一个典型的穿戴设备,它能够采集很多有关用户活动或身体状况的信息,包括走步、心率、睡眠、方向(指南针)、海拔、位置等。有的手表可以打电话、收发短信、拍照,甚至视频通话等功能。不安装SIM卡的智能手表,可通过蓝牙与智能手机同步数据,将这些信息传到手机上,再进一步可传到云端。智能手表采集的数据存放在本地,若不考虑像拍照或视频这一类多媒体信息,每天采集的数据量并不大,譬如,一次跑步1小时的数据量在几十KB至几百KB的量级。

摄像头。摄像头是贡献数据最多的物联网设备品类之一,需要大量的存储和计算来完成各种相关的应用。根据HIS Market的研究报告,到2021年全球将有10亿监控摄像头,其中中国占一半。而这相当部分是由政府安装在城市重要公共场所,用于智慧城市管理。摄像头产生的数据是音视频流,通常一路摄像头每小时的数据量在数百个MB,一天数据大约数个GB,根据用途,这些视频数据保存几天至几个月不等。按照1亿台监控摄像头,每天产生的数据为数百个PB(1PB=1,024TB=1,048,576GB),它们被分级存储在边缘和数据中心里。除了用于监控的摄像头以外,还有很多其他用途的摄像头,包括智能手机、机器人、智能音箱、门禁等等,这些摄像头被当作一个采集音视频的设备,并且在设备侧或边缘侧进行处理,完成各种实用功能,而并非将音视频原始数据保存起来。在有些场景下,音视频数据被转化成其他的业务数据,例如人脸门禁将视频流中的人脸识别出来以对应到特定的人员。

自动驾驶汽车。自动驾驶汽车依靠各种传感器采集到周围的信息,并迅速作出处理,以保证驾驶的安全性。根据英特尔公司2017年的实验数据,一辆自动驾驶汽车1.5小时产生4TB数据,主要来源于汽车上装载的数百个传感器,包括摄像头和激光雷达等。通过这些数据可实时地构建起汽车360度范围的视角,以指导汽车安全地行驶。由于实时性的要求,这些传感器的采样频率必须足够高(譬如,十毫秒一次),并且需要及时得到处理,因此,自动驾驶汽车本身就是一个数据处理平台。此外,作为一个联网设备,汽车产生的这些数据绝大部分在本地进行处理,少量数据上传云端。除了自动驾驶汽车,普通的汽车也在不断地生成数据,包括发动机引擎、里程仪、蓄电池等,这些数据保存起来,对于汽车故障诊断或保养维修有重要的意义。

工业设备。通常,工业设备联网的目的有两种情形:一是,在设备内部安装一些传感器,来监测设备的工作过程,以便及时获知设备的多维度状态信息;二是,对于生产性的设备,可以提供与产品、产量有关的数据,甚至还能区分是否为残次品。前者针对一些核心功能的设备,例如发动机、内燃机、泵等。下面以飞机发动机和智能缝纫机为例来说明功能性设备和生产性设备生成的数据:

  • 飞机发动机。现代的飞机发动机配置了大量的传感器(数百个),用来采集温度、转速、压力、振动、燃料流量等数据,每10毫秒采集一次数据,一次飞行下来能采集到TB量级的数据。这些数据一方面为完善和调优发动机提供依据,另一方面也可用于发动机的预测性维护,在故障发生之前进行维修,保障飞行安全。除了每次飞行结束以后获取这些数据,发动机也可以在飞行过程中将部分数据通过卫星网络传回地面站,从而掌握飞行过程中发动机的运行状况。例如,马航370航班失联以后,发动机制造商罗尔斯·罗伊斯公司仍然获得了一些发动机运行的数据,原因就是该公司专门建立了一套发动机健康管理(EHM)系统,在飞机起飞、降落、巡航或发生故障等情况下,将数据传回制造商。

  • 智能缝纫机。缝纫机是生产衣服最主要的机器,每条生产线,每道工序,缝了多少针、剪了多少次线、钉了多少纽扣等信息,智能缝纫机都能提供这些数据。服装厂将这些信息,集成到MES(制造执行系统)中,无需人工计件,就可以精确、实时地掌握这些生产数据。每台缝纫机可以实时地,或者周期性地将这些数据上传到企业软件系统或者云端平台。另外,缝纫机也可以根据累计生产的数量或内部状态信息来判断是否需要检修或保养。在这样的场景中,缝纫机产生的数据量并不大,传送数据的频率也可以根据实际需求来调整,实时性通常是可以保证的。按一件衣服在生产线上产生数百个数据点的话,即使是大规模的服装企业,这些数据的处理也不会成为瓶颈。

以上列举的是一些常见的物联网设备,它们在不同的场景中发挥作用,它们产生的数据无论其数量,还是类型和存储位置,都有显著的差异,并且对应的业务有不同的实时性要求。表1概括了这些设备数据的特性。

一2.2一

物联网数据流动

物联网数据的存储位置可以笼统地归结为四类:云计算、数据中心、边缘计算、设备端。物联网设备是数据的源头,从源头出来的数据经过第一跳,到达一个地点,数据经过处理,可能还会到达下一跳。这既是数据流动的过程,也是物联网设备和数据发挥价值的过程。数据在流动过程中,有可能通过网络进行,也有可能以离线存储和物理运输方式来完成;数据的数量有可能急剧地缩减,也可能融合进其他的数据体系。图2显示了上一节物联网与大数据(一)介绍的7种物联网设备在典型应用场景下,它们生成的数据的流动路径。

我们按照常见的数据路径来讨论物联网数据是如何被处理的,以及它们在各自的场景中如何发挥价值:

  • 首先,有相当一部分数据是在本地被消化掉的,也就是说,传感器采集到的数据,或者在本地保存一段时间,或者被实时进行处理。设备端保存了数据,但受限于存储空间的大小,一段时间以后如果不被取走,则自动被擦除了。然而,我们关心的是设备对外提供的数据,它与原始采集的数据有可能是不同的。譬如,有些摄像头采集的是视频,但真正传送出来的是抓拍到的人脸,或者对于场面的理解(比如,是否有人或车辆经过)。

  • 有一类设备会直接连接云服务,譬如,共享单车实时地连接到云服务平台,缝纫机连接到厂商的服务平台,家居类的设备连接到相应的云服务平台等。通常,这一类设备通过公共网络连接到云服务,所以传送的数据量不会很大;是否需要实时或可靠,取决于相应的业务需求,比如共享单车有实时性和可靠性要求,最多能容忍秒级延迟。

图2 物联网场景下的数据路径示意图

  • 有些设备连接到数据中心,通常这是一个企业或组织内部的数据中心。设备数据到达数据中心的方式典型有两种:一是直接网络连接,通过局域网或专线网络,适合实时性要求高并且数据量不大的业务场景,比如缝纫机的生产数据;二是通过线下转运,比如飞机发动机数据或汽车内部数据,在需要时(比如维修或故障分析)用专用介质去采集并导入到内部系统中,数据量有可能非常大。

  • 也有一些设备先连接到边缘侧,再连接到数据中心或云端。社会基础设施类设备,比如市政安装的电表、水表,或者监控摄像头,大多会通过边缘计算设施进行数据基本处理或汇集,然后再进入专用的数据中心或专有云;广域分布的企业也会部署一些边缘计算设施,用于各处的数据收集和处理,比如一些连锁厂商(像加油站)的设备。设备数据在边缘得到处理,从中提取出有业务价值的信息,数据量通常会逐级减少。

简单小结一下,物联网设备产生的数据,除了设备端自身保留的即时或历史数据以外,最终会停留在数据中心或云端,边缘计算往往不承载数据存储能力。而数据中心和专用的云服务平台有明确的数据归属边界,数据中心之间或者数据中心与云平台之间,若要交换数据,则属于上层的业务诉求了。

那么,基于这样的数据路径分析,从物联网设备如何形成大数据呢?我们从数据量的角度来看,要想形成大数据,势必要有足够多的数据量,这是大数据的一个必要条件。下面是两种汇聚成大数据的可能情形:

  1. 单个设备生成的数据量非常大,并且这些数据有潜在价值,不能被轻易丢弃掉。比如飞机发动机、电厂DCS系统(一组设备看成整体)、自动驾驶汽车(许多传感器看成整体),将这些数据汇聚在一起,会形成通常意义上的大数据;

  2. 大量设备合起来的数据量非常大,这是一些IoT平台的特点。当百万量级的活跃设备直接或间接连接到一个云平台时,对于特定的产业往往有一定的指导作用,这是云平台发挥大数据价值的一个重要方面。

通过以上的介绍和分析,我们可以看到,从物联网设备到大数据,并非直接可达,中间存在一些数据汇聚阶段和归属边界,数据形态和价值也在发生变化。后续章节中将进一步讨论从物联网设备到形成大数据的技术路径。

在下一篇文章中,我们将带大家《从大数据看物联网》

前面提到了,数据量大只是大数据的一个必要条件,那么,到底什么是大数据,大数据真正的价值在哪里,如何利用大数据服务于企业、政府或社会,这些问题的答案都不是显而易见的。这一节我们先从理解大数据开始,再来看物联网如何促进大数据的发展与深入。

《从大数据看物联网》-潘爱民

物联网与大数据(二)从物联网看大数据相关推荐

  1. 工业物联网与物联网区别_企业可以从物联网中受益的7种方法

    工业物联网与物联网区别 IoT devices enable businesses to generate large volumes of valuable data. This real-time ...

  2. 二本跨考吉大计算机,二本考吉大研究生难度,我想考吉大研究生?

    今天小编先给大家讲一下关于考研的一些事情,我发现很多同学对于考研还是云里雾里的,连考研有哪些科目都不清楚.二本考吉大研究生难度对于考研,小编认为选择比努力重要,动力很大程度决定了你的结果,希望通过我想 ...

  3. 物联网与大数据(三)从大数据看物联网

    关于物联网与大数据的分享,我们已经发布过两期:物联网与大数据(一)介绍了物联网与大数据的含义.背景:从物联网看大数据讨论了物联网形成大数据的主要环节.那么,到底什么是大数据,大数据真正的价值在哪里,如 ...

  4. 《大数据之路:阿里巴巴大数据实践》

    <大数据之路:阿里巴巴大数据实践>语录 目录 一.数据采集 1 ◆日志采集 1 ▼浏览器的页面日志采集 1 ▼无线客户端的日志采集 2 (1) 页面事件 3 (2) 控件点击事件 3 (3 ...

  5. “数据二十条”发布背后:国企下场探路,技术路径日渐清晰

    科技云报道原创. 近日,中共中央.国务院对外发布了<关于构建数据基础制度更好发挥数据要素作用的意见>(又称"数据二十条"),为数据要素的流通和使用起到了举旗定向的作用, ...

  6. 数据大屏:聊聊常见可视化大屏的产品实现

    来源首席数据科学家 " 今天和大家聊聊一种比较常见的数据可视化形式:大屏." 数据大屏,无论是搞数据还是不搞数据的,应该都不陌生.对搞数据的人而言,往往是不屑一顾,觉得大屏就是鸡肋 ...

  7. 加米谷大数据报告:社交网络大数据的应用有多大的价值

    移动互联网时代,UGC(用户产生内容)不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据.面对大数据时代的来临,复杂多 ...

  8. 物联网行业网络解决方案_2021物联网趋势:有望从物联网传感器网络中受益的5大行业...

    创新和保持竞争优势的核心是可靠且可访问的数据.物联网使公司能够从其资产.人员和流程中获取大量关键数据.这些数据是降低成本.提高效率和为员工提供更安全环境的生命线.尽管物联网不再是一个新概念,但对某些行 ...

  9. C语言程序设计第五版谭浩强课后答案 第六章《利用数组处理批量数据》习题答案 (大一大二、考研、计算机二级必看)

    第六章<利用数组处理批量数据>习题答案 1. 用筛选法求100之内的素数 2. 用选择法对10个整数排序 3. 求一个3 X 3的整形矩阵对角线元素之和 4. 有一个已经排好序的数组,要求 ...

最新文章

  1. 机器学习入门(12)— 激活函数层 ReLU、Sigmoid 层的实现
  2. 麦肯锡发布《中国互联网公司崛起报告》
  3. mac 下终端 操作svn命令 以及出现证书错误的处理方法
  4. 信息学奥赛一本通(2057:【例3.9 】星期几)
  5. linux vim命令_提升生产力的20大Linux Vim命令
  6. 深度学习自学(十七):caffe-sphereface-编译matcaffe遇到的问题
  7. 模拟集成电路设计(拉扎维)第四章学习笔记
  8. 使用 hydra 破解路由器密码
  9. Outlook连接Gmail不成功可以试试以下方法
  10. 实现阿里云视频直播流程
  11. windows计算机锁屏的快捷键是什么,电脑锁屏快捷键是什么
  12. java优化方法_JAVA程序性能优化的10个简单方法
  13. 支小蜜人脸识别消费系统实现校园、家长、学生三方共赢
  14. docker swarm笔记-Swam mode教程
  15. 获取平面的法向量_艾孜尔江撰
  16. 高效解锁Word文档密码
  17. redis stream 实现消息队列
  18. 2021年12月中国货车生产企业销售量排行榜:Top2销量是top1的0.62倍,但其累计销量稳居第一(附月榜TOP45详单)
  19. Fluke 438-II 电机效率和电气性能综合测试仪
  20. 《论文写作》--心得体会

热门文章

  1. 手机打开html乱码怎么解决,打开网页出现乱码怎么办 打开网页出现乱码解决方法【详解】...
  2. LaTeX 中插入中英双语目录
  3. 基于asp.net315家教信息管理系统
  4. 易视通(easy media player) v2.0 build 20070626 是什么
  5. 好视通视频会议平台存在默认口令任意文件下载
  6. 网络的专家—防火墙!!转自 百度
  7. Vue下载安装步骤的详细教程(亲测有效) 2 安装与创建默认项目
  8. USB/UART/I2C/SPI等接口传输速率
  9. 浅谈 DataStage
  10. 腾讯云DNSPod域名解析全面支持IPv6-only