文|乡野山人左大瑞
今天下午开会讨论一个业务方的需求,我去旁听,领导提了一句“热数据”,当时心里一脸蒙蔽,数据还能有温度?

一脸懵逼的网络图.jpeg

临下班的时候,整理今天的会议笔记,看到了打着问号的热数据,于是决定查一查到底是什么。

下面会从两个层面上来说:一个是数据的访问频次层面,一个是数据分析层面。

一,访问频次

从字面意思来简单的说,热数据就是访问的多,门庭若市,自带体温且有可能摩擦起热,你懂的,于是温度就起来了。冷数据就是基本上没什么客人来访,门庭冷落车马稀,没人气儿,空气里都冷了几分。

热数据:是需要被计算节点频繁访问的在线类数据。
冷数据:是对于离线类不经常访问的数据,比如企业备份数据、业务与操作日志数据、话单与统计数据。

两个不同的访问频次,就导致了在数据库搭建的各自不同,有一句话简单明了:

热数据就近计算,冷数据集中存储

所以,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对数据进行压缩、去重等降低成本的方法。

由此看来,数据基于访问频次部署的好的话还能给公司节省服务器,这就造福了多少因为服务器夭折的项目。

以视频为例的冷热存储

二,数据分析层面

这两年,互联网公司开始打数据的旗号增加公司价值和估值,比如我上家公司,是一个传统体检行业下的互联网子公司,是希望把做体检积累了很多年的数据进行分析,做健康管理和大病预测。以为这个海量数据,真的是吸引了很多高才能人事,也是我和科学家们打交道最多的一份工作,有医学博士、数据科学家、图像处理穿甲、返聘的主任医师。
但是但是,在建立数据模型的时候发现,这些数据只是刚刚起步,还处于数据清洗的阶段,甚至有些数据,还不能很好的指标化,文字化。
所以,就算打着大数据的旗号,也无奈的没能做出数据分析的事情,所以在生产数据的时候,做好数据部署和数据分析的准备,提前做好字段拆分,埋点部署……

从数据分析的层面来看,不仅有冷热两种数据,还有温数据,而提出这个概念的是个灯,个灯是这么介绍的:

个灯独有的数据技术引擎:冷数据、温数据和热数据。

  • 冷数据——性别、兴趣、常住地、职业、年龄等数据画像,表征“这是什么样的人”;
  • 温数据——近期活跃应用、近期去过的地方等具有一定时效性的行为数据,表征“最近对什么感兴趣”;
  • 热数据——当前地点、打开的应用等场景化明显的、稍纵即逝的营销机会,表征“正在哪里干什么”。

它基于这三个不同温度的数据,打造了个灯的三条业务线,志在打造个灯广告产品生态圈,多多赚钱。

个灯将其说成是数据技术引擎,对于我来说,这个的层面更像是数据的分析和应用层面,上面的第一点说的是打地基,而第二点更像是盖楼还是盖房。

个灯的三温度赚钱工具zhuan qian zApp

不管是哪个层面的,当数据动起来的时候,才会产生价值,而数据的价值,就像是一座有无数宝藏的矿山,挖矿的人对于数据的洞察力、提取力和分析力决定了他能挖出钻石还是煤炭。

互联网发展的太快,快到政府意识到的时候,都有点儿跟不上节奏了,所以现在海量的数据在各个公司下,没有有效且有力的监管。总有一天,数据全权开放给政府,数据共享,到了那一天,数据将比自己更了解我们。而那个时候,是不是就像《未来简史》里说的,我们都有一个比我们自己更懂自己的机器人管家,想想其实有点儿小恐怖,毕竟我心里有一些小秘密,没有告诉任何人。

作者:乡野山人左大瑞
链接:https://www.jianshu.com/p/053ba529bf02/
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

冷数据、温数据、热数据,难道数据也是有温度的?相关推荐

  1. 大数据:冷兵器时代到热兵器时代的变革

    文章讲的是大数据:冷兵器时代到热兵器时代的变革,世界著名的未来学家John Naisbitt认为"我们首次拥有一个基于关键资源(信息)的经济体制,不仅是可再生的而且是自发生产的.耗尽它没关系 ...

  2. 时下最热开源大数据技术TOP10

    文章讲的是时下最热开源大数据技术TOP10,眼下大数据成为最热技术,并且呈现爆炸式增长.全世界的新项目雨后春笋般的出现.对于这些新的公司.项目来说,利好就是所有可用的技术是开放源代码的,直接采用. 海 ...

  3. 数据分析师岗位热招!你也有希望进大厂~

    数据分析师岗位热招!你也有希望进大厂~ 近日,阿里云表示2020年将扩招5千名员工.值得一提的是,数据分析师等相岗位的招聘,也成为了本次招聘的重头戏. 据介绍,包括阿里巴巴计算平台事业部实时计算部.基 ...

  4. 送书|Python采集QQ音乐热歌榜首数据

    今天给大家带来用python采集QQ音乐的热评-文末有送书哦- 我们可以看到这首歌曲的评论有10881条,不愧是榜首热歌,评论比较高. 一.初步测试 我们首先使用selenium测试一下环境: fro ...

  5. 利用爬虫获取猫眼电影热门前100数据

    利用爬虫获取猫眼电影热门前100数据 实现方法 1:访问网站,获取页面源码 2:解析页面 ,得到想要的数据 3:循环爬取多个页面 4:把数据写入本地文件 ''' 需求:爬取猫眼电影前100的电影信息 ...

  6. CSDN热榜排名追踪工具上线,随时查看热榜链路数据

    大家好,我是小小明. 今天大家期待已久的热榜追踪神器上线了,包含历史热榜搜索器和近两日热榜排名等. 历史热榜追踪数据搜索:http://120.78.229.124:8000/static/searc ...

  7. 2016中国大数据大会成功举办 重磅发布年度大数据十大热词

    12月20日,由赛迪网.<互联网经济>杂志社.数创汇主办,赛迪智库互联网研究所.中国大数据产业生态联盟.中国信息化推进联盟以及国家信息产业公共服务平台协办的"2016中国大数据大 ...

  8. 百度、微博的大数据算法Top10热搜怎么实现?

    百度.微博等热门搜索排行榜功能你用过吗?你知道这个功能是如何实现的吗? 实际上,它的实现并不复杂.搜索引擎每天会接收大量的用户搜索请求,它会把这些用户输入的搜索关键词记录下来,然后再离线地统计分析,得 ...

  9. sqlite3数据存储最多存储多少条数据?达到上限如何处理?_在数据爆炸的当下,教你设计一个能实现9个9数据可靠性的存储系统...

    据 IDC 发布的<数据时代 2025>白皮书预测:在 2025 年,全球数据量将达到史无前例的 163ZB. 随着网络发展速度越来越快,数据的产生量正在呈指数级上升,企业面临的数据压力也 ...

最新文章

  1. AI探索(二)Tensorflow环境准备
  2. Harbor仓库的管理
  3. 计算机第二阶段在线作业冯,中国石油大学(北京)《计算机应用基础》第一次在线作业 2...
  4. 给出TREE_INSERT过程的非递归版本(算法导论第三版12.3-1)
  5. java替换数组中的元素_如何使用Java 8流快速替换列表中的元素
  6. Windows7 + Nginx + Memcached + Tomcat 集群 session 共享
  7. 每日一题 2020.05.11
  8. (摘)如何配置Windows Live Writer
  9. 《算法分析与设计》课程任务
  10. PlatformTransactionManager
  11. BZOJ3376: [Usaco2004 Open]Cube Stacking 方块游戏
  12. java jni 生成_利用javah技术生成jni接口的详细步骤 | 学步园
  13. 软考中级-软件设计师|下午题攻略
  14. 清华大学计算机系本科自考,清华大学自考专业有哪些
  15. 【oracle11g,13】表空间管理2:undo表空间管理(调优) ,闪回原理
  16. Unity使用VS2019打开代码出现不兼容的解决方法
  17. html图片显示详情,纯CSS鼠标经过图片视差弹出层显示详情链接按钮特效代码.html...
  18. DVWA windows提权
  19. Vue打包后出现的bug -favicon.ico' because it violates the following Content Security Policy direc
  20. 污水处理问题多,泵站自动化控制系统是这样解决的

热门文章

  1. 变量的存储方式和生存期
  2. 【渝粤教育】广东开放大学 古代汉语 形成性考核 (28)
  3. stormzhang:对于 996,说下我的观点
  4. 大数据开发就业:大数据开发有哪些岗位
  5. E03.04 Blue-Collar Boom: How China Bounced Back From the Virus
  6. PAMTRI:用于车辆重新识别的姿势感知多任务学习
  7. GIS地图学习笔记一之基础概念
  8. 天干地支 java_Java实现干支纪年法
  9. 仿淘宝ViewPager左滑加载详情界面
  10. 实验7 Wireshark网络安全检测