最近几年,经常听到数据挖掘这个词。

不过,我仔细看了下,发现这个词还是挺模糊的。

挖掘

这个词,应该指从数据中发现有价值的信息。

比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。

数据

根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。

限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。

日志的种类

1.浏览日志

a.广告曝光日志

一个广告的一次曝光,会产生一条曝光日志。

日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。

注:可以用监测点ID来代替媒体和频道等更多信息。

b.网页访问日志

网页被一个用户访问一次,产生一条访问日志。

日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。

2.行为日志

a.广告点击日志

日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。

b.内容点击日志

用户点击了站内的链接,记录这个日志,可以得出用户的喜好。

日志格式: 与网页访问和广告点击日志类似。

c.分享日志

用户分享了文章或者文章的一部分。

d.收藏

用户收藏了商品、文章、代码等。

e.搜索

百度肯定记录了用户的搜索记录。

优酷等视频网站、新浪等媒体网站也有吧。

更多日志,不再一一列举。

日志的存储

百度、优酷等大型互联网网站,肯定有很多服务器。

日志也会存储到多台服务器上。

日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。

至于怎样更合理,我还没有啥实际经验。

两个疑问

1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?

我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。

2.这些日志数据有必要备份么?

我觉得有必要。

日志的计算

1.实时计算

来一条日志,或者一定量的日志,就计算。

然后,把多态服务器上的计算结果累加,得出最终的结果。

现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。

实时计算能力已经成为一个技术公司的核心竞争力了。

2.非实时计算

等所有相关数据都出来了,然后再统一计算。

这种方式,准确度会更高。

云存储

有的技术公司,有自己私有的云存储技术,不对外提供。

有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。

公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。

场景和需求的不同,也就决定了云存储技术还是会分化成好几种。

云计算

我一直没有搞清楚“云计算”和“分布式计算”有啥区别,总感觉“云”就是一个模糊的让人“云山雾绕”的概念。

姑且就认为云计算=分布式计算。

我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。

(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)

友情提示

本人从业时间有限,经验有限,因此本文仅供参考。

本人正在努力学习和研究当中。

欢迎提出建设性的意见和建议。

原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)

转载于:https://www.cnblogs.com/qitian1/p/6463369.html

互联网日志的种类、存储和计算相关推荐

  1. LC3视角:Kubernetes下日志采集、存储与处理技术实践

    摘要: 在Kubernetes服务化.日志处理实时化以及日志集中式存储趋势下,Kubernetes日志处理上也遇到的新挑战,包括:容器动态采集.大流量性能瓶颈.日志路由管理等问题.本文介绍了" ...

  2. 亿级流量系统架构之如何支撑百亿级数据的存储与计算

    "本文聊一下笔者几年前所带的团队负责的多个项目中的其中一个,用这个项目来聊聊一个亿级流量系统架构演进的过程. 一.背景引入 首先简单介绍一下项目背景,公司对合作商家提供一个付费级产品,这个商 ...

  3. 亿级流量系统架构之如何支撑百亿级数据的存储与计算【转载 石杉的架构笔记】-1...

    亿级流量系统架构之如何支撑百亿级数据的存储与计算[石杉的架构笔记] 原创: 中华石杉 "本文聊一下笔者几年前所带的团队负责的多个项目中的其中一个,用这个项目来聊聊一个亿级流量系统架构演进的过 ...

  4. 中国技术经济学会区块链分会秘书长贾永政:人工智能与区块链上的存储和计算

    聚英数科|中国技术经济学会区块链分会秘书长贾永政:人工智能与区块链上的存储和计算 8月18日,由链世纪财经.Ever链动主办,聚英国际.PAI Community联合主办,BTRAC全球数字网络高等智 ...

  5. 面向互联网日志分布式实时ETL系统

    20001 面向互联网日志分布式实时ETL系统 运行视频.代码等: 链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg 提取码:1589 复制这段内容 ...

  6. 阿里推出 PolarFS 分布式文件系统:将存储与计算分开(附论文)

    将存储与计算分开来大有意义,对于部署的云数据库而言更是如此.为此,阿里巴巴推出了一种新开发的名为PolarFS的分布式文件系统,旨在确保低延迟和高可用性.这个文件系统与阿里云上自己的PolarDB数据 ...

  7. OIL + VCache如何改善Facebook视频延迟 并减少存储和计算开销?

    OIL将存储空间抽象化,并与分布式缓存系统VCache配合,降低了Facebook视频延迟的同时,并减少了存储与计算开销.感谢赵化强.李东明完成本文技术审校. 文 / Roberto J Peon, ...

  8. 阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能(附论文)

    摘要: 将存储与计算分开来大有意义,对于部署的云数据库而言更是如此.为此,阿里巴巴推出了一种新开发的名为PolarFS的分布式文件系统,旨在确保低延迟和高可用性.这个文件系统与阿里云上自己的Polar ...

  9. 广域存储和计算协同面临哪些挑战,具有哪些优势?

    点击上方蓝字关注我们 广域存储和计算协同面临哪些挑战,具有哪些优势? 基于虚拟数据空间的存算协同调度系统优化了广域环境中的全局资源利用,支持海量数据跨域存储管理与高效处理,可有效提高存储资源的访问效率 ...

最新文章

  1. http://www.fx114.net/qa-24-116329.aspx
  2. css的content属性
  3. (传送门)instant run原理
  4. 【AI不惑境】网络深度对深度学习模型性能有什么影响?
  5. 资源不关闭,会导致什么最坏的结果
  6. 在Windows 2000下优化Oracle9i性能[转]
  7. G代码 机器人的CNC实现
  8. 川农计算机网络题库,川农网院20秋《计算机网络》期末机考
  9. 值得借鉴的30条好习惯
  10. 统计图学习-类型介绍
  11. 使用jRebel在IntelliJ IDEA 中进行 Java 热部署
  12. 大数据||MapReduce编程模板
  13. 有限维线性空间过两点有且只有一条直线的证明
  14. 在vue中修改数组某个元素,值变了,渲染不了
  15. 花花公子 243线SLOT
  16. 【Linux】排查进程、挖矿病毒查找
  17. 数据库MySQL错误2058_SQLyog连接MySQL8.0报2058错误的完美解决方法
  18. 总线通信协议-PCI
  19. 明星企业Argo AI倒下:曾估值超70亿美元 烧掉数十亿美元
  20. (最简单)从MIT-BIH ECG 心电数据(.txt)详细的下载过程

热门文章

  1. 如何在邮件系统中使用自己的域名?
  2. UVA 662 Fast Food
  3. K8S仪表板Service unavailable故障的解决办法
  4. axis为amchart左右轴的参数
  5. 纯API函数实现串口读写。
  6. C# 谈谈Interface和通过Interface传递web页面数据
  7. Python爬虫框架Scrapy学习笔记原创
  8. 计算机视觉-自定义对象检测器
  9. python:改良廖雪峰的使用元类自定义ORM
  10. 关于文件系统权限的管理