首先我们得明白,我们得到的大数据其实是来自不同渠道的数据组合而成的,要把这些数据整合在一起,才可以发现有用的信息。但是,这个“整合”可不是一件容易的事儿。下面我们来了解一下常见的大数据“加工”方式吧。

相似关联,这种加工方式并不难理解,专业的说法叫“协同过滤”,就是要收集大量的用户浏览记录,通过相似行为进行关联推荐。比如说,我们通过大数据给两个同学贴标签,包括“性别、年龄、喜欢的颜色、喜欢的明星、爱买的东西、爱去的地方”等,然后发现A和B的标签有很多相似,我们就可以将A喜欢购买的东西推荐给B。

由于这种加工方式简单,逻辑清晰,可行性强,它被大多数企业采用,例如今日头条、天天快报等都是采用的这种算法,但它也存在缺陷。由于获取数据的手段有限,有时候并不能真实的反应出用户对信息的需求,很容易让用户深陷在自己的“兴趣爱好”当中,很难扩展。

隐式搜索,这一算法模式看起来高端,其实分开来看就简单多了,其核心内容为“搜索”,比如你在某个软件上搜索了关键词“科学”,那么该算法就会在大数据中挑选关于“科学”这一次的相关信息数据主动推送给你,同时获取你的兴趣数据。而所谓的“隐式”其实就是根据关键词“主动”推送的意思。

这一“加工”大数据的方法是建立在搜索引擎普及之后的,与“相似关联”类似的是,不同的人搜索相同的信息有不同的目的,而不同的时间地点搜同样的信息也有不同的目的,用同样的标准衡量用户行为,容易产生误判。但这种算法相比“相似关联”仍有一定优势,“相似关联”只能通过自身的标签做推送,相比而言“隐式搜索”能扩展的范围会更大。

社群+大数据这一加工的手段相对前两个来说更智能,这也是目前所有加工算法的发展趋势,它对所加工的“大数据”要求能达到“矩阵”的规模,也就是说数据的规模要更大更多。目前能真正做到“社群+场景”的加工算法的只有少数几家互联网巨头。

大数据加工是一个“技术活儿”,这里我们只介绍了比较常见的三种加工方算法,但实际的应用中根据不同的需求可能会有特有的某种算法模式交叉使用。

值得注意的是,被加工后的大数据有的会服务于人,但目前其大多数还是服务于机器,因为有人认为人只能是对宏观的东西做把控、对部分的场景做决策,而机器则可以对个体,对全量的场景做决策。所以,我们在日常生活中如果看不到这些“大数据”的时候也不必惊奇啦,因为它们很可能用其他的机器软件给我们做服务呢!

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据处理引擎Spark与Flink大比拼
http://www.duozhishidai.com/article-6947-1.html
企业如何实现对大数据的处理与分析?
http://www.duozhishidai.com/article-5030-1.html
大数据时代,最适合大数据处理的编程语言有哪些?
http://www.duozhishidai.com/article-1823-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大数据加工的方法,主要分为哪几种?相关推荐

  1. 大数据时代 | 数据分析方法及理论详解

    大数据时代 | 数据分析方法及理论详解 1 数据分析前,我们需要思考 像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用. 2 分析问题和解决 ...

  2. 大数据可视化的方法和价值

    数据可视化平台是是通过三维表现技术来表示复杂的信息,实现对海量数据的立体体现.可视化技术借鉴人脑的视觉展现能力,通过挖掘重要数据之间的关联关系将若干关联性的可视化数据进行汇总处理.揭示数据中隐含的关联 ...

  3. 大数据类型主要分为哪几类,大数据挖掘商业价值方法主要分为哪几种?

    互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这 ...

  4. 大数据可视化的方法、挑战及进展

    大数据可视化的方法.挑战及进展 摘要:在简化数据量和降低大数据应用的复杂性中,大数据分析发挥着关键的作用.可视化是其中一个重要的途径,它能够帮助大数据获得完整的数据视图并挖掘数据的价值.大数据分析和可 ...

  5. 深圳大数据学习:方法的嵌套--【千锋】

    深圳大数据学习:方法的嵌套–[千锋] 方法里嵌套定义其他方法 示例1 object EmbedDemo { def add3(x:Int,y:Int,z:Int)={ def add2(x:Int,y ...

  6. 【2017年第2期】大数据的价值发现方法

    杜小勇1,陈跃国2 1. 数据工程与知识工程教育部重点实验室(中国人民大学),北京 100872:2. 中国人民大学信息学院,北京 100872 摘要:大数据的价值有不同的体现形式和发现价值的途径.总 ...

  7. oracle 孙帅_农村居民点空间大数据平台构建方法研究

    农村居民点空间大数据平台构建方法研究 孙帅,王彪 (北方工业大学建筑与艺术学院,北京 100144 ) [摘 要] 通过低空无人机实景建模技术,采集并构建农村居民点空间大数据平 台.充分发掘海量空间数 ...

  8. Data.FireDACJSONReflect多数据集与压缩字节流化的加密的JSon序列化-Delphi 10大数据的实现方法之Json序列化

    Data.FireDACJSONReflect多数据集与压缩字节流化的加密的JSon序列化-Delphi 10大数据的实现方法之Json序列化 uses Data.FireDACJSONReflect ...

  9. 银行数字化转型导师坚鹏:商业银行大数据风控建模方法与案例

    商业银行大数据风控建模方法与案例 课程背景: 数字化背景下,很多银行存在以下问题: Ø 不清楚商业银行大数据风控建模方法? Ø 不清楚银行大数据风控建模应用案例? Ø 不知道银行大数据风控建模核心内容 ...

  10. 数据蒋堂 | 最简单的大数据性能估算方法

    作者:蒋步星 来源:数据蒋堂 本文共1000字,建议阅读6分钟.大数据的性能是个永恒的话题. 大数据的性能是个永恒的话题.不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被 ...

最新文章

  1. html中hover有静止的命令,我可以通过JavaScript禁用CSS:hover效果吗?
  2. “比特币耶稣”罗杰·沃推特赠币,留下BCH钱包地址就有份
  3. 偏移shaderuv_Unity Shader 之 uv动画
  4. 小 Q 与函数求和 1(牛客练习赛 81 E)
  5. 同一域名端口下,通过nginx部署多个vue项目
  6. Python还有发展前景吗?现在该怎么去学习?
  7. ubuntu18.04播放mp4提示需要安装MPEG-4 AAC解码器和H.264解码器的解决办法
  8. 计算机云处理器,IBM推出最新量子处理器 等于6.5万比特普通计算机
  9. 服务器的带宽与宽带有什么区别
  10. QQ空间批量删除说说
  11. 自己做的js甘特图插件
  12. C语言实验:输入任意一个日期的年、月、日的值,求出从公元1年1月1日到这一天总共有多少天,并求出这一天是星期几。
  13. Revit建模中快速局部平面操作,一键搞定!
  14. 电容笔买什么牌子好?2022电容笔品牌排行榜
  15. (翻译)邀请好友模式(Invite friends)
  16. PMP项目管理过程实用表格与应用(实用表格推荐)
  17. web前端开发(包括任何行业)要不要找个师傅带?
  18. Win10 LTSC添加闹钟和时钟应用
  19. java毕业设计心理咨询与诊断系统mybatis+源码+调试部署+系统+数据库+lw
  20. 关于一个大一学生的俄罗斯方块项目分享C#开发,附源码(四)

热门文章

  1. Volatility FAQ
  2. ios点击推送闪退_苹果ios企业签名常见问题及解决方案总结,开发者必看!
  3. PDF文件有密码怎么取消加密
  4. 虚拟服务器和vdi,VDI虚拟化平台搭建 01--VDI基本环境准备
  5. pygame UI 框架
  6. 目标检测经典论文——YOLOv3论文翻译:YOLOv3: An Incremental Improvement(YOLOv3:增量式的改进)
  7. python怎么画圆螺旋线_Python turtle 绘制彩色螺旋线
  8. 鸡啄米:C++编程入门系列之目录和总结
  9. already opened by ClassLoader
  10. 正确地使用“respectively“