对于数据分析师而言,掌握一套方法论至关重要。搞数据挖掘,需要知道CRISP-DM,5A以及SEMMA三种过程模型或方法论。然而对于大数据,对于各位打算成为数据科学家的读者,是否想过总结一套适合自己的大数据方法论呢?这里抛出拙著,希望广泛讨论,不足之处,敬请赐教~

整体构思:

有观点认为大数据本身是种方法论,对于此,我持保留观点。然而对很多想实现大数据,想发展成为大数据公司的企业而言,面对大数据却有些无从下手。所以有必要对如何搞大数据做一翻思考,并基于此,抽象出通用的流程出来。这里,划分为六个环节:商业分析、场景设计、业务理解、数据规划、智能建模、深度应用。一个企业要实现大数据,可以有很多方法,本方法主要提供一种参考。首先从商业角度考虑,布局,挖掘商机,这个很容易忽略,往往通过布局一种生态,对企业未来发展十分有利。其实通过场景设计,找准大数据的真正定位,比如做提供什么样的服务可以实现双赢,做一款什么样的产品以什么样的方式运营可以刺激需求可以获利,没有这种认识和觉悟,是做不了大数据的。另外,比较重要的两点是数据和平台。我一直认为大数据对计算和分析的要求很高,即便只有几百KB的数据,想实现精度很高的模型,也会产生极大的运算量,所以需要依靠平台,没有平台,拿什么来计算,拿什么来提高性能。另外一个维度就是数据,大数据要实现跨界就必然引入更多数据,除了公司自己的数据外,还有合作方的数据,还有数据对接的数据等等,这个量是很大的。玩的越大,数据关系越复杂,说明数据的数据也越大,对平台的挑战也越大。

最后,一切分析和挖掘的目的都在于运用,如何让分析的结果产生更大的价值,如何有效地解决客户的问题呢?我的观点是要把应用做深,在不经意间,引导用户,满足潜在需求,提高效率,刺激需求

下面,通过一个例子说明本方法论:

(1)商业分析

某游戏公司为了刺激玩家的活跃度,尝试与银行进行跨界合作(玩游戏需要用币,银行卡有积分需要消费),寻找新的商机

(2)场景设计

该游戏公司通过分析发现,用户的银行卡积分使用率很低,在玩家游戏币不足的场景下,通过银行卡积分兑换游戏币,提升玩家活跃度

(3)业务理解

通过业务理解,该游戏公司确定了提升玩家活跃度10%的目标,并分析了影响提升玩家活跃度的诸多因素

(4)数据规划

基于与银行合作的考虑,该游戏公司与银行在数据绝对安全的情况下实现了数据的对接,并与现在数据进行有效集成,同时规划后期采集和使用的数据

(5)智能建模

该游戏公司基于数据+平台的理念,构建了一套智能学习平台,通过配置建模流程和规则,得出建模结果,该公司基于此制定了详细可靠的业务规则

(6)深度应用

基于业务规则,当玩家游戏币余额不足时,会根据玩家当时的心态分析结果,决定是否呈现银行卡积分兑换游戏币的功能。该公司最终达到了商业目标

我的大数据方法论:求扔砖相关推荐

  1. 大数据集合求交集_通达信北上资金+盘面分析sp版面,智能大数据集合,筹码占比指标...

    大家好,我是金融依依. 最近一直都在给大家分享一些比较实用的sp界面,因为发现很多人了解信息的渠道是非常乱的,很多时候得到的信息还不一定准确,很多界面看的自己眼花缭乱,最后也没能看出个123,所以今天 ...

  2. 大数据集合求交集_Java8 实现ArrayList求交集并集差集

    本文借助Java8的Stream API完成ArrayList集合运算:求交集.并集和差集! public class CollectionUtil {/*** 判断为空*/public static ...

  3. 大数据集合求交集_还记得学生时代数学老师教的“集合”吗?

    犹记得老师敲着黑板,强调"集合"的特性:无序.不重复,没想到多年后在咱们编程中派上了用场. 集合 # 数据分析中,经常需要把字符串.列表中的数据去重,怎么办呢?用"集合& ...

  4. 杂谈记录——论Long类型的大数据量求交集

    一.优化内外层比较的结构 『外层遍历 + 内层遍历』查找: 复杂度 O (NM) ,一般使用 contains () 检查是否包含 『外层遍历 + 内层 Hash』查找: 复杂度 O (N),一般将内 ...

  5. 工业大数据的真正意义和价值

    近年来,以 .移动互联网.大数据.云计算为代表的新一代信息技术,以 . .人机协作为代表的新型制造技术,与新能源.新材料与生物科技呈现多点突破.交叉融合,智能制造技术创新不断取得新突破.2016年是我 ...

  6. 得大数据者 得新工业革命先机

    数据无限多时,就接近真实世界的本原.人类征服世界的前提是认识世界,既然借助大数据已经无限接近了真实世界,也就不必画蛇添足了,还是保持真实数据原貌最好,而且,认识世界的能力越强,人类征服世界和改造世界的 ...

  7. 阿里巴巴大数据平台“达芬奇密码”进化论

    阿里巴巴大数据平台"达芬奇密码"进化论 2014-02-11点右侧>>> 海丁活动 大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一.阿里数据平台事业部服 ...

  8. 贾扬清:如何看待人工智能方向的重要问题?【相辅相成不可或缺的两位“大数据和AI”】

    导读:今天的内容由阿里CIO学院攻"疫"技术公益培训贾扬清专场整理而来.直播中贾扬清向大家分享了人工智能的工程和产品实践,首先介绍了什么是人工智能以及人工智能的应用:然后和大家一起 ...

  9. 传统行业如何搭建大数据团队?

    这个问题很笼统但也情有可原.现在很多企业认可了数据的价值,提升业务,降低成本,开拓新产品,减少风险等等,越来越多的企业要进行数字化转型,要建设大数据平台,要成立大数据团队. 说到传统行业要搭建大数据团 ...

最新文章

  1. maven不能加载ojdbc6.jar的解决方法
  2. XDebug分析php代码性能
  3. java对象数组覆盖_java – 如何覆盖RAML 1.0中的对象数组属性类型
  4. 再上24天班,小长假就来了!
  5. 水声被动定位中的机器学习方法研究进展综述
  6. nginx配置多个二级子域名
  7. python 不等于_python怎么一次输入两个数
  8. perl 操作 timesten 数据库 带用户名和密码验证
  9. 目标检测(六)--SPPNet
  10. java对获取的字节数组进行处理
  11. 轻量级纯CSS框架,11款最轻量级的CSS框架
  12. Vue Mapbox-GL 在地图中增加图标、线条、标记点击弹窗、地图平移
  13. python实现局域网攻击_mac泛洪攻击arp欺骗(python脚本)
  14. Javascript验证码的生成和验证,源代码
  15. 鬼故事~ 媚娘[完结版]
  16. Canvas绘制网格
  17. Android实现返回主页,禁止返回上一层等功能
  18. Pycharm中 No module ‘自定义模块‘ 的问题(mmrotate)
  19. 【数据结构和算法】2谈谈算法
  20. 如何妥善备份你的以太坊钱包

热门文章

  1. c++ vector api summary
  2. Git(7)-- 查看提交历史(git log 命令详解)
  3. Ubuntu18.04安装BeyondCompare
  4. 深度学习中所需的线性代数知识
  5. 浅谈深度学习中的激活函数
  6. 视频编解码学习(六):YUV格式学习
  7. python之OrderedDict
  8. java游戏代码_Java与Kotlin系列文章之性能问题详解
  9. 磁盘调度算法课程设计(附源代码)
  10. 目前人们把通用计算机,计算机与信息社会基础知识测试题.doc