这是一个不说自己搞大数据就不好意思和人打招呼的时代。阿里巴巴用大数据贷款,百度用大数据推广告。那么,没有巨头的天然优势,创业公司具体怎么搞大数据?

开搞之前,先明确一下目前大数据主要是用来预判,挖掘用户的需求(也有用过去的大数据判断现在的需求,如大数据种菜判断菜目前的长势情况)。那么,预判的依据是什么?就是所谓样本,例如我通过前几年的平均气温判断今年的温度是高是低。

这里还可以分为三种情况:一种是我的大数据软件自带了很多样本可以作为分析依据,一种是我把之前的交易数据作为样本。第二种较先进,要求系统有自我学习建立样本模型的能力,也就是边干边学。第三种最牛,不光能做出预判,还能告诉你下一步怎么做,例如一家卖拖拉机的公司,为用户提供何时在哪里种植何种作物,犁地的最佳路线。

首先说一下数据来源问题,可以是平时经营过程中积攒下来的也可以向别的公司购买(像京东那样买腾讯的数据,目前国内贵州大数据交易中心和DATACOMB很出名,后面细说),技术关键:积攒数据同时要根据自己的需求为用户和产品贴标签,例如我希望了解和用户年龄段有关的规律,那么年龄就是必须采集的一个标签。积攒数据的方式大致分两类,一类是围绕用户,一类是围绕产品,将两者每次交易的数据都采集下来,可用人力,例如饭店服务员每次交易记录下菜品,性别,满意度之类,这一步又叫企业数据化。

然后是数据的初步处理:租服务器,建立自己的数据分析架构,例如日报表月报表这些都OUT了,应该明确适合公司的格式,如果需要这些定制需求的报表,目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。

当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。把手头的数据进行预处理,包括将不同数据库的数据导入到一个数据库中,数据的粗选,分析,分类,会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。先别头大,如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦,剔除那些和其他数据差别很大的就行

接下来,就是最核心的,数据挖掘。这一步可以挖掘出你意想不到的信息,比如,买啤酒的顾客通常会买尿布,持续买无香精面霜的顾客通常接下来会买母婴用品。这些数据怎么挖?需要用到以下工具:

1.决策树,各种可能性的展示图,主要用来精确分类。例如,树的根部是杂货铺里所有商品,往上走就是第一个分叉,分叉处有一个判断标准-吃的还是用的,于是所有商品被分开为两个树枝,吃的再往上走又出现分叉,于是被分成甜的和咸的…

2.神经网络,例如,计算机预判迎面走来的这个软妹子会买奶茶,因为根据神经网络显示,上次买咖啡,上上次买酸奶的,这次99.99%的概率会买奶茶。什么?这货买的啤酒?那计算机就会根据这次的结果修改神经网络。没错,神经网络是具有学习能力的模拟人脑总结教训的分析模式,他会自己得到一个稳定准确的结果。

3.关联规则,例如上文说的买啤酒的一定买尿布。

先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:

t1: 牛肉、鸡肉、牛奶

t2: 牛肉、奶酪

t3: 奶酪、靴子

t4: 牛肉、鸡肉、奶酪

t5: 牛肉、鸡肉、衣服、奶酪、牛奶

t6: 鸡肉、衣服、牛奶

t7: 鸡肉、牛奶、衣服

假如有一条规则:牛肉—>鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客过一段时间也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence)。前者反映了牛肉鸡肉组合的吸引力,后者可用来预判消费行为。好了,现指定你想要的支持度和置信度是多少,然后把牛奶鸡肉,衣服奶酪等各种组合用程序算一遍,找出支持度和置信度满足你要求的组合。

其中,假如一条关联规则的支持度和置信度很高时,不代表这个规则之间就一定存在某种关联。举个最简单的例子,假如X和Y是最近的两个比较热门的商品,大家去商场都要买,比如某款手机和某款衣服,都是最新款的,深受大家的喜爱,那么这条关联规则的支持度和置信度都很高,但是它们之间没有必然的联系。所以,搞大数据既要对专业精通又要对你公司的业务精通,这也是现在公司经常碰到的难题,此事古难全啊。

除了这些,大数据还经常用到一些数学工具如,线性回归,支持向量机等来帮助进行比对和分类。不要小看这些辅助工具,有时候他们是主力。美国警察用电力公司的数据与培养大麻的LED灯用电曲线进行比对,数学工具就是线性回归,只要发现哪家用电曲线和样本相符(相符的程度用方差表示,标准老警自己定),直接踹门抓人一抓一个准。这些数学工具很多都是用来分类的,分类在大数据中是个大事,例如国外有的门户网站首页分类用大数据直接筛选出详细页使用频率较高的词汇作为各个大类的标题。

工具列完了,下面数据挖掘正式开幕:

大数据对于什么时候用人力什么时候用计算机也能看出来功力,中小公司更应该注意巧妙利用人力,可避免在技术上过多拼财力。比如以上的例子中大家可以看到,相似不相似,是不是关联,这些标准都是人定的。计算机常负责一些同一个算法算大批量数据的活。美国大数据公司的老大Palantir就因精于此道而著称。中小公司在这方面也有做的不错的,最近开始流行的图片新闻APP 网新闻的策略就很值得借鉴:

网新闻主要是用关系图,时间轴各种图片展示更丰富信息,一条新闻,用户希望在哪一点上获取更深入的信息是网新闻最想分析的,明确了这个目的又积累了一定用户行为的数据后,网新闻做了如下工作:把一个新闻,举个栗子,如释永信事件,让小编写完这条新闻就分析用户关注这条新闻的点在哪,并且把各种可能性列出来。列出的结果是:

1、用时间轴展示少林寺背后的利益纷争事件,用关系图展示各利益相关方的关系,这两条可以满足求知欲,用户也可以说出去秀知识。

2、说明佛门中的禅宗一派特点就是不避世俗。古代就在寺庙做小买卖。进而拓展到律宗,密宗是怎么回事。

3、传闻释永信嫖娼,有情妇,桃色因素是一个。

4、中国法律目前对寺庙住持是怎么定性的,有哪些法律来约束,触犯了这些法律会受到什么样的惩罚,对事件目前形势未来预判也是一个吸引人的因素…

这样列出来后,进行关联性分析,点击量高的新闻,一定是具备因素2和因素3?还是因素1和因素3?…网新闻用这种方法得出很多有价值的信息,如用户对用图片解释“经理人采购指数”感兴趣还是对展示某经济指标对自己生活的影响更感兴趣,然后用这些数据指导小编摆图写稿。

另外,不要觉得分析数据预判用户需求很屌,其实路边卖手抓饼的也经常能猜出你这次要不要放辣椒,就是调用的他脑中的大数据。可以让用户刷打折卡或者是通过QQ定外卖时显示他平时的偏好。这个方法需要对数据预处理去掉那些和其他数据偏离较大的数据可获得基本的“用户画像”。另外还可以结合其他因素数据丰富“用户画像”,例如天气炎热或寒冷的情况下用户的喜好,每到周末是不是多买一些等。

还有一个很重要的使用人力的节点就是先想好你想了解什么。例如,买啤酒的顾客会买尿布这个例子中,数据挖掘工程师其实提前就想到有必要查看一下啤酒和其他商品的关联,才有了这个发现,而不是计算机自己去找这两者关系。这需要洞察力!福布斯网站发文称“首先制定好策略,然后奔着结果找出答案”,并由此得出“问题比答案重要”的结论。

使用大数据的流程就这些了。总结一下哪些地方使用人力:收集什么样的数据需要人来做决定,想好要弄清楚哪些规律需要人来做决定。电脑主要用来存储,以及用数学工具来进行具体计算。哈哈,原来大数据不是巨头们买一个塞满房子的超级计算机把海量数据统统输进去然后“度昂”一下就出来结果了!我们小公司一样可以搞啊!

由于“问题比答案重要”,再说一下大数据领域提出的几个有代表性的“问题”。既然除了利用之前积累的数据了解用户偏好向用户推销这次的产品,还可以用大数据让用户方便的消费来提高用户体验:快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。这个案例门槛极低,只要人为设定队伍多长算长,做食物的速度多块算快即可,也可以人工标定一下哪些是快食哪些是慢食。

不仅可以预判需求予以满足,营销时还可以定点营销。此类打法常常是从别的机构购得数据或者连钱都不花从政府开放的数据中拿,一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter 和Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。然后通过免费化妆服务,对这两类消费者进行精准的宣传。这个案例中,需要用到的工具有用于归类的线性回归,聚类分析等。

数据的来源问题:由于没有巨头那样的数据积累,中小企业经常想到购买数据,或使用政府公开的免费数据。目前国内掌握大数据的巨头不够开放,形成了让仁人志士头大的“数据堰塞湖”。虽然也有开放数据的,例如中国首个大数据开放平台DataComb,对于掌握一些数据的公司来说也多了一些数据变现的渠道,然而对疏通“堰塞湖”并没有太大作用。也有好消息,8月19日,国务院常务会议审议通过《关于促进大数据发展的行动纲要》,全面公开应该就在眼前了。在美国最重要的数据开放平台就是奥巴马政府在2009年推出的Data.gov,奥巴马同学对搞大数据一向蛮拼的。

另外,创业公司切记,巨头们整天嚷嚷的“大数据不必追求精确,牺牲精确性可以换取效率和更多规律的发现”,可问题是那是在数据量异常大的情况下,对中小企业数据量不太大时务必要精确。

总的来说,大数据分析可谓是兵无常势,水无常形,真正厉害的数据挖掘大师是碰到什么样的形势知道用什么样的工具来解决的人。中小企业玩大数据切记:1.不炒概念。2.不烧钱。切实用大数据提升企业竞争力才是王道。

本文作者:佚名

来源:51CTO

创业公司怎么搞大数据?相关推荐

  1. 搞大数据,Java 工程师需要掌握哪些知识?

    先看再点赞,给自己一点思考的时间,微信搜索[沉默王二]关注这个有颜值却假装靠才华苟且的程序员. 本文 GitHub github.com/itwanger 已收录,里面还有我精心为你准备的一线大厂面试 ...

  2. 一次ES性能优化,我发现了搞大数据的真相……

    作者介绍 李猛,数据领域专家,Elastic Stack国内顶尖实战专家,国内首批Elastic官方认证工程师21人之一.2012年入手Elasticsearch,对Elastic Stack技术栈开 ...

  3. 都 2021 年了,竟然有人搞大数据时忽略 JSON 而去研究用 C# 把 XML 转换为 XML 的技术...

    在大数据项目开发过程中,ETL(Extract-Transform-Load)是必不可少.即便目前 JSON 非常流行,开发人员也有必定会有对远古系统的挑战,而 XML 格式的数据源作为经典存在浑身上 ...

  4. 搞大数据,你不懂这三大数据处理趋势就OUT了

    企业数据每年以PB级甚至上百PB爆炸式增长,越来越大的数据量正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,但数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应,而离线分析缺点显然是 ...

  5. java python大数据_python与java搞大数据,哪个更有长远优势?

    谢邀. python和java都是生态极其完善的编程语言,学习曲线都较低,在网上都可以找到大量学习资料.python的特点是可以用很少的代码实现一个功能,有一句话叫做人生苦短,快用python.但是p ...

  6. 谁说.NET不适合搞大数据、机器学习和人工智能

    SciSharp Stack SciSharp STACK: https://scisharp.github.io/SciSharp/ 基于.NET的开源生态系统,用于数据科学.机器学习和AI.Sci ...

  7. 盘点丨2017年国内最酷的10家大数据创业公司

    导语:IDC发布的预测报告显示,到2021年中国数字经济的比重将达55%.中国的人口和经济规模决定了中国的数据资产规模冠于全球.这不仅为大数据技术的发展提供了演练场,同时也提出了更多.更高的要求. 大 ...

  8. 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

    缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...

  9. 你们是不是真的很缺大数据工程师?

    00 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的. 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这 ...

  10. 在大数据时代,每家公司都要有大数据部门吗?

    如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些? 事实上每一种重大技术的出现,都会对产业产生大的变化.在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加 ...

最新文章

  1. Android java 多线程(三)
  2. 【干货】史上最全的Tensorflow学习资源汇总
  3. laydate时间控件有时候无效_新角度,如何无效没用地听课
  4. 易支付系统源码_刷脸支付系统源码,插件源码合作模式有哪些,采购源码需要注意什么...
  5. mysql集群_MySQL集群
  6. C/C++之win98扫雷外挂基础篇
  7. JSP分页显示(前端处理)
  8. 【计算机组成原理】实验2:十六位数据总线实验
  9. 一个07年毕业研究生的坎坷经历(上)
  10. Excel使用之计算时间差
  11. 添加Win10文件夹详细信息------统一显示内容
  12. qq、微信、微博的svg小图标
  13. GetKeyState、GetAsyncKeyState、GetKeyboardState函数的区别:
  14. seek 方法java,Seek.java
  15. 最牛逼 Java 日志框架 — Log4j2,性能无敌,横扫对手.....
  16. 【华为OD机试模拟题】用 C++ 实现 - 求解连续数列+和最大子矩阵(2023.Q1 双倍快乐)
  17. 任务3、监控界面设计
  18. 场地通推出2.0 打造大学会务场地预定新平台
  19. ActiveX控件打包、签名、嵌入详解
  20. linux开发板访问u盘

热门文章

  1. php addslash,php addslashes用法详解
  2. 三人表决器逻辑表达式与非_正则表达式 - 驰念
  3. python 化学_rdkit 化学反应分子式高级功能
  4. lammps及Reaxff反应力场二合一专题内容都在这
  5. multisim收敛助手有啥用_Multisim 收敛助手报告
  6. win10连不上网,“网络重置”后,网络适配器出现感叹号,右下角WLAN消失,网络连接是空白。
  7. webview 支付宝、微信支付 QQ登录
  8. 中介者(Mediator)模式实例
  9. Ardence公司PHAR-LAP ETS 简介
  10. 【web前端】20.手机端网页禁止长按图片保存图片