国信优易首席科学家周涛认为,大数据已经成为一个非常热的概念,但是当一个概念热到一定程度就会存在风险,甚至风险比机会还多。在大数据沙龙中,他和数据从业者们分享了自己所经历的大数据应用。

  以下为周涛发言:

  大数据的应用创新可以分成4个阶段,我以一些公司为案例来说明。

  1、简单的数据集中

  我们做过一家企业——数联铭品,它是做企业征信的。我们把工商数据和法律数据(包括法院已经诉讼完和在诉的案件)、纪检、知识产权部门、项目申报、企业招聘数据、企业舆情数据等数据都爬下来。之后我们就可以做出企业的画像,知道一家企业的关联方、诉讼风险、通过招聘的人才可以看到这个企业的发展方向等等。得到这个企业画像之后,我们就可以提供给会计事务所做审计、给贸易公司、政府做背景调查等等。这套东西看起来很简单,但是卖的很好。这家公司成立一年半,已经到了B轮融资。

  我们有和别的公司合作进行数据交换,但是绝大部分数据都是从互联网上获得的。这其中没有涉及到数据分析,到目前为止我们只是进行信息的搜集和整理。这是数据应用的第一种模式。但是公司不可能依靠这种模式走的很远,可以达到一亿美元的规模,但是无法达到10亿美元的规模。

  在市场中,数据还是很好卖的。

  2、数据分析

  如果你有很强的分析手段,你就能占据很强的优势。

  杭州的迈宁数据专注给金融行业进行数据分析。他们做了一个项目,帮助民生银行找到信贷中的违约客户。

  银行在给中小微企业放款过程中,没有办法做长时间精细的背景调查,怎么控制不良贷款成为他们考虑的重要问题。我们和民生银行合作,它开放给我们800多家银行掌握的企业数据,用这些信息帮助银行进行风险评估。

  企业是什么类型、在什么地域、平均账户上的钱有多少等等是初级特征,一些企业间社交关系等等是高级特征。之前民生银行用原有方式能从8万用户中找有3百多违规用户,现在我们只用基本特征就能从7千人中找出298个违规用户,用高级特征我们还能提高到97.5%,那样银行就只用对剩下的2.5%进行人工甄别,节省了大量人力和资源,这对银行带来的是翻天覆地的变化。

  这种分析有三个特征。一个是数据量大,二是需要自动化,三是分析是非标化的。这不是买一个excel或者SARS软件就可以的,必须要数据工程师在其中工作。

  3、数据的外部化。

  前面的案例就是用一个企业的数据来解决一个企业的问题,但是进一步,我们怎么样把数据拿出来解决外面的问题,正如Google用搜索数据来预测流感。

  我们学校非常关注校园里的抑郁症学生,一般校园里5千—1万人中间发生一起自杀事件,而自杀的学生基本都是因为抑郁症。我们希望减少这种事情的发生,所以我们要找出有抑郁症的学生。

  抑郁症有什么特征?这类学生一般比较自闭,他们只有很少的朋友或者没有朋友。我们给每个新生发了量表做调查,但是这个量表效果不佳。

  我们于是采用了另一个方法,用数据来分析。

  高校有一卡通,可以用于食堂、宿舍、图书馆进出等等。我们计算过,在电子科大早午餐随机两个陌生人前后打卡的概率小于1/300,进图书馆、前后打开水的概率更低。从这个概率就可以看出一个人有没有朋友,有多少亲密同性朋友,有多少亲密异性朋友等等。我们通过甄别出哪些学生是孤僻的,然后和心理咨询记录等做对比,发现孤僻的学生得抑郁症的概率要比普通人高出18、9倍。这样就可以尽早进行干预。

  我们纯粹用刷卡记录就能找出孤僻人群,这就是典型的数据外部化。校园卡本来是用来进行消费结算、出入的,但是被我们用来甄别孤僻的学生,我们能用这些数据还能做其他事情。通过这个例子企业家们也可以思考,看一个企业出现了什么问题不一定要看他自己的数据,还可以通过外部的数据来找到,反过来自己企业产生的数据也可能反应出其他问题。

  4、数据的集成

  把内部外部的数据集成起来,才能产生更高的价值。一方面我们有一个好的生态环境,对数据的质量、隐私、安全等进行管理。另外一方面我们要建立包含从数据采集、存储、分析、论证到可视化的平台。在这方面我们做了几类事情。

  一是简单的数据交易。一种是数据交易平台“数据堂”,在平台上进行数据的买卖。二是和发改委合作的数据库。国家做了两个基础数据库。一期是和十一个部委合作(林业部、农业部等),做自然资源基础信息。二期是阿里合作、5个部委参加(央行、工商总局和税务总局等),针对企业和个人征信的数据库。通过这个数据库可以进行数据的交易,这种是数据可控条件下的交易。

  二是聚集问题、解决方案和人才的平台。例如国外的kaggle竞赛平台,估值40亿。集聚了近8万数据科学家,大公司在其平台上举办几百万美金的数据比赛。我们也在国内做数据大赛,现在规模比较小。刚结束的全国大学生大数据竞赛吸引了755只队伍,两千多人。为什么他们愿意来参加?奖金是一部分因素,但是通过这个平台可以认识志同道合的朋友一起交流,可以展示自己的才能获得工作甚至是投资。

  之前大数据落地没落好实际上是数据、需求、技术和人才是分离的。现在平台可以把它们都聚集到一起。

  三是数据创新工场。这是一个构想,汇聚大数据技术人才。现在很多公司希望利用公司数据,但是不懂大数据,招人才也很难。我们想做成标准化的流水线,对企业的数据进行加工,可以做任何文本、图像、视频的识别。

  这就是我们在大数据应用方面的成果,大数据在中国的应用市场越来越广阔,也希望企业家们和我们一起交流!

  摘自:优易数据

国信优易首席科学家周涛:大数据的商业应用相关推荐

  1. 数据科学家和大数据技术人员工具包

    数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科 ...

  2. 【大数据24小时】苏格兰首席大臣表示大数据和AI是中苏商业交流的重中之重

    [数据猿导读] 长三角城市群将在大数据应用领域推进新一轮合作:苏格兰首席大臣:大数据和AI是商业交流的重中之重 编辑 | sharon 官网 | www.datayuan.cn 微信公众号ID | d ...

  3. SparkSQL和Hadoop(面向数据科学家和大数据分析师)

    了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...

  4. 海云安首席科学家齐大伟博士荣获“2023国际软件工程会议(ICSE)最具影响力论文奖”

    2023年5月24日,深圳海云安网络安全技术有限公司首席科学家齐大伟博士获得"国际软件工程会议 (ICSE) 2023 最具影响力论文奖".本届会议于 2023年5月14日至20日 ...

  5. 数据分析师、数据科学家、大数据专家三个职位的区别

    数据分析师.数据科学家.大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载. 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称 ...

  6. 大数据:商业竞争的“定海神针”

    大数据并非万能的.海量数据并不一定有商业价值,实际上,80%~90%的数据都是无用的.处理大数据是一项困难的工作,寄望于安装一套系统就能自动获得结果,无疑是异想天开.企业需要使用正确的技术和工具,制定 ...

  7. 加大伯克利分校著名科学家:大数据的“冬天”即将到来

    今年以来," 大数据技术"和"大数据分析"明显显得更加的"火热".然而,鲜有理性的声音存在.美国顶尖公立研究型大学.世界上最负盛名且最顶尖的 ...

  8. 易观智库:大数据下的用户分析及用户画像(18页PPT附下载)

    大数据下,用户分析的核心是什么? --解决实际问题 确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理? 确定目的后开始选择合适的数据,然后搭建模型,最后得出结 ...

  9. 大数据与商业地理分析

    转载自:http://www.itongji.cn/article/051932552014.html 从全球范围来看,采用商业地理数据进行商业选址及消费者地理细分在发达经济体已经非常普及.为更精准地 ...

最新文章

  1. N-API中的Promise功能的使用
  2. WCF分布式开发步步为赢(1):WCF分布式框架基础概念
  3. winform 窗口 属性
  4. [转载]关于申请国外博后的一点经验和想法
  5. 通过广播获取Android屏幕旋转事件
  6. 【PAT甲级 找到出现次数过半的数字】1054 The Dominant Color (20 分) C++
  7. JQuery真的不难~第六回 JQ中的异步调用方式
  8. Spring MVC 4快速入门Maven原型已改进
  9. 【渝粤教育】电大中专学前儿童健康教育_1作业 题库
  10. MySQL 查询速度慢与性能差的原因与解决方法
  11. qq浏览器打开word 技术原理_知道为什么计算机可以上网的同时,可以写word还可以听歌吗?...
  12. seo按天扣费系统_网站seo优化多少钱,SEO快速排名按天扣费怎么样
  13. java反射取实体字符串_JAVA反射机制 通过反射 Field类获取和修改对象类的字符串值...
  14. 关于Linux不能ping通外网的解决方法
  15. 有关单片机c语言的参考文献,单片机设计参考文献
  16. 【点宽专栏】Dual Thrust 交易策略
  17. linux一键安装aria2,Centos7下安装Aria2教程 之 Aria2 一键安装管理脚本
  18. mimax 刷原生android,小米手机想爽刷原生安卓?不愁!
  19. JAVA pdf中插入自定义图片
  20. NDIS小端口驱动ndisEdge学习二——小端口驱动的初始化

热门文章

  1. ROS_Kinetic ubuntu 16.04
  2. 使用arthas采集火焰图
  3. 用C语言扩展PHP功能
  4. WMI技术介绍和应用——查询快捷方式、映射磁盘和虚拟内存信息
  5. Jenkins简介及在Windows上的简单使用示例
  6. 【Live555】live555源码详解(二):BasicHashTable、DelayQueue、HandlerSet
  7. 【Qt】QtCreator中的单例编程(以ActionManager为例)
  8. 【Qt】QDebug和log4cplus的联合使用
  9. 计算机网络中网络拓扑,计算机网络基础知识:不同的网络拓扑结构对网络的影响...
  10. oracle游标声明中使用变量赋值,Oracle游标使用方法(游标里使用变量绑定)