文 | 欧拉

最近三个月,多家数据公司被调查,数据行业动荡不断。

行业持续收紧,七成数据接口被切断。

一些大数据公司的爬虫团队被全部裁员,大量人员主动离职。据统计,最近起码有数万员工流出,行业人员流失率在50%以上。

各家大数据公司的CEO每天都在朋友圈“打卡”,证明“我没被抓,我的公司也还在”。

而另一边,合规的、有国资背景的大数据公司,却迎来了好时候。有的公司在短短三个月内,“每个月业务翻一番”。

有人说,这是行业面临的最大“生死劫”:有人死,却也有人生……

01 行业大劫

大数据行业,突然间被踩了刹车。

最近三个月,大数据公司人员被抓捕、被调查的消息不断传出,行业人人自危。

多家金融机构称,它们合作的数据接口,大部分都被切断,“70%的接口断了,其他的很多也不稳定,一周换了三次”。

首先停掉的,是各种爬虫产品。

一家大数据公司的创始人于建瑞,发现第二家爬虫公司被抓后,在公司召开了紧急会议。

“爬虫部门业务暂停,数据库和服务器上所有的爬虫数据全部删除,即便是脱了敏的。”于建瑞决定“壮士断臂”。

删除数据的第二天,爬虫部门马上“裁员十几人,转岗十几人”。

“第三天,整个爬虫部门从公司完全消失。”于建瑞花了三天时间,将爬虫业务“抹除”。

紧接着切断的,是“三要素验证”。

在过去,各大运营商下面,都接了很多代理商,后者会提供数据接口,进行电话、姓名等要素的验证。

“最近电信停了很多代理商,现在基本不接了。”于建瑞称,最开始暂停的是电信,现在联通和移动也在“缩减代理商”。

而各种多头借贷产品,也纷纷下架。

“天创、有盾的多头借贷产品都停了,市面上基本找不到多头借贷的产品了。”于建瑞称。

金融监管则开始要求自查。

11月6日,中国互联网金融协会向会员机构发布《关于增强个人信息保护意识依法开展业务的通知》,要求会员机构对数据合作方进行排查。

“很多被调查的或者有风险业务的公司,都被直接点名,监管要求自查是否和它们有过合作。”于建瑞称,“这其中包括公信宝、白骑士、天机数据、木立征信等多家公司”。

10月24日,一张截图在网上流传。截图显示,人行要求各地银行排查与第三方数据公司的合作情况

多家金融机构的工作人员也证实了这一点:“尽管不同区域的要求,可能略有不同,但都是要求停掉和风险公司的合作。”

业务停滞的同时,行业也弥漫着惊恐的气息。

于建瑞身边每天都有人失联,“出国的出国,被抓的被抓”。

“最近,各家大数据公司的CEO每天都在朋友圈打卡,比运动打卡都勤奋。”于建瑞称,这里头的潜台词,无非是“我没事,我们公司也还好着呢”。

一家场景分期平台的HR前两天约好了一个面试,结果求职者没有出现,“后来听说,他被抓了”。

大数据突然成为高风险行业,行业掀起了一波离职潮。

“这段时间,我们收到了大量来自数据行业的人员简历。”上述HR表示。

而各大数据公司,也开始裁员。

“榜上有名的数据公司几乎都在裁员。”一家金融机构的风控总监称,被裁的员工中,基本有一半都是技术人员。

“这些公司的裁员率和离职率起码有50%,技术部门甚至达到了70%。”

02 成本激增

实际上,金融科技发展的基础和养料,就是大数据。

整个数据行业的停滞,导致金融业务受到巨大影响。

“80%的金融公司都收缩了。”于建瑞称。

一些平台,只能针对老客户放款,不再新增;稍微激进一点的平台,就开始凭感觉放款。

“较为资深的从业者,都会对自己用户的画像有概念,大概知道哪些人是优质人群。”一家场景分期平台的风控总监李扬称。

他们比对着过往的好客户画像和逾期客户画像来放款,“逾期率也还可控”。

但如果想维持以前的业务量,就意味着各项成本的增加。

首先,是数据成本的增加。

“正规的数据公司和央行征信,其实可以覆盖行业70%到80%的数据需求。”一家第三方征信机构的创始人王海峰表示。

只是,金融行业需要付出更高的合规成本——合规的数据,价格自然要贵一些。

“它们的成本高了约60%。”数据宝CEO汤寒林称。

其次,是核验成本和人力成本的增加。

摩托车分期服务商骑呗科技的风控专家姚奕称,受爬虫风波的影响,他们获取第三方数据的渠道减少了50%至70%。

为了维持业务运转,他们只能要求用户提交更多的纸质资料,并增加人手,用人工的方式核实用户信息。

“之前查询一条信息,只需要一两秒,成本在几毛钱到几块钱之间。现在靠人工核实,可能需要几分钟甚至十来分钟。”

之前审核只要约10分钟,现在为30分钟。“此外,人力成本也增加了30%至50%。”

面对现在的数据困境,有一些平台尝试自建风控和爬虫。

“搭建一套爬虫系统,保守估计需要6个人,至少三个月,开发成本就得200万。”于建瑞称。而后期的维护成本更高。

“比如说,为了反爬虫,运营商的官网动不动就会来个页面调整,爬虫系统就得跟着改。”于建瑞称,后期每个月的维护成本,还得50万。

而自建风控系统的难度,同样意味着人力成本的高昂。

“整个金融体系的成本,保守估计增加了50%左右,人力、数据的成本大幅度增加,效率也会下降很多。”于建瑞称。

03 未来如何

这不是数据行业的第一次大洗牌。

数据行业最早的一批从业者都记得,早在2012年前后,中国的数据行业就曾经遭遇过一次大洗牌。

2012年,央视“3·15”晚会曝光罗维邓白氏非法获取、买卖公民个人信息。罗维邓百氏全员被上海警方带走。

2012年,央视“3·15”晚会对罗维邓白氏的曝光截图

那一次之后,数据行业的暴利链条被打断,绝大部分从业者离开。

留下来的人,也心怀敬畏,不敢越界。

“上一次实际上是为了捍卫数据主权,而这一次和上一次有本质的区别,是为了维护稳定——金融和数据结合得太深,暴力催收和套路贷引发了很多极端案件。”在数据行业有15年工作经验的资深从业者丁一称。

但现在市面上这些主流的大数据公司,大部分都是在2012年之后创立的。它们没有经历过上一次洗牌,也没有感受过历史的教训。

“数据行业是一个什么样的行业,底线在哪里,他们中,大部分人并不知道。”丁一称。

而这一次和上次一样,大量人员离开,暴利链条被打断。

历史如此相似,数据行业仿佛又走完了一个轮回。

丁一认为,这次洗牌也许并非坏事——行业重新回到一个新的起点,新的底线也被划好。

而在腥风血雨中存活下来的合规公司,也渐渐熬出了头。

“在过去,合规的数据公司根本活不下去,因为我们要付出更高的合规成本。”汤寒林称。

他举例称,他们并不缓存任何一条数据。

而行业大部分的玩家,都是将调取的数据偷偷存起来,当数据越积越多之时,数据公司就可以直接用缓存库里的数据,不再需要从接口调取。

于是它们的销售价格就可以压到极低,“多卖一单就是赚”。

“它们价格便宜,而且因为已经缓存下来了,所以响应时间也会比我们快。” 汤寒林说。

在惨烈的市场竞争中,劣币将驱逐良币。

而如今,合规的数据公司成为了“香饽饽”。

一家有国企背景的数据公司创始人透露:“最近三个月,我们每个月的业务量都翻一番。”

而一些巨头旗下的大数据平台,也突然间变得门庭若市。

“排队等着接我们的服务,咨询量也暴增。”一家巨头旗下的云平台销售称,他们最近正准备扩充团队。

关于大数据行业的未来,从业者认为,“持牌”将是一个关键词。

“或许,第三方大数据公司将会持牌经营。”一家数据公司的负责人夏睿预测,到那时,行业内应该只剩下几家头部公司,小公司存活的可能性不大。

合规、持牌,可能会成为未来大数据行业的主旋律。

丁一认为,一个行业从草莽到合规,确实要经历几个周期,“只有暴利链条被打断,这些守规矩的人,才可以重新奔跑”。

“你还准备留在大数据行业吗?”最近,很多人问于建瑞。

“市场和需求还在,只是划了新的跑道,我还是会在。”他说。

只是这一次,他会更加心怀敬畏。

*文中部分受访者为化名。

扫描下方二维码

添加好友,备注【交流群

拉你到学习路线和资源丰富的交流群

大数据凉了?不,凉的是不合法数据公司相关推荐

  1. 2021年大数据Kafka(十):kafka生产者数据分发策略

    全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 生产者数据分发策略 策略一:用户指定了partition 策 ...

  2. 2021年大数据Hadoop(十):HDFS的数据读写流程

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的数据读写流程 ...

  3. 资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

    奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开 ...

  4. [转]Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]

    转自:http://www.cnblogs.com/stg609/archive/2008/08/03/1259206.html 接着上一篇讲 3.4 读取剩余的请求       前面我们已经提到过R ...

  5. 独家 | Kaggle 大神Dan Becker与你分享他的数据科学之旅!

    作者:ANALYTICS VIDHYA 翻译:吴振东 校对:和中华 本文约4000字,建议阅读10分钟 本文中Kaggle大佬Dan Becker谈论了自己从经济学向数据科学的转变,从零开始成为数据科 ...

  6. 大数据的应用难题:是否该建立数据公地

    文章讲的是大数据的应用难题:是否该建立数据公地, [IT168评论]要想考察大数据最好同时考察大数据背后的技术.商业和社会维度.从发展成熟度来看,技术维度走的最远.商业维度有所发展但不算全面成熟,社会 ...

  7. 玩不转大数据就别勉强了,或许“小数据”才是真正的终南捷径

    如今大多数人会经常听到"大数据",如果选择一个词来代替"大",大部分人的脑海里会出现"海量"."巨量"的字眼,但是,数据 ...

  8. Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]

        接着上一篇讲 3.4 读取剩余的请求       前面我们已经提到过ReadEntityBody (Byte[] buffer, Int32 size)方法,该方法可以用来读取客户端的请求数据 ...

  9. eBay数据科学家李睿:自然语言处理在eBay的技术实践 数据 网络 类别 技术 分类器 阅读1593 近日,在飞马网主办的“FMI人工智能大数据高峰论坛”上,来自eBay的数据科学家李睿

    eBay数据科学家李睿:自然语言处理在eBay的技术实践 数据 网络 类别 技术 分类器 阅读1593  近日,在飞马网主办的"FMI人工智能&大数据高峰论坛"上,来自eB ...

最新文章

  1. 重温目标检测--Faster R-CNN
  2. [跟我学UML] UML包图中的包和命名空间
  3. FPGA之道(52)状态机的概念
  4. debian7get源,自动设置get源
  5. 【书单】matlab 科学计算、数值分析以及数学物理问题
  6. python添加时间戳_在python中添加时间戳
  7. 为什么每次有人大声通电话时,我就很烦躁...
  8. java 内置锁_深入理解java内置锁(synchronized)和显式锁(ReentrantLock)
  9. python--练习--for i in range(2,101)
  10. linux多媒体音频架构
  11. 关于Matlab中括号用法的总结
  12. 《传统相声开场小唱》
  13. react 组件封装原则_React 组件封装
  14. python十六进制去掉0x_如何将一个整数转换为十六进制而在Python中没有多余的'0x'前导和'L'尾随字符?...
  15. SGE(集群任务管理系统)常用操作命令
  16. js 时间运算,时间加减
  17. C++刷题的一些小tips
  18. python实现一个很简单的多线程爬虫
  19. 微信菜单 html页面添加的,微信公众号菜单进入的页面切换第二次失效
  20. 基于多信息融合的疲劳驾驶检测系统

热门文章

  1. 手机处理器排名2019_最强手机中端处理器排名:骁龙765G排第一,麒麟810次之
  2. 深度学习部署神器——triton inference server入门教程指北
  3. JAVA validation的使用
  4. 【使用指南】风起亚洲(Fengqi.Asia)上手指南
  5. AntConc3.2.0的使用说明
  6. 降压恒流芯片 内置MOS大功率共阳极LED恒流驱动IC
  7. 【WDR】什么是宽动态Wide Dynamic Range?
  8. ASP生成JSON数据
  9. 牛客网sql练习打卡
  10. 在Windows上用virtualbox虚拟机安装mac苹果系统