大数据凉了?不,凉的是不合法数据公司
文 | 欧拉
最近三个月,多家数据公司被调查,数据行业动荡不断。
行业持续收紧,七成数据接口被切断。
一些大数据公司的爬虫团队被全部裁员,大量人员主动离职。据统计,最近起码有数万员工流出,行业人员流失率在50%以上。
各家大数据公司的CEO每天都在朋友圈“打卡”,证明“我没被抓,我的公司也还在”。
而另一边,合规的、有国资背景的大数据公司,却迎来了好时候。有的公司在短短三个月内,“每个月业务翻一番”。
有人说,这是行业面临的最大“生死劫”:有人死,却也有人生……
01 行业大劫
大数据行业,突然间被踩了刹车。
最近三个月,大数据公司人员被抓捕、被调查的消息不断传出,行业人人自危。
多家金融机构称,它们合作的数据接口,大部分都被切断,“70%的接口断了,其他的很多也不稳定,一周换了三次”。
首先停掉的,是各种爬虫产品。
一家大数据公司的创始人于建瑞,发现第二家爬虫公司被抓后,在公司召开了紧急会议。
“爬虫部门业务暂停,数据库和服务器上所有的爬虫数据全部删除,即便是脱了敏的。”于建瑞决定“壮士断臂”。
删除数据的第二天,爬虫部门马上“裁员十几人,转岗十几人”。
“第三天,整个爬虫部门从公司完全消失。”于建瑞花了三天时间,将爬虫业务“抹除”。
紧接着切断的,是“三要素验证”。
在过去,各大运营商下面,都接了很多代理商,后者会提供数据接口,进行电话、姓名等要素的验证。
“最近电信停了很多代理商,现在基本不接了。”于建瑞称,最开始暂停的是电信,现在联通和移动也在“缩减代理商”。
而各种多头借贷产品,也纷纷下架。
“天创、有盾的多头借贷产品都停了,市面上基本找不到多头借贷的产品了。”于建瑞称。
金融监管则开始要求自查。
11月6日,中国互联网金融协会向会员机构发布《关于增强个人信息保护意识依法开展业务的通知》,要求会员机构对数据合作方进行排查。
“很多被调查的或者有风险业务的公司,都被直接点名,监管要求自查是否和它们有过合作。”于建瑞称,“这其中包括公信宝、白骑士、天机数据、木立征信等多家公司”。
10月24日,一张截图在网上流传。截图显示,人行要求各地银行排查与第三方数据公司的合作情况
多家金融机构的工作人员也证实了这一点:“尽管不同区域的要求,可能略有不同,但都是要求停掉和风险公司的合作。”
业务停滞的同时,行业也弥漫着惊恐的气息。
于建瑞身边每天都有人失联,“出国的出国,被抓的被抓”。
“最近,各家大数据公司的CEO每天都在朋友圈打卡,比运动打卡都勤奋。”于建瑞称,这里头的潜台词,无非是“我没事,我们公司也还好着呢”。
一家场景分期平台的HR前两天约好了一个面试,结果求职者没有出现,“后来听说,他被抓了”。
大数据突然成为高风险行业,行业掀起了一波离职潮。
“这段时间,我们收到了大量来自数据行业的人员简历。”上述HR表示。
而各大数据公司,也开始裁员。
“榜上有名的数据公司几乎都在裁员。”一家金融机构的风控总监称,被裁的员工中,基本有一半都是技术人员。
“这些公司的裁员率和离职率起码有50%,技术部门甚至达到了70%。”
02 成本激增
实际上,金融科技发展的基础和养料,就是大数据。
整个数据行业的停滞,导致金融业务受到巨大影响。
“80%的金融公司都收缩了。”于建瑞称。
一些平台,只能针对老客户放款,不再新增;稍微激进一点的平台,就开始凭感觉放款。
“较为资深的从业者,都会对自己用户的画像有概念,大概知道哪些人是优质人群。”一家场景分期平台的风控总监李扬称。
他们比对着过往的好客户画像和逾期客户画像来放款,“逾期率也还可控”。
但如果想维持以前的业务量,就意味着各项成本的增加。
首先,是数据成本的增加。
“正规的数据公司和央行征信,其实可以覆盖行业70%到80%的数据需求。”一家第三方征信机构的创始人王海峰表示。
只是,金融行业需要付出更高的合规成本——合规的数据,价格自然要贵一些。
“它们的成本高了约60%。”数据宝CEO汤寒林称。
其次,是核验成本和人力成本的增加。
摩托车分期服务商骑呗科技的风控专家姚奕称,受爬虫风波的影响,他们获取第三方数据的渠道减少了50%至70%。
为了维持业务运转,他们只能要求用户提交更多的纸质资料,并增加人手,用人工的方式核实用户信息。
“之前查询一条信息,只需要一两秒,成本在几毛钱到几块钱之间。现在靠人工核实,可能需要几分钟甚至十来分钟。”
之前审核只要约10分钟,现在为30分钟。“此外,人力成本也增加了30%至50%。”
面对现在的数据困境,有一些平台尝试自建风控和爬虫。
“搭建一套爬虫系统,保守估计需要6个人,至少三个月,开发成本就得200万。”于建瑞称。而后期的维护成本更高。
“比如说,为了反爬虫,运营商的官网动不动就会来个页面调整,爬虫系统就得跟着改。”于建瑞称,后期每个月的维护成本,还得50万。
而自建风控系统的难度,同样意味着人力成本的高昂。
“整个金融体系的成本,保守估计增加了50%左右,人力、数据的成本大幅度增加,效率也会下降很多。”于建瑞称。
03 未来如何
这不是数据行业的第一次大洗牌。
数据行业最早的一批从业者都记得,早在2012年前后,中国的数据行业就曾经遭遇过一次大洗牌。
2012年,央视“3·15”晚会曝光罗维邓白氏非法获取、买卖公民个人信息。罗维邓百氏全员被上海警方带走。
2012年,央视“3·15”晚会对罗维邓白氏的曝光截图
那一次之后,数据行业的暴利链条被打断,绝大部分从业者离开。
留下来的人,也心怀敬畏,不敢越界。
“上一次实际上是为了捍卫数据主权,而这一次和上一次有本质的区别,是为了维护稳定——金融和数据结合得太深,暴力催收和套路贷引发了很多极端案件。”在数据行业有15年工作经验的资深从业者丁一称。
但现在市面上这些主流的大数据公司,大部分都是在2012年之后创立的。它们没有经历过上一次洗牌,也没有感受过历史的教训。
“数据行业是一个什么样的行业,底线在哪里,他们中,大部分人并不知道。”丁一称。
而这一次和上次一样,大量人员离开,暴利链条被打断。
历史如此相似,数据行业仿佛又走完了一个轮回。
丁一认为,这次洗牌也许并非坏事——行业重新回到一个新的起点,新的底线也被划好。
而在腥风血雨中存活下来的合规公司,也渐渐熬出了头。
“在过去,合规的数据公司根本活不下去,因为我们要付出更高的合规成本。”汤寒林称。
他举例称,他们并不缓存任何一条数据。
而行业大部分的玩家,都是将调取的数据偷偷存起来,当数据越积越多之时,数据公司就可以直接用缓存库里的数据,不再需要从接口调取。
于是它们的销售价格就可以压到极低,“多卖一单就是赚”。
“它们价格便宜,而且因为已经缓存下来了,所以响应时间也会比我们快。” 汤寒林说。
在惨烈的市场竞争中,劣币将驱逐良币。
而如今,合规的数据公司成为了“香饽饽”。
一家有国企背景的数据公司创始人透露:“最近三个月,我们每个月的业务量都翻一番。”
而一些巨头旗下的大数据平台,也突然间变得门庭若市。
“排队等着接我们的服务,咨询量也暴增。”一家巨头旗下的云平台销售称,他们最近正准备扩充团队。
关于大数据行业的未来,从业者认为,“持牌”将是一个关键词。
“或许,第三方大数据公司将会持牌经营。”一家数据公司的负责人夏睿预测,到那时,行业内应该只剩下几家头部公司,小公司存活的可能性不大。
合规、持牌,可能会成为未来大数据行业的主旋律。
丁一认为,一个行业从草莽到合规,确实要经历几个周期,“只有暴利链条被打断,这些守规矩的人,才可以重新奔跑”。
“你还准备留在大数据行业吗?”最近,很多人问于建瑞。
“市场和需求还在,只是划了新的跑道,我还是会在。”他说。
只是这一次,他会更加心怀敬畏。
*文中部分受访者为化名。
扫描下方二维码
添加好友,备注【交流群】
拉你到学习路线和资源丰富的交流群
大数据凉了?不,凉的是不合法数据公司相关推荐
- 2021年大数据Kafka(十):kafka生产者数据分发策略
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 生产者数据分发策略 策略一:用户指定了partition 策 ...
- 2021年大数据Hadoop(十):HDFS的数据读写流程
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的数据读写流程 ...
- 资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开 ...
- [转]Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]
转自:http://www.cnblogs.com/stg609/archive/2008/08/03/1259206.html 接着上一篇讲 3.4 读取剩余的请求 前面我们已经提到过R ...
- 独家 | Kaggle 大神Dan Becker与你分享他的数据科学之旅!
作者:ANALYTICS VIDHYA 翻译:吴振东 校对:和中华 本文约4000字,建议阅读10分钟 本文中Kaggle大佬Dan Becker谈论了自己从经济学向数据科学的转变,从零开始成为数据科 ...
- 大数据的应用难题:是否该建立数据公地
文章讲的是大数据的应用难题:是否该建立数据公地, [IT168评论]要想考察大数据最好同时考察大数据背后的技术.商业和社会维度.从发展成熟度来看,技术维度走的最远.商业维度有所发展但不算全面成熟,社会 ...
- 玩不转大数据就别勉强了,或许“小数据”才是真正的终南捷径
如今大多数人会经常听到"大数据",如果选择一个词来代替"大",大部分人的脑海里会出现"海量"."巨量"的字眼,但是,数据 ...
- Asp.Net 上传大文件专题(3)--从请求流中获取数据并保存为文件[下]
接着上一篇讲 3.4 读取剩余的请求 前面我们已经提到过ReadEntityBody (Byte[] buffer, Int32 size)方法,该方法可以用来读取客户端的请求数据 ...
- eBay数据科学家李睿:自然语言处理在eBay的技术实践 数据 网络 类别 技术 分类器 阅读1593 近日,在飞马网主办的“FMI人工智能大数据高峰论坛”上,来自eBay的数据科学家李睿
eBay数据科学家李睿:自然语言处理在eBay的技术实践 数据 网络 类别 技术 分类器 阅读1593 近日,在飞马网主办的"FMI人工智能&大数据高峰论坛"上,来自eB ...
最新文章
- 重温目标检测--Faster R-CNN
- [跟我学UML] UML包图中的包和命名空间
- FPGA之道(52)状态机的概念
- debian7get源,自动设置get源
- 【书单】matlab 科学计算、数值分析以及数学物理问题
- python添加时间戳_在python中添加时间戳
- 为什么每次有人大声通电话时,我就很烦躁...
- java 内置锁_深入理解java内置锁(synchronized)和显式锁(ReentrantLock)
- python--练习--for i in range(2,101)
- linux多媒体音频架构
- 关于Matlab中括号用法的总结
- 《传统相声开场小唱》
- react 组件封装原则_React 组件封装
- python十六进制去掉0x_如何将一个整数转换为十六进制而在Python中没有多余的'0x'前导和'L'尾随字符?...
- SGE(集群任务管理系统)常用操作命令
- js 时间运算,时间加减
- C++刷题的一些小tips
- python实现一个很简单的多线程爬虫
- 微信菜单 html页面添加的,微信公众号菜单进入的页面切换第二次失效
- 基于多信息融合的疲劳驾驶检测系统