都说金三银四,最近打算换工作的苏大强(蹭热点式化名)在各大招聘平台挂上了自己的简历。谁知道刚过两天就接到了十八个骚扰电话,其中只有两个来自猎头。

在接起第十八个贷款推广骚扰电话后,苏大强崩溃了,谁!又是谁TM泄露了我的信息,没钱不贷款还不起还不行吗!

你有没有想过,数据泄露可能源于那份简历。

贴条巧达

先说一起新闻。不久前网上有爆料称简历大数据公司北京巧达科技被查封,全员被抓,随后有部分员工被放出。

3月24日,三言财经也实地走访了巧达位于中关村办公室,发现大门现已被封条封住,办公室内空无一人。该封条由中钢国际广场保安部张贴,时间为2019年3月14日。

【图片来源:三言财经】

于是有人好奇,这家公司做了啥突然被封?

根据公开信息,巧达科技号称拥有中国最大的简历数据库,其主要数据来源是“乔大招”。乔大招旗下则拥有“爱伙伴”、“简历时光机”等在内10多款招聘相关产品。

“乔大招”可以做到通过一款工具汇总多家招聘网站账号信息,企业客户可以统一发布职位、收取简历;其次,该工具可以抓取简历的修改历史,可以查看到对应简历被查阅次数、修改记录等信息;不仅如此,还可以将简历上传至平台,供其他企业、猎头使用。

爱伙伴是一款提供“员工离职预测”的工具软件,该软件可以检测到员工投递简历、员工简历更新情况以及员工简历被查看次数等信息。企业用户购买爱伙伴后,即可查看其收集汇总的简历数据,依此判断公司员工的离职倾向。

简单说,这个一款给老板打小报告的软件,哪个员工有离职的想法都可能被提前知道。

截至2015年6月30日,在乔大招的数据库中,以人为计算,收入自然人的简历超过1.6亿人。以版本来计算,简历超过18亿个版本,超过25亿行为轨迹。说不准你精心准备的简历就在其中!

这些数据都被这家公司用于牟利,甚至涉及违规收集个人信息。封条一帖,巧达凉凉。

不过,一家“巧达”倒下了,还有其他“巧达”站起来,打着智能招聘SaaS系统的简历公司披着伪善外衣,暗地做着吸血勾当。

智能招聘SaaS系统

想要窃取招聘网站的简历数据有什么招数?

1. 利用公开数据,通过爬虫工具爬取;

2.合法账号内部获取数据;

3.利用网站平台的漏洞进入系统获取数据。

其中,爬虫技术运用最为广泛,因为不需要网站有任何漏洞,只需要模拟正常用户访问操作,就可以抓取。

瑞数信息CSO马蔚彦告诉雷锋网,一般黑产会通过脚本、自动化框架、手机等工具去访问招聘网站平台,通过分析招聘网站的接口,这些工具可以自动的进行搜索关键字输入、翻页,对招聘网站内容进行抓取,然后通过脚本程序,将抓取到的原始数据进行格式化处理,转换成可阅读的简历。后期爬虫还可以同过定时机制,来进行简历数据的定时获取更新。

这种爬虫技术与爬各大网站低价机票本质是一个套路,不同点在于:机票是全公开的,谁都可以看。但部分简历数据需要登录或者付费后查看的,这时候就需要爬虫组织囤积大量账号进行简历抓取。

这些账号从何而来?于是打着智能招聘SaaS系统的简历公司出现了,声称该SaaS产品可以“帮助一个HR管理多个平台上发布的职位和收到的简历”,只需要登录一个平台就能管理所有渠道的简历信息。

购买该产品后,HR手中各大招聘平台的付费账号都被简历公司所掌握。

(注:目前很多招聘网站的商业模式都包括付费下载简历进行收费,花几万元可以下载几千份简历,可以查看该招聘网站的无限量个人简历。)

雷锋网编辑询问了某做爬虫技术的好友,对方称,通过爬虫技术抓简历一般要解决四个问题:

1.登陆的问题,需要购买一些账号;

2.破解登陆的验证码;

3.购买ip代理、切换ip;

4.控制好爬虫的速度,因为登录后,一般网站后台都会存有日志记录,抓的太快的话,会被封。

而一套卖给HR的智能招聘SaaS系统就能解决前三个问题,把非法的变成合法的,破解账户变成买卖服务。这操作,这脑洞,编辑叹为观止。

有了账号,之后的操作就更简单了。利用HR的账号托管,SaaS方可以去爬取各大招聘平台的简历信息,并做到实时翻新。

马蔚彦表示这种实时可以分为实时和准实时。

实时的:有HR来招聘网站上进行简历检索的时候,除了会显示自己本地的数据,还会将搜索请求转发给其他招聘网站的搜索接口进行数据获取,并且可以将爬来的数据进行智能比对,更新简历。

准实时:每个简历在招聘简历上都一个唯一的ID,爬虫可以定时的,以ID为参数进行简历数据获取。也就是只要你更改简历,对方就会收到数据,同步更改。

这时候,你的简历还只是你的吗?

挂钩黑产

潘多拉魔盒未打开时一片平静,放在黑盒中的简历数据也是一样。

你的简历上都有什么信息?生日、电话、地址、身份证信息、工作经历……这些详细得不能再详细得数据被分销出去,可能卖给大数据分析公司,卖给猎头,卖给贷款公司、卖给诈骗组织,这些都是黑产中的某一环节。

而信息裸奔的你可能接到N个骚扰电话却还不知道问题出自简历。

即使没有这些打着智能招聘SaaS名义的公司,你的简历就安全吗?

不一定,邦盛科技产品总监焦林俊向雷锋网(公众号:雷锋网)透露,某国内top级别的招聘平台曾表示,有些大商户(付费大企业)利用在招聘平台的账号密码,登录后台通过爬虫刷新数据,爬取简历。

之后将爬取下来的简历放进自己的数据库,在合适时机将这些简历数据出售给需要的机构,相当于二道贩子。

至于是哪些公司,各位可以自由猜测。

反爬颇难

招聘公司面对各种爬虫技术是否有反爬技术呢?

“目前也有多种反爬虫的技术,如验证码,IP黑名单,频率限制,IP限制,单一账号可阅读量、需要购买,通过User-Agent控制等手段都能进行一定限制。但越来越多的高级爬虫,利用大量代理IP,并且与真实浏览器访问的环境相似度很高,传统的反爬技术在面对高级爬虫时已经基本无能为力。”马蔚彦说道。

焦林俊也表示,招聘网站确有采取一些反爬虫技术,比如前端进行加密,后端加入了大数据分析,机器学习等技术。但对大商户爬取数据的行为招聘网站也有些头疼,迫于营收压力,他们不会采取直接拦截的措施。而且先通过后台数据分析谁爬取了数据,再针对不同对象采取相应的反爬措施。

目前来说,爬虫技术仍处于灰色地带,对于利用爬虫技术获取公开数据这一行为的正误,在认知上也各有不同。目前更多的还是在道德层面,而非法律,比如:遵循robots,尽量放慢爬取速度,从而减少对提供数据查询网站的压力,不要造成拒绝服务,不要公开爬虫程序源码,不要分享爬虫数据等等。

(注:robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。)

但这些在马蔚彦看来,缺乏法律保障的约束力非常弱。

随着涉及个人、企业的数据资源越来越多,提供这些数据的平台、系统也越来越多,非常需要通过建立正确的爬虫观念、提升反爬技术手段、建立合理的爬虫相关法律规定等都多方面的综合努力,才能更好地提供对于恶意爬虫的防御,保护企业和客户数据资源。

对于终端用户来说,除了接到手软的骚扰电话,似乎是完全无感知的。

焦林俊表示,用户应该避免在不安全的招聘网站发布简历,遇到打电话称自己是猎头需要提供本人完整信息的说法也不要轻信。而对于招聘网站,应该从业务方面进行规范,搭建自己反爬虫平台,利用前沿的反爬虫技术,如大数据分析,根据访问行为提取特征,通过设备指纹,人机识别,环境检测等技术识别出人还是机器。这样即可以去掉验证码等降低用户体验的操作,也避免了用户有价值的信息被爬取。

做反爬不能误伤正常用户,这是反爬虫技术的关键点。爬虫与反爬虫永远在对抗,没有胜负。

参考来源:三言财经

我投了份简历,接到了十八个骚扰电话相关推荐

  1. 为什么你投十份简历,只有一两家公司约你?又或者为什么你每投一份简历都能获得面试机会?

    最根本的原因,就是一方在汲汲渴求,而恰恰另一方呈现出的关键点让其怦然心动.求者心中有所想,而应者恰恰展现了求者所想的那一面.这就是个中奥妙. 程序员在找工作时,在一开始有三件事情会对能否获得面试机会至 ...

  2. 秋招投100份简历是种什么体验

    秋招,大概是我人生最漫长痛苦的一段时光 我的本科院校,是北方一个不知名的二本理科院校,而我所在的,是整个学校里最弱势.最没存在感的文科院系-法院,四个年级,加起来不过寥寥200人 更讽刺的是--我,还 ...

  3. 37岁程序员失业投500份简历就3次面试猎头:超35岁不要

    37岁程序员失业120天,投了500份简历就3次面试,猎头:超过35岁都不要 在职场中,都说互联网吃青春饭,而35岁就是一个门槛,一旦到了这个年龄找工作都非常难,甚至被公司裁员的风险都很大,其实一个现 ...

  4. 我是二本生,投800份简历找不到工作

    近日,<我的二本学生>一书作者黄灯在谈话节目中,谈到了一个人数众多的"隐形"群体,即"二本生". 她认为,这群和"一线城市.高知父母.国际 ...

  5. 4年Java开发,阿里被裁两个月,想要26K的工作都找不到!投200份简历,只有4个面试邀请,准备去外包了!...

    当前形势下,java开发的前景怎么样? 一位杭州的java开发哀叹: 被裁员两个月了,本科毕业四年,有大厂经历,想要一个26K的工作都找不到.投递了200份简历,只有4个面试邀请.只好把屏蔽的外包公司 ...

  6. 最冷招聘季:裁员后,我求职沟通1398次,投277份简历,面试72场

    Tech星球 文|杨晓鹤.乔雪 毫无征兆,"大厂中的印钞机"字节跳动也开始裁员了,而且涉及到了不少应届生. 看起来很违和,字节都要"过冬"了吗?其实,如果细数2 ...

  7. 软件测试投了几十份简历为什么没有面试邀约?

    最近有不少人问,测试岗位,为啥投了简历却连一个面试机会都没有?如下图: 投3份简历没有回音,有可能是投的公司规模较大,你自身条件不过关(如学历,年龄不符合要求). 投30份简历没有回音,有可能是HR太 ...

  8. 谈谈如何写好一份简历

    写简历: 简历可分为几个模块: 基本资料:要尽可能的详细,手机,信箱是必须的,还要注意扬长避短,比如你90年的,那就写年龄 23,而不是写出生年月. 求职方向: 个人技能:可以写在一起,测试工具,自动 ...

  9. “50份简历没获得面试”也正常

    安阳工学院孙梦涛大学四年狂揽65个证书,连续两年综合成绩全专业年级第一,创办过志愿者服务队,当过大企业董事长助理,开过传媒工作室,可投50份简历却没获得一次面试机会.而研究生学历的学长,简历却百投百中 ...

最新文章

  1. Mysql (InnoDB引擎)聚集索引和辅助索引
  2. BIO、NIO、AIO的区别——Netty系列(一)
  3. crawler4j mysql_Nutch、heritrix、crawler4j优缺点
  4. 用ASP.NET 2.0设计网络在线投票系统
  5. Emscripten 单词_极光单词独创多种学习方法助您高效背单词
  6. Spring的国际化(转载)
  7. centos下mysql更改数据存放目录_CentOS下mysql更改数据存放目录 --转载
  8. bootstrapt学习指南_bootstrap-知识点梳理-学习入门篇
  9. 【好书推荐】写Web必须知道的安全知识 | 《白帽子讲Web安全》
  10. 宝洁、惠普、Salesforce加入!全球逾200家企业签署《气候宣言》
  11. Jo-SRC: A Contrastive Approach for Combating Noisy Labels
  12. android证书管理
  13. Apache Ranger安全区介绍
  14. 2021基于Debian的All in One(NAS+软路由)配置教程
  15. JConsole:Java监视与管理控制台
  16. 迷你播放器--第一阶段(1)--检索媒体音乐并添加到List播放列表
  17. 移动端和pc端的区别
  18. 软件的分类及应用领域
  19. TOEFL 托福综合写作模板【高级版+低级版】
  20. 带有滚动效果的ViewPager

热门文章

  1. 【解决方案】GB28181协议视频智能安防监控系统EasyGBS搭建生态农业大棚安全直播有何优势?
  2. ubuntu 10.10 安装compiz方法
  3. 快速排序quick sort
  4. 天天酷跑java_利用Java怎么实现一个天天酷跑游戏
  5. 2019年辽宁单招计算机,2019年辽宁高职单招院校名单
  6. vue el-table表格实现从上到下(有序)选择
  7. Silverlight 动画实现--太阳升起、落下
  8. java springboot大学生兼职平台的设计与实现
  9. 函数的return,返回值
  10. 大数据治理入门系列:数据血缘关系