数据分析该如何与算法合作,是个老大难问题。一方面是业务方日益提高的,对模型的幻想。另一方面是大量企业里存在的,数据采集差,缺少足够数据人员,工作目标不清晰等等问题。到底该如何和分析与算法协同增效?今天系统分享一下。

01

两种典型的错误做法

狗不理式:有些公司领导喜欢嫌弃自家数据分析师没本事,总认为“上个模型才牛逼”。于是数据分析师们皆明哲保身,干脆和所有带“模型”俩字的工作划清界限,统统甩给算法工程师。

这么干,当然会坑死算法。

且不说,很多时候领导口中的模型根本就是“SWOT”一类虚无缥缈的东西;

且不说,很多建模目标根本就是:“预测我做什么能成功”一类不切实际的东西。

就单单基础特征筛选工作没人支持一项,就会让算法工程师累死。项目进度慢,最后还是被嫌弃:“为啥你的模型不能100%精准预测!!!”

当然,此类问题常见于传统企业。特别是数字化转型阶段,领导们看了很多高大上的ppt,自以为自己很懂的传统企业。

当狗用式:一些互联网公司对于算法的应用有相对清晰的定位,算法小组的地位也较高。于是走向另一极端:把配给算法组的分析师当狗使。做啥你不用管,你按我说的取数就好了。用无休无止的取数表淹没了数据分析的工作。

这么干,坑的是所有人。因为连数据分析师都不懂算法逻辑,那运营部门更不懂。在茫然无知的情况下,运营部门只能通过简单的数据指标监控,来推测算法效果。并且稍有风吹草动,就开始质疑:“算法不灵了吧!”,“你们悄悄改了啥!”,“就是你们瞎搞!”这些质疑,又会成为部门间甩锅、扯皮的导火索,引发无休无止的内耗。

02

破局的基本思路

从本质上看,分析和算法,都是数据的应用。那么灵魂拷问来了:是不是有了数据,钞票就源源不断从电脑里喷出来了?显然不是!数据本身不能包治百病,想让数据发挥作用,得紧密结合业务实际,找好数据能帮上忙的发力点才行。

而业务的实际情况又很复杂,经常是数据和业务行为交织在一起。

比如:

短视频DAU下降,是算法推荐不给力,还是创作者本身质量太差

交易转化率下降,是商品推荐不给力,还是货源本身没有选好

业绩预测不精准,是预测模型不给力,还是业务自己放水了

这时候,业务部门永远可以甩锅:“我们的数据太无能,我们要是有字节的算法就牛逼了”。而数据这边,不管是算法还是分析,都是背锅的。所以最终的破局思路,是数据的同学们团结一致,找好场景,做出成绩,减少背锅,而不是自己人踩自己人。

空口说显得太空洞,下边结合一个具体问题场景看看。

03

典型合作场景之一:项目立项

问题场景:某大型制造企业,期望建立“多维度立体式分析模型”,提升招聘效率。问,此时该怎么接需求?

这是个典型的需求不清晰场景。

  • 什么叫:招聘效率?

  • 招聘成本更低?招聘回来以后留存更好?招聘到合适的人?

  • 什么叫合适的人?是否已经有清晰定义?

  • 流水线工人、销售、营销策划、管理人员的“合适”定义是否一致?

  • 流水线工人、销售、营销策划、管理人员的招聘问题是否相同?

以上情况统统不清楚

因此无论是算法/分析,谁接需求,都得先问清上边的问题。当然,在问题定义都模糊不清的时候,让数据分析师站出来沟通更合适。数据分析师和业务贴的更近,更容易理解业务语言,引导业务思路。

业务方进一步给出的回答是:

1、要帮助管理岗位招到更合适的人

2、要发现:XX省市的流水线工人更容易招,我们集中招聘

3、要让整个部门的用人成本,控制在XXX万元以内

那么,是不是可开始建“多维度”“立体式”的模型了呢?

不!远远不到!

04

典型合作场景之二:任务分解

有三大问题,制约着项目推进:

1、管理岗位的“合适”定义不清晰。管理人员的考核,远比流水线工人复杂。流水线工人只要考察年龄、身份证、学历几个简单维度即可,考操作技巧也能通过标准化作业考核。管理人员则复杂的多,还有“领导看他顺不顺眼”这种高度个性化、无法量化的考核点。因此不能简单的止步在这里。需要进一步定义。

2、各省市劳动力数据缺失。注意:从现在HR收到的简历里筛选出合适的,和从茫茫人海里锁定哪里的劳动力多,完全是两个问题。因为已经收到的可以统计数据,茫茫人海压根连数据都没有。如果盲目开工,很有可能引发误判。

3、整体部门用人成本与招聘效率,根本就是两个问题。整个部门用人成本,除了新招聘以外,还有在职工资福利,还有离职人员赔偿等等。如果目标是控部门整体成本,那到底哪一块总量最高,哪一块占比最大,哪一块是冗余,哪一块增长最快,要提前一一分析清楚。再看怎么解决。

此时,可以拆出至少五个任务

任务1:定义管理岗位的“合适”(可能为了定义合适,要单独建个业务模型,比如胜任力模型)。

任务2:基于过往面试数据,为管理岗位“合适”做标注,为建模做准备。

任务3:收集各地区劳动力市场数据(劳动力市场发布信息、中介提供信息等)。

任务4:结合过往招聘活动,验证分地区招聘合理性(也有可能求职者虽然是内地省份的人,但是找工作还是跑到沿海省份找,分地区意义没那么大,这些假设都待验证)。

任务5:分析整体用人成本结构与走势,找到成本控制关键点。

这五个任务,主要都是数据分析的活。数据分析理清现状,采集数据,后边算法就能有的放矢。比如:

1、在已有管理岗位“合适/不合适”标注的情况下,结合简历信息、猎头给到信息、招聘渠道信息,对面试人员建分类预测的模型(逻辑回归/决策树),预测“合适”概率

2、在已经有整体用人成本结构、增长原因、发展趋势数据情况下,建预测模型(时间序列/多元回归)判断用人成本是否会超出预期,从而干预决策(不要因为短期缺人就大量招聘,对比给加班费和增加新人成本差异)。

当然,还有第三个合作点:在工作中遭遇挑战,大家一起应对。

05

典型合作场景之三:问题解答

面对“模型为什么不准!”终极问题,一定是所有人一起努力。首先要排除的,是外部因素、意外波动、业务主动行为的影响。不要是个问题就往模型身上泼脏水。

比如:

突然有高管变动,引发管理层招聘要求全变

招工来源地发生疫情,人员出不来

行业领头企业突然提高了薪资,拉高了整个行业成本

原定的招聘计划因为各种原因推迟

原定招聘计划,没有达成预期,要加新渠道/新方式

所有这些因素都会让原先设计的模型不成立或者效果下降。应对这些变化,数据分析要冲在前边,在日常监控数据的时候,就及早发现问题,提示业务风险,提醒所有人关注变化。而不是等着业务打上门来再来扯皮。

06

小结

算法和分析的工作性质差异,使得这两者合作分工的时候,天生侧重点不同。理想的合作方式,就是:分析扫清业务障碍,算法集中提升效率。大家一起做出成绩。

实际上,如果你工作时间够久,和业务接触的够多,就会发现:大部分直接从业务口中冒出来的“建模型”需求,都不靠谱,不是数据缺失,就是目标不清。别是涉及预测问题的时候(分类问题相对好一点)。经过数据分析师转化的需求,反而靠谱很多。有兴趣的话,本篇集齐60在看,下一篇,我们拿更多具体场景,看如何满足“模型”需求,敬请期待哦。

你想看的原创精选:

  • 提升DAU,数据分析要怎么做?

  • 数据分析报告,这么讲听众才不搓手机

  • 运营数据分析,怎么做才有深度

用户系列 | 模型系列 | 数据分析报告

分析方法 | 运营分析 | 实战案例

年度好用 | 求职、职场真相

数据驱动决策是个涉及到各个方面的工作,实施起来很难,要做出成果更难,学习陈老师的《商业分析全攻略》视频课程,加入学员群,和陈老师一对讨论,让陈老师手把手教你用数据驱动决策哦。

《商业分析全攻略》

长按扫描二维码
了解陈老师的视频课程

还可加入学员群

享受陈老师一对一咨询服务

点击左下角“阅读原文”听陈老师讲课噢。

数据分析 VS 算法模型,如何高效分工合作?相关推荐

  1. knn聚类还是分类_数据分析基本算法模型之KNN算法

    最近失业了...sad 休息了一个月,然后就想着找工作的事情.浏览了一些职位的JD,发现上面都会写了解机器学习算法模型,掌握回归.分类.聚类balabala.这就让我有点蛋疼了,这些在之前工作上都没怎 ...

  2. 工业大数据分析综述:模型与算法

    工业大数据分析综述:模型与算法 王宏志,梁志宇,李建中,高宏 哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 150001   摘要:随着条形码.二维码.RFID.工业传感器.自动控制系统.工业互 ...

  3. 金融领域下的数据挖掘算法应用:智能推荐算法模型

    摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销.智慧医疗.数智金融.智能制造.项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/ 你将会学到: 智能推荐系 ...

  4. 乳腺癌细胞数据分析Logistic回归模型

    Breast_cancer_cells & Logistic_Regression 数据集以及源代码资源包: 链接:https://pan.baidu.com/s/1VIjTjtSa1Jngq ...

  5. 算法模型---支持向量机(SVM)

    来源:JerryLead 支持向量机的特点 支持向量机的用途 SVM一般是用来分类的(一般先分为两类,再向多类推广) 支持向量机的适用范围 数据类型 自变量可以数值型和标称型数据 因变量是二分类,通过 ...

  6. 阿里90后科学家研发,达摩院开源新一代AI算法模型

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) AI科技大本营7月5日消息,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际 ...

  7. ML之回归预测:利用多个算法模型(LassoR、KernelRidgeR、ElasticNetR、GBR、LGBMR、XGBR)对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测

    ML之回归预测:利用多个算法模型(LassoR.KernelRidgeR.ElasticNetR.GBR.LGBMR.XGBR)对国内某平台上海2020年6月份房价数据集[12+1]进行回归预测(包括 ...

  8. 北京/上海内推 | 字节跳动AI Lab招聘NLP算法模型优化方向实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 字节跳动 日常维护 star 数 1.8k 的开源项目 https://g ...

  9. 超大规模智能模型相关工作总结:编程实现框架、算法模型、微调技术和应用...

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 近日,超大规模的智能模型越来越受到大家的关注,但是仅仅依赖于超大的计算资源并不足以完成这 ...

最新文章

  1. 2014-02-26_javascript_event
  2. BERT模型超酷炫,上手又太难?请查收这份BERT快速入门指南!
  3. 保洁阿姨看完都会了!java导出excel并下载详解
  4. linux虚拟内存当硬盘,linux里面虚拟内存和swap有什么不同?
  5. STM32开启定时器就立即进Update中断问题探索
  6. java代码编写的文本特征提取_Test1 java语言写的特征提取源代码,有搞文字识别的可以下载一看,简单易学 Develop 274万源代码下载- www.pudn.com...
  7. 企业邮箱domino跟exchange
  8. Matlab中struct的用法
  9. c语言软件下载与配置
  10. not found for libcrypto
  11. 大数据竞赛MR培训与题型
  12. Java实现腾讯云短信发送
  13. java unrar压缩_用java解压缩rar文件 de.innosystec.unrar解压缩rar文件
  14. UNITY与Mac⭐一、在苹果电脑上配置 Unity 安卓环境的教程
  15. 在pycharm里安装pymysql
  16. atl常量暴露的最简便方法
  17. 宝塔linux输入bt,Linux宝塔面板如何挂载硬盘?BT宝塔面板磁盘挂载超简单教程来了!...
  18. Qt 圆形进度条实现
  19. MySQL——10038错误
  20. 常见功能测试点的测试用例大全

热门文章

  1. 知物由学 | 听声辨人,看声纹识别技术如何保障内容安全?
  2. 新锐房地产销售管理系统(部分流程)技术解析(八) 销售管理_预定管理
  3. win10出现打印机无法打印,而其他显示正常,重启没反应
  4. 中小型企业开发门户网站我建议你选择阿里云的云速美站
  5. 最新淘宝商品销量接口API(精准总销月销)
  6. PX4平台(V3)+T8S遥控器校准
  7. matlab 向量_COMSOL与MATLAB联合仿真+RBF神经网络预测输出
  8. 伦茨小知识-什么是耳机阻抗
  9. 虚拟机安装linux黑屏一个光标,虚拟机启动后黑屏只剩一个光标
  10. 游戏建模 | UV贴图及模型展开案例