本文介绍了领英利用深度表征学习模型来提升人才搜索和推荐系统。

领英征才解决方案(LinkedIn Talent Solutions,LTS)业务为领英贡献了大约 65% 的年收入,该业务方便职位提供者接触潜在应聘者,也方便求职者找到合适的工作机会。领英求职生态系统的设计方向是使其成为连接职位提供者和求职者的平台,高效匹配潜在应聘者和工作机会。帮助实现这些目标的关键机制是领英雇佣帮手(LinkedIn Recruiter),它帮助招聘人员寻找相关的应聘者,获取适合其空缺职位的推荐应聘者。

人才搜索和推荐系统的重要挑战在于底层的查询机制很复杂,它结合了多个结构化字段(如标准职位、标准技能、公司名)和非结构化字段(如任意文本关键词)。而通过领英雇佣帮手,查询可以是输入查询文本和选择侧面(人才搜索)这样的显性形式,也可以是工作机会这样的隐性形式,或者职位的完美应聘者(人才推荐)。领英的目标是从数亿结构化的应聘者资料中选出最相关的候选人,然后列出排名。

结构化字段作为机器学习排序模型的一部分,为特征空间添加了稀疏性。该设置适用于密集表征学习实验,因为它不仅减少了稀疏性,还增加了信息在特征空间中的比重。本论文展示了如何将表征学习技术应用于领英人才搜索排序。本文主要贡献如下:

  • 在学习对应用进行排序时使用嵌入作为特征。这通常包括:
  • 用于排序、评估层级(全连接)架构优势的嵌入式模型;
  • 使用逐点学习和成本函数中的成对损失训练模型时的考虑因素。
  • 使用 LinkedIn Economic Graph [30] 的结构学习稀疏实体(如招聘者 id、应聘者 id、技能 id 等)语义表征的方法:
  • 使用领英生态系统中 Economic Graph network 数据的无监督表征学习;
  • 利用来自人才搜索域的应用特定数据的监督表征学习。
  • 在领英人才搜索的语境中对上述方法进行大量离线和在线评估,并讨论实践中的挑战和经验教训。

尽管该讨论大部分是在领英人才搜索的语境中进行的,但它可有效泛化至任意的多维搜索引擎,包括电影、食物/餐厅等高维度。

论文:Towards Deep and Representation Learning for Talent Search at LinkedIn

论文链接:https://arxiv.org/abs/1809.06473

摘要:领英人才搜索和推荐系统力求匹配潜在应聘者与招聘人员的招聘需求,或招聘人员以搜索查询或发布职位的方式表达需求。该领域的近期研究主要关注线性模型(不考虑特征之间的复杂关系)和集成树模型(引入非线性,但仍不足以探索所有潜在的特征交互),且严格分隔特征生成和建模。本论文展示了我们在领英雇佣帮手上应用我们的深度表征学习模型的结果。我们的主要贡献包括:1)学习人才搜索领域中稀疏实体(如招聘者 id、应聘者 id 和技能 id 等)的语义表征,所用的神经网络模型使用 LinkedIn Economic Graph;2)学习人才搜索应用中招聘者邀请和应聘者回应的深度模型。我们还尝试学习对应用于深度模型的方法进行排序,并展示这在人才搜索用例中的益处。3)最后,我们展示了对领英人才搜索和推荐系统的离线和在线评估结果,并讨论通往完全深度模型架构过程中的潜在挑战。本文所讨论的挑战和方法可泛化至任意多维搜索引擎。

2 背景和问题设置

这部分简要介绍了领英雇佣帮手这款产品和现有的排序模型,并正式展示人才搜索排序问题。

2.1 背景

领英是世界上最大的职业社交网络,覆盖来自全世界的 5 亿多名成员。领英的每个成员都有一个资料页,用来记录职业成绩和资料,如图 1 所示。典型的成员资料包含 5-40 个结构化和非结构化的字段,如职位名称、公司、经历、技能、教育和总结等。

图 1:领英资料页示例。

在人才搜索方面,领英成员可被分为两类:应聘者和招聘者。应聘者寻找合适的工作机会,招聘者寻找合适的员工。本研究解决了领英雇佣帮手这款产品中的建模挑战,帮助招聘者寻找合适的应聘者。

与只关注字段与给定查询之间关联度的传统搜索和推荐系统不同,人才搜索领域需要招聘者和应聘者「看对眼」。也就是说,我们不仅需要推荐的应聘者与招聘者的查询相关,还需要招聘者联系的应聘者必须对这一工作机会感兴趣。

2.2 当前模型

当前的人才搜索排序系统功能如下 [12, 13]。第一步,系统利用搜索查询指定的硬性筛选条件,从超过 5 亿领英用户中检索出包含数千成员的集合。具体来说,查询请求基于从查询文本中提取的标准化字段和选择维度(如技能、职位名称和行业)创建。然后,将查询请求发送给分布式搜索服务层,它建立在领英 Galene 搜索平台 [26] 之上。应聘者列表则基于匹配特征(如职位名或技能匹配)生成。第二步,搜索排序系统使用排序模型对这些应聘者打分,然后返回排名靠前的应聘者列表。本论文主要关注第二步使用的排序模型。

3 方法

本章展示了我们的方法,主要包含两个方面:

  • 学习深度模型来评估应聘者和招聘者之间产生双向兴趣的可能性;
  • 学习人才搜索领域中实体的监督和无监督嵌入。

3.1 用于排序的嵌入式模型

如前所述,我们想要一个灵活的排序模型,可以轻松适应新特征和训练机制。近期神经网络的发展使得它们成为很多统计学习任务的当前最优技术,包括排序模型 [4, 19],因此神经网络因其模块化结构和利用梯度优化方法进行端到端训练的能力,成为最佳选择。因此我们使用神经网络 ranker 作为领英人才搜索的排序模型。具体来说,我们提出具备自定义激活函数的多层感知机(MLP),并利用它执行排序任务。我们的模型支持多种模型正则化方法的混合,包括 L2 范数惩罚项和 dropout [27]。

出于神经网络的训练目标,我们考虑了两个学习排序模型的常用方法:

  • 逐点学习。又叫二分类排序。该方法需要利用训练集中的每个样本和标签训练二分类器,然后将来自同样搜索会话的样本分成一组,再基于分数进行排序。
  • 成对学习。尽管逐点学习易于实现,且性能较好,但人才搜索排序的主要目标是提供应聘者的排名,这需要可用会话数据中的内在信息。

3.2 学习人才搜索中稀疏实体的语义表征

接下来,我们来看稀疏实体表征的问题,它将不同实体(技能、职位名等)转换为低维向量格式,使得不同种类的模型能够直接利用实体作为特征向量。

无监督方法学习实体的共享表征空间,从而构建查询表征和成员表征。我们不使用人才搜索的专门互动来监督表征学习。

监督方法利用招聘者和应聘者在历史搜索结果中的互动,同时学习表征空间和最终得分。

图 3:具备浅层查询网络和深层成员网络的架构。

图 4:每个顶点代表一家公司,由颜色、虚线或常规边来表示的边权重代表曾在这两家公司工作过的成员。

图 5 展示了本文提出的人才搜索排序系统的在线架构,包括嵌入步骤。我们设计该架构的目的是能够离线计算成员嵌入,但查询嵌入需要在运行时计算。

图 5:人才搜索排序在线系统架构。

4 实验

表 3:使用逐点损失、成对损失和不同层训练的端到端 MLP 模型与基线梯度提升树模型相比的准确率变化情况。

表 4:使用无监督嵌入的离线实验。

表 5:使用监督嵌入的离线实验。

表 6:在线 A/B 测试结果。

转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/9950086.html

领英利用深度表征学习提升人才搜索和推荐系统相关推荐

  1. 【AAAI Oral】利用深度增强学习自动解数学题,准确率提升15%

    [AI科技大本营导读]增强学习和人类学习的机制非常相近,DeepMind已经将增强学习应用于AlphaGo以及Atari游戏等场景当中.作为智能教育领域的引领者,阿凡题研究院首次提出了一种基于DQN( ...

  2. 基于深度表征学习特征的抗癌肽预测

    Anticancer peptides prediction with deep representation learning features 中科院分区:二区(Briefings in Bioi ...

  3. AI竞争即人才之争 领英发布《全球AI领域人才报告》

    人工智能(AI)已经成为全球科技发展的下一个变革"奇点",而AI技术人才,则是主导这一变革的核心力量.今日,全球最大的职场社交平台LinkedIn(领英)发布了业内首份<全球 ...

  4. 利用深度迁移学习进行基于图像的植物病害识别

    1.论文信息 2.研究概述 选择了在ImageNet和Inception模块上预先培训的VGGNet.不是通过随机初始化权重来从头开始训练,而是在大型标记数据集ImageNet上使用预先训练的网络来初 ...

  5. 第六章 利用深度Q学习来实现最优控制的智能体

    文章目录 前言 改进的Q-learning代理 利用神经网络近似q函数 使用PyTorch来实现浅层Q网络 实现Shallow_Q_Learner Experience replay 实现the ex ...

  6. 利用深度强化学习训练机械臂环境

    训练环境 使用Movan写的机械臂环境:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master ...

  7. 【ML4CO论文精读】基于深度强化学习的组合优化问题研究进展(李凯文, 2020)

    基于深度强化学习的组合优化研究进展 本人研究方向(博士期间):多目标组合优化与决策研究--致力于多约束多目标多任务组合优化算法和多目标决策系统的研究与开发,以及多目标优化技术在一些工程实践中的应用. ...

  8. 外贸人如何利用领英LinkedIn开拓海外市场?这七大妙招你要知道

    在社交媒体大行其道的时代下,作为职场人士专用的LinkedIn(领英)在全球则拥有5亿高端会员,覆盖全球200多个国家,也是唯一一个在中国不受限制的国外社交平台,与Facebook.谷歌.苹果并称为& ...

  9. 领英AI人才图谱:全球 190 万 AI 人才,中国只有5万

    原文链接:点击打开链接 摘要: 目前全球共有190多万深度学习与数据挖掘的人才,其中85万都在美国,中国只有5万人,华裔人才有14万.随着中国在人工智能领域的不断开拓进取,中国企业对于人才的吸引力也在 ...

最新文章

  1. 010_Select选择器
  2. ufldl matlab 工具箱,matlab的Deep Learning的toolbox 中的SAE算法
  3. 手把手教你实现基于LSTM的情感分析(LSTM-based Sentiment) Classification
  4. 持续集成接口自动化-jmeter+ant+jenkins(一)
  5. Python time asctime()方法
  6. Linux(CentOS)挂载NTFS格式的U盘、移动硬盘
  7. 繁体字_如何简单快速地批量认识繁体字?
  8. nlp-tutorial代码注释1-1,语言模型、n-gram简介
  9. Java ByteCode
  10. android 拷贝大文件,不用数据线,手机和电脑互传大文件
  11. 老式门锁改wifi遥控开门
  12. LPR基准利率BP是什么意思,银行利率bp是什么意思
  13. SQL案例学习-数据透视表
  14. 城市公交站点及换乘方案设计
  15. excel 把已有的数据做成图表
  16. python3中flask下载文件:图像.jpg
  17. 基于Win10单机部署kubernetes应用
  18. 微机原理与接口技术:中断技术 详细笔记与例题解析
  19. 使用Python+Opencv+Flask将windows端的摄像头变为网络摄像头的方法
  20. 陕西师范大学公费师范生计算机,陕西师范大学公费师范生2019年录取分数线-陕师大公费师范专业...

热门文章

  1. 【IoT】产品设计之行业动态:社区团购:巨头们会放弃卖菜这门生意吗?
  2. Android 获取assets文件夹中音频文件的引用,并播放音乐
  3. 网狐棋牌客户端连接服务器修改方法
  4. 网狐棋牌数据库配置问题
  5. Matrix矩阵的图像处理
  6. 哪边是上游、哪边是下游
  7. 1010: 求圆的周长和面积(C语言)
  8. 史上最全的IDE(文本编辑器)对比,包含了常用和不常用的近70种工具的比较。
  9. 记录一次生产应用启动后发生多次FullGc的解决过程
  10. C++ 如何将一个大的整数 拆分0到9单个数字