2.1 排序学习的基本介绍 2.1.1 排序学习的原理 建立传统搜索排序模型的主要途径是靠人工不断实验开发,以确定具有相关性打分功能 的函数的参数组合方式。而基于机器学习的排序学习算法则做出很大的改进,排序学习算法 中的最终排序公式由机器通过自动学习获得,而人则只需要给排序学习算法提供相关的训练 数据。排序学习是有监督学习的过程,包括训练阶段和测试阶段,机器学习排序系统由4个步 骤组成:数据集获取、训练排序模型、测试集测试、应用机器学习模型,其中最重要的是第 二步,构造一个可以正确反映文档与检索词相关度的排序模型。排序学习模型结构图如图2.1 所示。

图2.1 排序学习系统框架 从图2.1可以看出,典型的排序学习模型由两个部分组成:学习系统(Learning system) 和排序系统(Ranking system)[32]。排序学习算法通过学习系统从训练数据中得到最优排序 模型,即学习排序模型使损失函数的值被降到最低。再经由排序系统,用训练出来的最优排 序模型对测试集进行排序预测,要求测试样本的损失函数值低于设定的最低目标值。一般都 有指定的评价指标来判断模型的优劣。

2.1.2 排序学习的数据集 数据集的获取主要分为两大类,包括人工标注和搜索日志。首先,人工标注训练数据是

2.1.3 排序学习的特征

机器学习模型会根据观察到的特征值(Feature)进行预测,给出预测结果或者目标 (Prediction),所以对文档特征的提取十分重要,因为不同的特征向量会导致预测结果的不 同[33]。文档的特征可以分为三大类:

文档本身的特征、

检索词-文档的特征、

检索词的特征

文档本身的特征主要包括Pagerank值[34]、内容丰富度、是否是spam、质量值、CTR等。 检索词-文档的特征主要包括检索词和文档的相关性、检索词在文档中出现的频率,检索词的 Proximity值(即在文档中多大的窗口内可以出现所有査询词)等。而且,有些检索词-文档的 特征不是显式的,而是有Semantic的,即虽然检索词在文档中没有出现,但是语义上是有关 系的。检索词的特征主要包括Query在所有Query 中的出现次数、比率等。本文采用的是 Microsoft的数据集,包含46个特征。 提取特征时需要计算单词权重,最基础和重要的方法是TF-IDF算法。TF意为词频统计, 不同文档间的差别是最有价值的词语的不同,最有价值的词语就是指在文档中出现的次数最 多,在其他文档中出现的次数少,因此引入TF,计算词频。IDF意为逆文本频度,一个单词 出现的文档数越少,它区别不同类别文档的能力就越强。TF和IDF的乘积作为特征空间坐标 系的取值测度,使用IDF作为权重乘以TF,实现对单词权重的调整,调整权值的目的在于突 出重要单词,抑制次要单词。 现在排序系统对检索词-文档都提取较多特征,例如Google搜索引擎目前考虑200多个特 征因子,包括:PageRank、HITIS、TFIDF、BM25以及用户点击数据。随着互联网技术的不 断发展,工业、医疗、教育等领域产生了大量新的数据,对于特征的选择也越来越重视,被 广泛的研究和应用。特征的选择可以根据学习算法的不同分为三大类[35]:过滤式(Filter)、 封装式(Wrapper)、嵌入式(Embedded)。

2.1.4 排序学习的损失函数

损失函数[57]一直是各种学习排序算法的核心,损失函数的功能是用来衡量学习排序模 型的预测值和真实值之间的差异程度,若差值为0,则代表没有损失,损失函数越小,模型的 鲁棒性就越好。为使损失函数值达到最小,最常用的方法是梯度下降法。损失函数基本可以 分为分类损失(Classification Loss)和回归损失(Regression Loss)

2021-09-13排序学习的特征相关推荐

  1. 实习日志 (2021.09.13)

    2021.09.13星期一 今天把之前的算法题终于给弄明白了,并能够按照自己的思路去把他给完成,总结这个题目并不是很难,最重要的是要把链表给弄懂,一开始由于我对链表不是很熟悉,导致我在写该题目的时候花 ...

  2. 2021.04.13 html学习第一天

    ** html学习笔记20210413 ** 1.什么是软件? 软件----计算机系统或手机运行起来程序[应用程序],为我们的生活带来方便. 2.一个软件是由那些部分组成? 1.界面-提供操作 2.逻 ...

  3. 哔哩哔哩“2021.07.13 我们是这样崩的”报告的学习-1

    哔哩哔哩"2021.07.13 我们是这样崩的"报告的学习-1 这份报告是我学计算机两年来第一次真实看到大厂的员工到底在干什么.出现了很多专有名词,以及当前最先进的互联网企业的应用 ...

  4. 【推荐系统】推荐系统中的排序学习

    " 本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART.因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检 ...

  5. ACL 2020 | 基于多级排序学习的层次化实体标注

    ©PaperWeekly 原创 · 作者|龚俊民 学校|新南威尔士大学硕士生 研究方向|NLP.可解释学习 论文标题:Hierarchical Entity Typing via Multi-leve ...

  6. 深入浅出排序学习:写给程序员的算法系统开发实践

    引言 我们正处在一个知识爆炸的时代,伴随着信息量的剧增和人工智能的蓬勃发展,互联网公司越发具有强烈的个性化.智能化信息展示的需求.而信息展示个性化的典型应用主要包括搜索列表.推荐列表.广告展示等等. ...

  7. 【代码+论文】基于自适应排序学习的个性化推荐方法

    题目: Adaptive Pointwise-Pairwise Learning-to-Rank for Content-based Personalized Recommendation 论文地址: ...

  8. 推荐系统中的排序学习

    " 本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART.因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检 ...

  9. 【论文阅读】【逐字翻译】 爱丁堡大学IEEE TPAMI 2021年最新元学习综述 《Meta-Learning in Neural Networks: A Survey》

    开个新坑,长期,不定时更新-一 一+ 原文:Timothy M Hospedales, Antreas Antoniou, Paul Micaelli, Amos J Storkey. Meta-Le ...

  10. ZippyPoint: 一种基于学习的特征点提取+二进制描述子,速度提升5倍+,为移动平台提供一种ORB的替代方案...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Realcat 来源丨 计算机视觉SLAM 作者来自ETHZ Computer Vision实验 ...

最新文章

  1. Nature子刊:三代Nonopore测序数据耐药性分析软件NanoOK RT
  2. 深思:如何堂堂正正的做事
  3. 深度解析使用CSS单位px、em、rem、vh、vw、vmin、vmax实现页面布局
  4. 最长递增子序列的个数Python解法
  5. 解决SecureCRT与SecureFX中文乱码问题
  6. 字符串在编号查询中的应用示例及常见问题.sql
  7. Android用户界面
  8. codeblock异常关闭,重新开机,启动时提示有另外的实例在运行的解决办法。
  9. 铁大自动选课工具使用说明
  10. 腾讯、京东、滴滴、字节跳动……15个大厂在数据治理和数据分析上的真实案例
  11. ESPHome 和 Home Assistant传感器之TMT6000 环境光握手
  12. 伺服电机脉冲控制的多种方式(AB相脉冲,方向脉冲,CW/CCW脉冲)
  13. shineblink LD3320A语音识别
  14. Android 10.0 Launcher3 抽屉式(双层)app列表排序
  15. 吴恩达——机器学习 局部加权回归(Loess)
  16. 模型动态测试工具 TPT 18更多新特性——HiL测试、需求管理
  17. 开源好物分享!文档在线预览平台
  18. 实战:“小打卡”小程序从创意到上线完整开发过程解析
  19. 都在讲降本增效,优化师如何借力“卷起来”?
  20. 洛谷 P1220 关路灯(DFS)

热门文章

  1. dqpsk的matlab,基于MATLAB的理想_4_DQPSK系统仿真.pdf
  2. 说说大型高并发高负载网站的系统架构
  3. C#的6种常用集合类大比拼
  4. Bootstrap入门!
  5. 思科:多款主流信息传递应用程序易遭到会话劫持
  6. MFC可编辑CListCtrl
  7. expect实现自动通过堡垒机登陆
  8. Java中静态代码块、构造代码块的区别
  9. m 940 /vbulletin/_爱在当下 MM 伴你纵享别样万圣之夜
  10. OpenCV-图像处理(05、图像混合)