2021-09-13排序学习的特征

2.1 排序学习的基本介绍 2.1.1 排序学习的原理建立传统搜索排序模型的主要途径是靠人工不断实验开发，以确定具有相关性打分功能的函数的参数组合方式。而基于机器学习的排序学习算法则做出很大的改进，排序学习算法中的最终排序公式由机器通过自动学习获得，而人则只需要给排序学习算法提供相关的训练数据。排序学习是有监督学习的过程，包括训练阶段和测试阶段，机器学习排序系统由4个步骤组成：数据集获取、训练排序模型、测试集测试、应用机器学习模型，其中最重要的是第二步，构造一个可以正确反映文档与检索词相关度的排序模型。排序学习模型结构图如图2.1 所示。

图2.1 排序学习系统框架从图2.1可以看出，典型的排序学习模型由两个部分组成：学习系统（Learning system）和排序系统（Ranking system）[32]。排序学习算法通过学习系统从训练数据中得到最优排序模型，即学习排序模型使损失函数的值被降到最低。再经由排序系统，用训练出来的最优排序模型对测试集进行排序预测，要求测试样本的损失函数值低于设定的最低目标值。一般都有指定的评价指标来判断模型的优劣。

2.1.2 排序学习的数据集数据集的获取主要分为两大类，包括人工标注和搜索日志。首先，人工标注训练数据是

2.1.3 排序学习的特征

机器学习模型会根据观察到的特征值（Feature）进行预测，给出预测结果或者目标（Prediction），所以对文档特征的提取十分重要，因为不同的特征向量会导致预测结果的不同[33]。文档的特征可以分为三大类：

文档本身的特征、

检索词-文档的特征、

检索词的特征。

文档本身的特征主要包括Pagerank值[34]、内容丰富度、是否是spam、质量值、CTR等。检索词-文档的特征主要包括检索词和文档的相关性、检索词在文档中出现的频率，检索词的 Proximity值（即在文档中多大的窗口内可以出现所有査询词）等。而且，有些检索词-文档的特征不是显式的，而是有Semantic的，即虽然检索词在文档中没有出现，但是语义上是有关系的。检索词的特征主要包括Query在所有Query 中的出现次数、比率等。本文采用的是 Microsoft的数据集，包含46个特征。提取特征时需要计算单词权重，最基础和重要的方法是TF-IDF算法。TF意为词频统计，不同文档间的差别是最有价值的词语的不同，最有价值的词语就是指在文档中出现的次数最多，在其他文档中出现的次数少，因此引入TF，计算词频。IDF意为逆文本频度，一个单词出现的文档数越少，它区别不同类别文档的能力就越强。TF和IDF的乘积作为特征空间坐标系的取值测度，使用IDF作为权重乘以TF，实现对单词权重的调整，调整权值的目的在于突出重要单词，抑制次要单词。现在排序系统对检索词-文档都提取较多特征，例如Google搜索引擎目前考虑200多个特征因子，包括：PageRank、HITIS、TFIDF、BM25以及用户点击数据。随着互联网技术的不断发展，工业、医疗、教育等领域产生了大量新的数据，对于特征的选择也越来越重视，被广泛的研究和应用。特征的选择可以根据学习算法的不同分为三大类[35]：过滤式（Filter）、封装式（Wrapper）、嵌入式（Embedded）。

2.1.4 排序学习的损失函数

损失函数[57]一直是各种学习排序算法的核心，损失函数的功能是用来衡量学习排序模型的预测值和真实值之间的差异程度，若差值为0，则代表没有损失，损失函数越小，模型的鲁棒性就越好。为使损失函数值达到最小，最常用的方法是梯度下降法。损失函数基本可以分为分类损失（Classification Loss）和回归损失（Regression Loss）。

2021-09-13排序学习的特征相关推荐

实习日志（2021.09.13）
2021.09.13星期一今天把之前的算法题终于给弄明白了,并能够按照自己的思路去把他给完成,总结这个题目并不是很难,最重要的是要把链表给弄懂,一开始由于我对链表不是很熟悉,导致我在写该题目的时候花 ...
2021.04.13 html学习第一天
** html学习笔记20210413 ** 1.什么是软件? 软件----计算机系统或手机运行起来程序[应用程序],为我们的生活带来方便. 2.一个软件是由那些部分组成? 1.界面-提供操作 2.逻 ...
哔哩哔哩“2021.07.13 我们是这样崩的”报告的学习-1
哔哩哔哩"2021.07.13 我们是这样崩的"报告的学习-1 这份报告是我学计算机两年来第一次真实看到大厂的员工到底在干什么.出现了很多专有名词,以及当前最先进的互联网企业的应用 ...
【推荐系统】推荐系统中的排序学习
" 本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART.因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检 ...
ACL 2020 | 基于多级排序学习的层次化实体标注
©PaperWeekly 原创 · 作者|龚俊民学校|新南威尔士大学硕士生研究方向|NLP.可解释学习论文标题:Hierarchical Entity Typing via Multi-leve ...
深入浅出排序学习：写给程序员的算法系统开发实践
引言我们正处在一个知识爆炸的时代,伴随着信息量的剧增和人工智能的蓬勃发展,互联网公司越发具有强烈的个性化.智能化信息展示的需求.而信息展示个性化的典型应用主要包括搜索列表.推荐列表.广告展示等等. ...
【代码+论文】基于自适应排序学习的个性化推荐方法
题目: Adaptive Pointwise-Pairwise Learning-to-Rank for Content-based Personalized Recommendation 论文地址: ...
推荐系统中的排序学习
" 本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART.因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检 ...
【论文阅读】【逐字翻译】爱丁堡大学IEEE TPAMI 2021年最新元学习综述《Meta-Learning in Neural Networks: A Survey》
开个新坑,长期,不定时更新-一一+ 原文:Timothy M Hospedales, Antreas Antoniou, Paul Micaelli, Amos J Storkey. Meta-Le ...
ZippyPoint: 一种基于学习的特征点提取+二进制描述子，速度提升5倍+，为移动平台提供一种ORB的替代方案...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨Realcat 来源丨计算机视觉SLAM 作者来自ETHZ Computer Vision实验 ...

2021-09-13排序学习的特征

2021-09-13排序学习的特征相关推荐

最新文章

热门文章