Scientific Paper Recommendation: A Survey

摘要

在全球范围内,推荐服务已经变得非常重要,因为它们支持电子商务应用和不同的研究社区。推荐系统在经济、教育、科研等领域有着广泛的应用。不同的实证研究表明,在从海量数据中提取有用知识方面,推荐系统比基于关键词的搜索引擎更有效、更可靠。在科学界推荐同类科学论文的问题称为科学论文推荐。科技论文推荐旨在推荐符合研究者兴趣的新文章或经典文章。由于学术论文的数量呈指数增长,它已成为一个有吸引力的研究领域。本文首先介绍了论文推荐系统的重要性和优点。其次,对基于内容的推荐方法、协同过滤方法、基于图的推荐方法和混合推荐方法进行了综述。然后介绍了不同推荐系统的评价方法。最后,我们总结了论文推荐系统中存在的问题,包括冷启动、稀疏性、可扩展性、隐私性、偶然性和统一的学术数据标准。本研究旨在提供学术论文推荐的综合评论。

索引项

推荐系统,科技论文推荐,推荐算法

1.简介

科技界引入临时管理系统,以有效地检索信息[3]、[12]、[13]、[14]、[15]、[16]、[17]。在

电子推荐已经成为学术界研究的一个日益重要的课题,推荐系统能够为论文提供稳定的信息,改变了论文之间的交流方式帮助研究人员快速找到他们需要的论文研究重点[19]。目前,论文推荐系统已经成为学术界不可或缺的工具。其推荐算法不断更新。随着时间的推移,建议的准确性正在提高。与传统的基于关键词的搜索技术相比,推荐系统对于海量数据更具个性化和有效性[10]、[12]、[20]、[21]、[22]、[23]。基于关键字的搜索结果并不总是合适的,而且项目数量相对较大[24]。研究人员必须过滤搜索结果以获得所需的项目。对于不同的研究者,如果他们输入相同的查询,他们可以得到相同的搜索结果。因为基于关键字的搜索技术没有考虑用户的不同兴趣和目的。此外,一些研究人员不知道如何总结他们的需求,导致输入不适当的关键字。相比之下,论文推荐系统通常会考虑研究者的兴趣、合著者关系和引用关系来设计推荐算法和提供推荐列表。需要注意的是,推荐结果通常是研究人员感兴趣的不同主题。结果的数量可以短而可控,以确保推荐系统的个性化和有效性。

自从推荐系统被引入以来,出现了许多推荐算法[25],[26]。推荐技术可分为四大类:基于内容的过滤(CBF)、协同过滤(CF)、基于图形的推荐方法(GB)和混合推荐方法。每种方法都有自己的基本原理,可以为研究人员推荐有趣的文章[25],[27]。CBF主要考虑用户的历史偏好和个人库,提取并建立用户兴趣模型,称为用户档案[10]。然后CBF从候选论文中提取关键词,并计算从用户档案中提取的关键词与候选论文的相似度。相似度排序后,将相似度较高的论文推荐给用户。CF主要关注与用户的“邻居用户”相似的其他用户对项目的操作或评分[28]。用户过去也有类似的兴趣,将来可能也会同意。有许多关于图形化方法的研究[29]。以往的研究都是以作者和论文为节点构造图。论文之间的关系、用户之间的关系以及用户与论文之间的关系被视为边缘。然后利用随机游走或其他算法计算用户与论文之间的相关性。对于混合方法,由于两种方法各有优缺点,推荐系统通常采用基于内容的过滤和协同过滤方法生成推荐。基于内容的过滤和协同过滤是相辅相成的,两者相结合的推荐系统通常比只运行一个推荐算法的推荐系统更准确。除了上述三种方法外,还有其他一些论文推荐技术:潜在因素模型[30]和主题回归矩阵分解模型[31]。

图1:科技论文推荐的主要内容。

本次调查的主要贡献包括:

1) 常用科技论文推荐方法分类。

2) 论文推荐系统评价指标的深入分析。

3) 总结论文推荐系统存在的问题和挑战。

图1显示了本文的主要结构,包括推荐方法、评估指标和开放问题。第二节讨论了现有的推荐方法及其研究现状,如内容库过滤、协同过滤、基于图的推荐方法和混合推荐方法。第三节详细介绍了推荐系统的评价指标。第四节总结了现有论文推荐系统存在的问题和挑战,包括冷启动、稀疏性、可扩展性、隐私性、偶然性和统一的学术数据标准。在第四节中,我们对本文进行了总结。

2.论文推荐方法

在本节中,我们将概述和讨论论文推荐方法的基本原理、优点、缺点和应用。

2.1基于内容的过滤(CBF)

作为一种传统的推荐方法,CBF的原理很简单。CBF方法推荐的项目与用户感兴趣的项目相似[32]。项目和用户之间的信息匹配是关键过程。在论文推荐系统中,项目是数字图书馆中的论文,用户是研究者。在CBF方法中,首先收集研究者的论文。引用研究者的论文或其他信息可以用来建立他的个人资料。根据我们的统计数据,有很多方法可以建立研究人员的档案。例如,研究人员的偏好和兴趣可以通过从研究人员的研究领域中提取关键字来表示。此外,论文推荐系统可以从论文的标题、摘要和内容中提取关键词来表示这些论文。这些候选论文可以从数字图书馆中检索。论文推荐系统然后计算研究者简介和候选论文之间的关键词相似度,并对它们进行排序。以下是推荐给研究者的具有高度相似性的候选论文。

根据基本原理,我们可以发现CBF的一些优点。CBF系统提取论文信息并进行比较。如果论文与研究者的兴趣有关,就会被发现。此外,与基于关键词的搜索引擎相比,CBF通常考虑当前研究者的兴趣,不涉及其他研究者。如果研究者的兴趣改变,推荐的结果列表将来也会改变。图2示出了基于内容的推荐系统的一般结构。从图2中我们可以看到CBF的推荐过程包括三个主要步骤:项目表示、概要学习和推荐生成。

图2:基于内容的论文推荐系统。

2.1.1 项目表示

*项目表示法。*在实践中,项目通常需要一些特殊的属性来区分彼此。这些属性可以分为两大类:结构化属性和非结构化属性。对于结构化属性,属性的值是有限的和特定的。对于非结构化属性,属性值往往意味着不太清晰。因为它的值是无限的,不能直接用来分析。例如,在交友网站上,一个项目是一个人,他具有结构化属性,如身高、教育经历、出身,以及非结构化属性,如朋友声明、博客内容。结构化数据可以直接使用,使它们更易于管理和使用。另一方面,非结构化数据(如文章内容)在被采用之前通常需要转换为结构化数据。在论文推荐方面,论文的整体结构是相似的,但内容是无限的,每个作者都有自己的写作风格。

为了表示所有的论文并计算它们之间的相似度,我们需要将论文的内容转化为结构化项目。自从论文推荐系统被提出以来,已有许多项目表示方法,如TF-IDF模型[33]、关键词抽取模型[34]、语言模型等。

TF-IDF模型(术语频率逆文档频率)经常用于信息检索和文本挖掘[33]。TF-IDF值是一种统计度量,用于评估集合或语料库中单词对文档的重要性。TF-IDF模型的基本思想分为两个方面。一方面,关键字K在文档D中出现的次数越多,K对文档D的重要性越大;另一方面,K在不同文档中出现的频率越高,K对文档区分的重要性越小。方程定义如下[18]:

​ (1)

其中(tk,Prec)是论文中关键字的出现频率,是候选集中的论文计数,(tk)是关键字的出现频率。tf公司塔卡p**不测向塔卡

CBF使用TF-IDF模型计算每篇候选论文的特征向量[18],[27]。这些向量可以决定一篇研究论文与研究者的问题有多相关[35]。定义为:(2)

其中是论文中不同项的数目,(k=1,2…m)表示每个项,每个论文的两个向量用作不同的输入查询。该模型在CBF推荐系统中非常流行,许多研究者在研究中采用了一种改进的模型。一些研究人员意识到,当我们阅读一篇论文时,我们可能会对论文中出现的问题或问题的解决办法感到好奇。因此,他们使用TF-IDF模型、主题模型和基于概念的主题模型来计算相似度,找到与用户问题相关最多的论文和与解决方案相关的论文,分别满足研究者特定的阅读目的[36]。米塔卡

除了TF-IDF模型外,还使用了一个关键短语(通常由一到三个单词组成)提取模型来生成对论文内容的丰富描述[37]。关键字列表是一个简短的关键字列表,它反映了一篇论文的内容,捕获了主要讨论的主题,并提供了其内容的简要摘要。在这个模型中,

通过不同的向量:,和,分别[38]。向量是从论文的“关键字”部分提取的。如果论文没有“关键词”部分,分析系统会将最合适的代表性词语作为所需的关键词[39]。

2.1.2 概要学习

*简介学习。*CBF推荐系统假设研究人员根据个人兴趣对某些项目和发表的论文进行了“喜欢”或“不喜欢”的评价。这一步的目标是根据研究人员的历史行为生成剖面模型。由于研究者简介通常包括研究者的研究方向,系统可以通过此模型确定研究者U是否喜欢新项目[40]。

很明显,研究者简介应该依赖于研究者提供的信息。构建用户配置文件有多种方法。以前的研究人员通过LDA算法从研究人员过去的出版物中提取混合主题来构建用户配置文件。向量

五**摘要, 五**标题, 五**关键词都是从论文中提炼出研究者的历史行为来建立档案的。如果研究人员在将来发表或评价新的论文,用户档案可能会被更新。

基于标签的信息系统使用一个名为用户偏好爬虫的组件来抓取用户偏好数据。用户档案由每个用户发布的论文和用户发布的一组标签构成[33],[41]。类似地,关键短语提取模块可以利用研究人员标记的标签和文档集来构建用户配置文件[42]。

为了促进推荐系统的个性化,可以区分发表少量论文的初级研究人员和发表大量论文的高级研究人员[18],[27]。在TF-IDF模型中,首先利用TF定义特征向量。其定义与式(2)相同。](3)

哪里*是文件中不同术语的编号,定义如下:
(4)

其中(tk,p)是论文中术语的频率。在得到论文的特征向量后,将用户配置文件的构建分为两类:初级研究人员和高级研究人员。对于只有一篇论文的初级研究人员,用户档案的构建将增加被引用论文的贡献。对于过去发表过多篇论文(i=1,…,n−1)的资深研究人员,用户档案将添加引用论文的贡献和参考文献列表。这种方法使得高级和初级研究人员的资料更加具体。

所有这些简介学习方法都是依靠研究人员的历史记录或行动。在一些推荐系统中,他们将研究者提供的论文作为建立用户档案的输入[43],[44]。论文提供后,将从论文的题目、引言、相关工作、结论、参考文献等部分提取出系统所需的信息,确定用户概况。此外,为了满足用户特定的阅读目的,有时会将摘要分为问题描述和解决方案描述两部分,这样系统就可以分别从两个方面推荐论文[36]。

此外,还有其他一些形式来表示用户配置文件。Docear是一个推荐系统,其独特的特点是利用思维导图进行信息管理[45]。Docear的用户将他们的数据组织成一个树状的数据结构,并从用户的思维导图集合中建立用户模型以与数字图书馆相匹配。Docear推荐系统有一个名为UserInterface的组件,用于与用户联系并收集论文的标题、作者姓名、域和主题。然后Docear推荐系统收集数据,以XML格式存储在用户配置文件中,包括域、主题和关键字[39]、[46]、[47]。

2.1.3推荐生成

*建议生成。*构建候选论文的表示和研究者的简介,以选择与用户最相关的项目。研究者属性与论文属性的相关性可以通过余弦相似度等相似度度量得到。给定属性A和B的两个向量,余弦相似度可按以下公式计算[33]:

​ (5)

论文推荐使用用户配置文件向量和候选论文的特征向量,这些向量在计算和的余弦相似性之前已定义,并使用公式5[18]。

以前的一些研究不仅为研究者提供了最相关的论文,也为来自遥远领域的论文提供了偶然的推荐[27]。这个偶然的建议有助于研究者发现新的想法、方法或思维方式。在偶然推荐研究中,研究者为每个研究者构建一个基本的用户配置文件来推荐相关的论文,并使用该用户配置文件来构建另一个用户配置文件,然后计算(Pand),(Pand)之间的余弦相似性来生成推荐。该建议的结果有两个列表:相关论文和无关论文。*

在计算用户档案和候选论文的相似度后,生成结果列表。推荐系统的最后一步是按照一定的顺序对它们进行排序。最后列出的顶级论文将推荐给研究员。在对候选论文进行排名时,有时会考虑引用它们的论文数量[48]。

随后,研究人员可以使用这个推荐系统找到他们感兴趣的论文。但是CBF推荐系统还存在一些问题。一方面,CBF的分析技术仅仅建立在词汇分析的基础上,没有考虑到权威性、风格性等特征。另一方面,还有新的用户问题。如果一个没有太多研究经验的初级研究人员使用这个系统,这个系统可能运行得不太有效。

因为它无法从用户的工作中提取足够的信息,所以推荐的列表可能不可靠[49]。

2.2协同过滤(CF)

与CBF的推荐技术一样,CF需要了解用户的兴趣,这对于推荐相关论文尤其有效,即使没有基于内容的特征[50]。CF的基本思想是,如果用户对一些常见的项目进行评分,他们的兴趣将被认为是相似的。如果用户的记录中存在某些项,但用户的记录中不存在这些项,则可以向用户推荐这些项。换句话说,CF是利用其他用户的意见推荐项目的过程[51]。评分或意见可以从CiteULike等社会参考管理网站获得,也可以要求用户填写问卷[52]。

协同过滤系统通过考虑对等用户的评分历史并找到相似的用户来定位对等用户。然后CF使用邻域生成推荐。CF推荐系统通常需要一个useritem矩阵来表示用户对项目的评价或评论。评分可以用来代表用户的兴趣。在构建矩阵后,系统会计算用户之间的相似度,找到相似的用户称为“邻居用户”来推荐项目。用户项目矩阵如表1所示,矩阵中的元素是用户的评分。在这个矩阵中,比率是0和1,比率可以使用更多的数字来表示不同程度的喜欢或不喜欢。协同过滤系统的总体结构如图3所示。

表1:用户项目矩阵

项目1 项目2 项目3 项目4 项目X
用户1 0 1 0 1 1
用户2 1 1 0 0 0
用户3 1 0 1 1 0
尤里 1 0 0 1 1

图3:论文推荐的协同过滤系统。

与基于内容的过滤方法相比,CF有一些不同的优点:不考虑推荐论文的内容,因为推荐方法依赖于用户的评分,不考虑他们属于哪种项目。此外,推荐给用户的项目可能与用户当前的研究无关,因为相似度是在用户之间的关系中度量的。

CF主要包含两类方法[53]:

\1. 基于用户的方法:在基于用户的方法中,用户是中心。推荐系统使用其他类似用户的配置文件来推荐[54]。基于用户的CF查找用户的最近邻居。根据邻居的兴趣,预测用户的兴趣[54]。通常,在基于用户的系统中,用户被分成若干组,同一组中的用户对某些项目有相同或相似的兴趣。基于同一组用户的评分,推荐系统对用户进行推荐。

\2. 基于项目的方法:基于项目的方法主要关注论文之间的关系,而不是用户之间的关系[55],[56]。在基于项目的方法中,假设用户的兴趣是连续的或者在未来变化很小。如果用户对某些项目给予了肯定的评价,推荐系统可以通过分析用户的评价历史来收集候选项目。然后,推荐系统通过对相似项目进行聚类来推荐项目。

根据用户的不同需求,上述推荐技术可以收集必要的数据并推荐论文。CiteULike的元数据可以用来运行CF推荐算法,它包含了许多用户及其在论文上的独特标签[57]。推荐算法经典而简单:在基于用户的过滤中,将目标用户与采集到的数据进行匹配,找到具有相似记录的邻居。一旦找到邻居,所有邻居历史偏好的论文都将作为候选推荐给目标用户。在基于项目的过滤中,系统通过匹配目标用户的历史记录来推荐论文。

对于基于用户的CF,两个用户之间的相似度是通过他们共同项目的评分来计算的[58]。公式如下:

其中是评分,是目标用户和相邻用户,表示用户对项目的评分,¨是用户对其所有项目的平均评分。显示用户和用户之间的公共项集。通过对目标用户的预测评分进行排序,将邻居用户的文章推荐给目标用户。为了找到合适的邻居,通常要加上社会关系。在找到最近的邻居之后,下一步是预测目标用户对项目[51]的评分。预测公式如下:

对于给定的用户项矩阵,矩阵分解模型在协同过滤推荐系统中起着重要的作用[31]。利用矩阵分解模型预测候选论文的评分。

基于用户的CF算法推荐社会标签系统中的论文[58]。研究人员将基于用户的协同过滤过程总结为两个步骤:第一步是找到目标用户的邻居,第二步是使用邻居对项目进行排序,然后为用户推荐排名靠前的项目[58]。为了提高推荐结果的质量,对这两个步骤进行了改进[59]。在查找邻居步骤中,使用基于25的相似度来获得目标用户的邻居[60]。在排名项目步骤中,使用加权协同过滤(NwCF)模型计算预测评分。该方法在原有方法的基础上,考虑了评分员的数量,表示为(i)。新的预测评级通过以下公式计算:

此外,学术论文是通过朋友、研究熟悉度等社会关系推荐的[61]。此外,推荐学术论文通常考虑用户的个人资料、群体资料以及用户之间的社会关系。例如,采用一种基于民族学的方法将二者结合起来进行推荐,解决了研究人员在会议和期刊上找不到相关学术论文的问题[62]。

与基于用户的方法类似,基于项目的协同过滤包括两个步骤:相似度计算和预测生成[63]。第一步,利用目标项目与目标用户评价的项目集的相似性,如余弦相似性、主题相似性,为候选项目集寻找最相似的项目。在第二步中,在得到最相似的项目之后,预测将由目标用户对这些相似项目的评分的加权平均来计算。

为了保证结果的相关性,提出了一种改进的基于项目的协同过滤系统,根据目标用户的评分来推荐论文。推荐的论文不仅与目标用户感兴趣的目标出版物相似,而且在目标用户的关系中也很受欢迎[28]。在这个系统中,研究人员首先找到与目标用户交换和共享书目参考的目标用户的联系。然后利用词的相关系数确定与图书馆目标论文相似的候选论文。最后,系统向目标用户推荐排名最高的分数。

通过对CF论文推荐技术的概述,可以看出CF是一种流行的推荐方法。但由于CF的自然特性,它仍有一些缺点,其中最明显的缺点就是冷启动问题。对于没有评级的新项目,只有在有人对其进行评级后才能推荐。对于对任何项目评分较少的新用户,其评分历史记录为空,系统无法找到类似的邻居,直到他/她获得足够的评分。为了克服CF中存在的问题,研究者们提出了其他一些推荐技术,如基于图的推荐方法和混合推荐方法。

2.3 基于图形的方法(GB)

顾名思义,基于图的方法主要关注图的构造。该图可以由引文网络、社会网络等构成。研究者和论文是图的不同节点。研究者之间、研究者与论文之间、论文与论文之间的关系可以看作是节点之间的边。然后利用图上随机游走等算法,为研究者找到相关论文。GB的优点是可以使用不同来源的信息进行推荐。CB,CF只使用一种或两种信息。GB可以将研究者之间的社会关系、信任关系加入到推荐系统中,使推荐结果得到改善。

在基于图的模型中,我们首先需要收集研究人员和论文的数据。然后系统用异类图(V,E)表示,其中=VU∪VP代表系统中的研究者,是研究者发表或引用的一组论文。对于每个元组(U,P),都存在一条边。有一个简单的基于图的模型,如图4所示。此外,在一些基于图的推荐系统中,还存在(vu,vu),(vp,vp)等边,这意味着它们考虑了研究者之间的关系,此外,它们还考虑了论文之间的关系。在基于图的模型中,论文推荐活动将转化为图搜索任务[64]。

图4:一个简单的基于图形的模型。

在图4中,代表系统中不同的研究人员,代表他们发表的论文。左边是我们从数字图书馆收集的研究者行为数据。研究者发表论文,论文和论文,可能的研究者发表论文和论文。我们利用这些研究者的行为数据来构建正确的网络。在得到研究者和论文的两部分图之后,推荐系统的任务可以转化为计算未连接的用户顶点和论文顶点之间的相关性。许多论文提出了许多算法,向研究人员推荐相关论文[25],[65]。

基于图的推荐系统的推荐过程可以概括为两个步骤:图构造和推荐生成。

图形构造。现在许多数字资料被用来阅读和分享给人们。对于学术研究,研究人员阅读和搜索一些数字图书馆的相关论文,如ieeexplore和CiteULike。研究人员可以从上述网站上收集用户和论文的数据来构建图表。

例如,研究人员与论文之间的关系意味着研究人员对该论文感兴趣。矩阵用来表示研究人员对等式(8)所示的文章感兴趣。是一组研究人员。是一套文章常见的作者关系也被添加到基本图[12]、[66]、[25]中。对于文章之间的共同作者关系,引入另一个矩阵来表示两篇文章之间是否存在作者关系艾岛*并具有等式(9)所示的共同作者。

在得到上述两个矩阵之后,它们将被转换成一个图,以便进一步处理。
(VR∪VA,ERA∪EAA),其中⊆VR×VA和⊆VA×VA.和是研究人员和论文的顶点集,类似地,表示研究人员和论文之间的利益关系集。表示常见的作者关系。如果(i,j)等于1,研究者和论文之间存在一条边。类似地,如果(i,j)等于1,则论文和文章之间有一条边。可以建立具有合著者关系的混合图,用于生成推荐。
另一种称为“双关系图(BG)”的异构图可用于推荐论文[67]。BG类似于上述图表,它还包括研究人员和论文。此外,BG包含论文相似度子图、研究者相似度子图和连接研究者和论文的二部图。

上述异构图包含两类顶点:研究者和论文。此外,还有另一种图:引文图(网络)。引文图包含论文和论文之间的引文关系。节点代表引文网络中的不同论文,边代表论文之间的引文关系。引文图表的基本思想是,如果两篇论文有共同的参考文献或被一篇论文引用,则认为它们是相似的[68]。因此,可以通过分析引文网络的结构来提出建议。

基于引文网络,推荐系统可以向用户推荐论文[65],[69]。让所有论文as=p1,p2,···,pn构建引文图。是的子集,表示¨引用的所有论文。中的论文与论文相关。如果中的一篇论文与中的一篇或多篇论文相关,则会向用户推荐论文。基于相似的思想,提出了一种利用引文网络和基于内容的算法推荐论文的方法[70]。在加权异类图中,研究者使用TF-IDF模型将作者部分替换为包含从每篇论文中提取的关键项的关键项图。两两论文之间引用关系的权重是两个向量和两个向量的余弦相似性。TF-IDF得分是关键项对文章的权重,两项的相似度是边缘的权重。

此外,作者之间的合作作者关系可以添加到引文网络中。这个图表被称为引文协作网络。它有三种不同类型的链接,代表不同的关系:引用关系、协作关系和作者-论文关系[71]。

以上介绍了图形构造的主要形式。还有一些其他类型的图用于生成相关论文给研究人员或从候选论文中得到给定的论文,如概念图、中心权威图[29]、[72]、[73]。

建议生成。基于图的论文推荐系统中的算法通常不考虑论文内容的特点和研究者的个人资料。原因是它们不适合作为图的节点进行学术推荐。在图中,研究人员和论文代表了这两种节点。论文推荐系统利用图的结构信息来查找相关论文。

带有重新启动算法的随机游走可用于对文章进行排序[12]、[66]、[25]、[67]。传统随机游动的基本原理是,随机游动器用于从一个或一系列顶点遍历图,其概率为游动到当前顶点的相邻顶点,随机跳到图中任何顶点的概率为1−a。每次行走都会给出一个概率分布,表示图中每个顶点被访问的概率[74]。这个概率分布被用作下一次行走的输入,并迭代地重复这个过程。当满足一定的前提条件时,分布趋于收敛。带重启的随机游动算法是在随机游动算法的基础上进行的改进。很可能当漫游者从图中的一个节点开始时,它有移动到当前顶点的相邻顶点的概率,以及返回源顶点的概率1−a。二部网络使用随机游走和重新启动算法来计算论文的排名[25]。一一

此外,跨域推荐系统有时使用随机游走模型。例如,在跨域推荐系统中,他们使用随机游走为目标用户寻找相似的用户[75]。在这项研究中,研究人员首先利用社交关系在用户之间建立网络。对于目标用户,假设他们倾向于接受来自兴趣相似的朋友的推荐。因此,采用随机游走模型得到相似用户。然后系统预测最相似用户的评分。最后生成推荐列表。跨域推荐系统旨在建立源域和目标域之间的关系,从而缓解冷启动和稀疏性问题[76],提高推荐结果的质量。

PaperRank广泛应用于推荐系统中,用于计算引文网络中论文之间的相关性[69]。PaperRank是PageRank模型的扩展,考虑到论文之间的间接关系,对科学论文进行评价[77]。以往的引文分析方法比较简单:ISI期刊影响因子仅对发表论文的引文频率进行平均,并返回期刊的排名表[78]。引用论文的数量用于根据直接引用关系的数量对论文进行排名[79]。PaperRank算法的基本原理是使用论文替换PageRank中的页面[80]。每个PageRank值都可以通过以下公式计算:

其中,···,PN为引文网络中的论文,(Pi)为论文的PageRank值(即论文的排名分数),(Pi)为论文的参考文献数,为阻尼系数,(Pi,Pj)为论文是否被引用的函数。如果被引用,则(Pi,Pj)等于1,否则(Pi,Pj)等于0。利用这种方法,可以表达出各篇论文的重要性。*

利用图的结构进行论文推荐是一种新颖的方法。GB主要使用节点之间的关系。

2.4混合法(HM)

为了提高推荐结果的准确性和获得更好的性能,一些科学论文推荐系统将两种或两种以上的推荐技术相结合,向研究者推荐个性化的论文[81]。HM的一个明显的优点是,HM可以使用不同的推荐技术和来自多个来源的信息的组合。在本节中,我们将介绍一些混合推荐技术。图5示出了使用基于内容和协作过滤方法的组合的混合论文推荐系统。

图5:混合论文推荐系统。

基于内容+协同过滤。基于内容的推荐方法和协同过滤方法各有优缺点。以前的一些研究试图将这两种方法以不同的形式结合起来,以更好地推荐论文,并克服它们的缺点,如第一流和稀疏性问题[10]、[82]、[83]。

有一个混合推荐系统使用基于内容的技术和协同过滤技术。基于内容的技术通过捕捉研究者在过去的出版物中体现的研究兴趣来建立研究者的形象。协同过滤技术旨在发现潜在的引文论文[83],[84]。论文推荐过程包括三个步骤。首先,研究人员需要利用TF方案从他/她发表的论文中建立用户档案。然后他们就来了-

采用TF-IDF方法,对每一篇候选论文进行特征向量的计算。他们发现N篇论文的余弦相似度最高。其次,对于这些论文,CF算法基于相似论文具有相似引文的思想,对论文引文矩阵进行运算,从而找到潜在的论文。引文向量与目标论文之间的皮尔逊相关系数用来衡量相似度。与目标文件相似度最高的文件将形成文件。最后,将计算内容的余弦相似性[10]、[85]、[86]、[87]。通过结合这两种方法,该系统比经典的推荐系统具有更高的性能。

在传统推荐技术的基础上,出现了一些改进算法,如CBF分离、CF-CBF分离和CBF-CF并行算法[88]。CBF分离算法是在纯CBF算法的基础上发展起来的。推荐了相关的论文目录,既可供目标论文参考,也可供参考。这些推荐列表被合并成一个单一的列表供研究人员使用。在CF-CBF分离算法中,首先利用CF方法生成推荐候选论文列表。CBF并行算法并行运行CF和CBF两种方法,通过排序函数将两种方法的结果列表合并生成推荐列表,确保结果列表的正确顺序。所有这些混合算法都被证明优于单一的推荐技术。

此外,还有一些特殊的混合方法,如潜在因素协同过滤模型、概率主题模型[19]、扩散激活模型[89]、EIHI算法[90]、FP-growth算法[91]等,这些混合方法的性能都优于基线方法。

利用潜在因素模型进行协同过滤,根据与目标用户兴趣相似的其他用户的历史记录或兴趣推荐论文。此模型用于推荐已知论文[19]。传播激活模型用于基于内容的方法和基于用户的协同过滤方法,以发现与目标用户有相似兴趣的用户[89]。EIHI算法设计用于动态数据集,如不断增加的已发表论文的数字图书馆[90]。将EIHI嵌入到基于内容的论文推荐系统中,可以使推荐结果具有实时性和个性化。为了保证推荐论文的内容和质量,CBF经常被用来检索图书馆中所有可能的论文。采用多准则协同过滤的方法从CBF结果中筛选出高质量的论文[92]。

基于内容+基于图形。基于内容的推荐方法和基于图形的推荐方法相结合,可以获得比经典推荐方法更好的推荐效果。因为基于内容的方法可以从用户感兴趣的论文内容中获取用户档案。基于图的方法可以利用引文网络或二部图从图的结构中寻找更多的潜在候选论文。

基于内容的引用网络技术能够从数字图书馆推荐最相关的论文[93]。二部图包括两个层次:论文层将论文与引用关系联系起来。研究者层将研究者与他们的社会关系联系起来。特别地,为了提高推荐的准确性,提出了一种融合社会信息的混合文章推荐方法[94]。推荐方法包括三种类型的关系:(1)对于研究者和研究者来说,基本信任是研究者和研究者在他们的库中有重叠。(2) 如果研究者是研究者图书馆中一些论文的作者,那么研究者的价值就会增加。(3) 是研究者对研究者所掌握的专题知识的信任。候选论文(CP)来自于二部图的结构。推荐系统从当前研究者的图书馆中选择CP。在建立研究者形象的同时,区分了初级研究者和高级研究者。通过TF-IDF模型,用特征向量来表示高、初级研究者的兴趣,对论文内容进行分析。CP的排名将考虑CP的特征向量之间的相似性、研究人员的概况、CP所有者、当前研究人员之间的信任价值、CP的引用次数以及作者的声誉。

除了组合在一起,推荐方法还可以单独使用。基于内容的方法利用TF-IDF模型从候选论文中提取特征向量。相似度是通过计算候选论文与目标用户记录中论文的余弦相似度得到的。基于图的方法利用经典的引文网络运行BP算法和其他算法,获得用户的偏好,并向用户推荐优秀论文。混合方法使用上述两种方法的结果列表,并赋予它们不同的权重。假设是基于内容的方法的结果,是基于图形的方法的结果,混合结果计算如下:

我们可以看到,HM有许多不同的组合,它使用了许多技术。HM的目标是在克服缺点的同时,利用各种技术的优点来提高推荐结果的质量。HM最重要的问题是技术的有效结合。

2.5其他

除了前面提到的论文推荐方法外,研究人员还发明了一些其他的论文推荐技术,如改进的潜在因子模型[30]、hash映射[95]、书目耦合[96]等,本节将介绍一些新的论文推荐技术。

如混合推荐技术所示,潜在因素模型用于表示论文的内容。该模型使用用户项目矩阵、论文内容(标题、摘要)、属性(作者、发表年份)和社交网络作为输入。然后,该模型使用修改后的主题模型,包括内容和属性来表示用户和论文。根据用户向量、主题建模结果的论文向量和用户项目矩阵,采用矩阵分解法进行预测[97]。论文推荐结果列表来自预测评分最高的论文。似曾相识副总裁

事实上,在论文推荐领域,研究者的数量远远少于论文的数量。在构建引文矩阵或用户项矩阵时,有许多空元素。为了避免这一问题,采用非稀疏矩阵表示论文的引文图,局部敏感哈希(LSH)构造了论文引文的表示[95]。引文网络的传统和非稀疏矩阵表示的一个例子如表2和表3所示

表2:矩阵表示引用的论文。

第1页 第2页 P3页 第4页
C1类 0 1 0 1
C2级 1 1 0 0
C3级 1 0 1 1
补体第四成份 1 0 0 0
C5级 0 1 1 0

表3:表2的非稀疏矩阵。

第1页 第2页 P3页 第4页
C2级 C1类 C3级 C1类
C3级 C2级 C5级 C3级
补体第四成份 C5级

在表2中,矩阵的列表示引用的论文,行表示引用的论文。稀疏性来自于矩阵应该包含所有被引用的论文这一事实。对于每一篇被引用的论文,都有一个矩阵行,但是矩阵中的每一篇被引用的论文只引用了被引用论文的一部分。非稀疏矩阵如表3所示,表2和表3表示相同的引用关系:P1引用C2、C3和C4;P2引用C1、C2和C5。在非稀疏矩阵的每一行上,都有一个hash函数,相似性取决于这些函数。

此外,在科技论文推荐系统中还应用了其他一些技术来为科研人员提供服务。为了提高CBF方法的性能,将CBF作为预处理步骤[98],然后长短时记忆(LSTM)方法学习候选论文的语义表示[99]。最后,在结果列表中排名前N位的论文与输入论文具有较高的内容和语义相似度。为了帮助初级研究人员在线的经典论文,提出了两个原则(下载持久性和引文趋近)来判断一篇论文是否是经典论文,并推荐给初级研究人员[100]。提出了一种引用权限扩散(CAD)方法来识别关键论文[101]。多准则决策辅助[102]、[103]、书目耦合[96]、信念传播(BP)[92]等技术,[104]、深度学习[24]、典型相关分析(CCA)[105]、奇异值分解(SVD)[106]出现在一些研究中,以推荐论文。

2.6常用技术的比较

现在我们已经介绍了我们收集的论文中存在的所有推荐技术。给出了基于内容过滤、协同过滤和基于图的推荐方法的比较表。表4显示了CBF、CF和GM的优点和缺点。每种推荐技术都可以克服其他技术的缺点。CF can表4:常用技术的比较

技术 优势 劣势
基于内容 过滤 •每一篇论文都可以在com上找到- 计算相似性 •只考虑词语的相关性质量是不确定的
•结果与用户的个人 偏好 •新用户问题
协同过滤 •建议结果可能是 偶然的 •冷启动问题
•结果的质量可以得到保证 •稀疏性问题
基于图形的方法 •考虑推荐不同的来源 •不考虑论文内容和 用户兴趣

克服了推荐结果质量问题,但仍存在冷启动等缺点。为了综合这些技术的优点并避免缺点,这里介绍了混合方法。该混合方法利用CBF和CF来提高推荐系统的效率,同时利用CBF和GB来推荐论文。

3.评价方法

如第q节所述,科技论文推荐系统中使用了很多技术。所有这些都可以为研究者提供一些论文,这些论文与输入查询或研究者简介有关。推荐技术的提出越多,其评价方法就越重要[107]、[108]。评估指标的类型取决于推荐技术的类型[109]。评价方法的结果决定了该技术在推荐系统中的应用是否有效。在本节中,我们将回顾推荐系统中的评估方法。一些最常用的指标如表5所示。

表5:评价方法分类

从表5可以看出,和是我们所回顾的论文中最常用的评价方法。许多论文推荐系统使用多个指标来评估其推荐技术。除了表5中的指标外,本文中还有一些其他较少使用的指标,如,和,所有这些指标都将在本节末尾介绍。*精密度召回

精密度:用于衡量推荐系统向研究者推荐相关论文的准确性,公式为:

这个分数的值越大,表示推荐系统的推荐越准确。为了降低推荐结果中所有论文的统计复杂度,有一个修改版本@N[106]。

召回:它量化了推荐结果列表中整套论文中相关论文的分数。其方程式如下:

这个公式中的分母是固定的,因为图书馆中所有相关论文的数量是固定的。方程的值取决于推荐系统的排序算法。较大的值意味着推荐系统能够将最相关的论文排在结果列表的顶部。与之类似,修改版@m是排名前m的相关论文数。

F**级−措施:它考虑到这一点,并可能相互矛盾[25]。从他们的方程中我们可以看出,当推荐列表的数量变大时,可能会增长,而可能会下降。−measure将它们考虑在一起,并给出加权谐波平均值和:

由于和在[0,1]的范围内,高值意味着论文推荐系统更有效。

NDCG**公司(标准化贴现累积增益):用于评估给定排序推荐列表的质量[89]。为了计算结果中第篇论文的平均值,首先计算平均值:

其中是参与本论文推荐系统的用户集,| U |是中的用户数,是推荐给用户的论文数,是推荐论文在推荐列表中的位置,是一个常量值,表示用户从论文中获得的“收益”。基于以下定义:

用户从推荐论文中获得的收益取决于推荐论文的质量。如果用户认为该论文与他/她的研究非常相关,则增益较高,否则增益为0。最相关的论文最好出现在推荐名单的顶端。

地图(平均精度):它的发明是为了解决三个引入的指标的单点值限制:,和−measure。它将通过平均每个用户推荐结果的所有平均精度(AP)来计算[110]。定义为:

其中,对于用户而言,是相关论文的数量,是推荐列表中的论文总数,(Rk)表示从顶部结果到到达论文的检索结果的精度[10]。
map:它给出每个用户值的平均值:

其中是参与该推荐系统的用户总数。

MRR**公司(平均倒数排名):与类似,此指标用于确定已排序的推荐论文列表的质量。它只关注相关论文在推荐名单中的排名,并给出所有相关论文的平均值。定义是:NDCG**公司

其中表示目标论文的数量,是目标论文的排名。

这些指标可以从不同的角度对推荐系统的各种论文推荐算法进行有效的评价。这些指标受到推荐系统研究人员的欢迎。一个好的推荐系统必须在这些指标上获得高分。此外,还有一些评估指标很少应用于系统。

RMSE**公司(均方根误差):用于识别评级值与推荐系统生成的预测值之间的差异[55]。训练/测试集中的真值可计算如下:

式中,是真实评分值,ˆij是预测评分值,是测试集中的评分数。推荐值越低,推荐系统的预测能力越强。

(平均绝对误差):与此类似,此度量用于评估推荐算法所做预测的准确性[92],可通过以下公式计算:RMSE**公司

其中是预测次数,是论文的预测等级,是真实值。推荐系统预测评级的准确性越低。n**金融机构我彝语梅

UCOV**公司(用户覆盖率):由于推荐算法的性质,通常存在一些用户无法从推荐系统中获取有用信息,无法从系统中获取相关论文的情况。公式很简单:

其中是获得相关建议的用户数,是系统中所有用户的数量[110]。因此,一个好的推荐系统不仅对系统中的一类特殊用户有用,而且对大多数用户都有用。U**型0 U**型

4.未决问题和挑战

在前面的章节中,我们讨论了科技论文推荐系统的推荐方法和评价方法。虽然上述论文推荐系统可以通过运行自己的推荐算法为研究者提供一些有用的论文,但仍有一些问题需要解决和改进。在本节中,我们将讨论现有论文推荐系统的一些开放性问题和挑战,包括冷启动、稀疏性、可伸缩性、隐私性、偶然性和统一数据标准。

4.1冷启动

冷启动问题是推荐系统中新论文和新用户研究的重要课题[111]。一方面,如果推荐系统是基于纯协同过滤方法的,那么它们将受到新论文和新用户的挑战[112]。对于没有研究经验或很少对数字图书馆的论文评分的新用户,基于用户的CF无法准确地找到新用户的相似用户或邻居。对于一篇新发表在数字图书馆的论文,很少有研究者阅读和评价它。从这么多的论文中很难认出这篇新论文并推荐给合适的研究人员。另一方面,在基于内容的推荐系统中,研究人员利用内容分析来表示所有的论文,并计算论文与用户档案之间的相似度,克服了新的论文问题。但是CBF需要分析研究人员的历史记录,其中包含用户表示感兴趣的论文。如果CBF不能提取足够的有用信息来建立用户模型,那么推荐系统的结果就不可靠。

4.2稀疏性

在大多数推荐系统中,都假设用户数大于论文数或等于数字图书馆中的论文数。推荐算法能够有效地运行。然而,事实是,用户数量少于论文,即使是最受欢迎的论文也可能有几个收视率。在协同过滤方法中建立用户项目评分矩阵时,研究人员发现评分矩阵非常稀疏,评分太少,用户之间的相关性太小[113]。如果大多数论文的评分很少,而每个用户只对少数几篇论文评分,那么很难为用户找到相似的邻居。这是基于协同过滤的推荐系统最明显的缺点之一。

4.3可扩展性

在推荐系统中,可伸缩性的定义是系统是否有能力在用户和产品众多的环境中有效地工作。目前,数字图书馆的数据集非常庞大,其中的论文状态随着时间的推移而变化[111]。每天都有大量的论文和用户加入到数据集中。对于推荐系统来说,如何处理这些大而动态的数据集是一个挑战。传统的推荐方法如CBF和CF通常处理静态数据集,新的学习算法如EIHI可以处理动态数据集[90]。希望每个推荐系统都能克服可伸缩性问题。

4.4隐私

论文推荐系统旨在利用用户的个人信息,为用户提供个性化的论文推荐。随着推荐系统广泛应用于学术领域以解决信息过载问题[114],大多数个性化推荐系统都尽可能多地收集用户的信息。由于系统收集的信息通常包括用户希望保密的敏感信息,如果系统对用户了解太多,用户可能会产生负面印象[111]。如何充分、细致、细致地利用有限的数据对推荐算法进行改进是一个重要的课题。为了解决这个问题,一些安全的推荐系统被提出来保护用户的私人信息[40],[114]。

4.5偶然性

传统的论文推荐系统通常为用户提供与其兴趣或研究相关的论文[83]。事实上,不相关的论文可能对用户有一些好处。例如,初级研究人员需要阅读各种各样的论文,以拓宽他们的研究范围,找到最有趣的一篇。高级研究人员需要从其他领域找到新的知识来丰富自己的研究[27]。对用户的偶然推荐有时是有用的,但如果推荐系统的结果只有偶然论文而没有相关论文,用户可能会认为系统不可靠。基于协同过滤方法的系统具有提供偶然结果的能力,因为推荐算法不考虑论文内容,只使用“邻居”来推荐项目。

4.6统一学术数据标准

部分大型学术数据来自不同的学术平台,如google scholar、web of science和数字书目与图书馆项目(DBLP)。另一部分来自微软学术地图和美国物理学会(APS)等在线数据集。这些数据有自己的特点。例如,DBLP数据集不包含引文关系,APS数据集提供论文之间引文关系的列表。这些不同的数据类型给论文推荐系统的建设带来了巨大的挑战。在论文推荐系统中,统一大的学术数据标准是一项具有挑战性的任务。

5结论

推荐系统在信息检索和过滤中起着重要的作用。本文综述了学术领域的科技论文推荐系统。首先,我们将科技论文推荐系统按其推荐技术分为四类:基于内容的过滤、协同过滤、基于图形的方法和混合方法。通过分析,我们发现基于内容和混合方法是论文推荐系统中最常用的技术。对于每一种技术,我们研究其基本原理、优点、缺点和应用。其次,介绍了论文推荐系统的评价指标:查准率、召回率、F-measure、NDCG、MAP、MRR、MAE和UCOV。最后,本文讨论了未来需要解决的开放性问题和挑战,包括冷启动、稀疏性、可扩展性、隐私性、偶然性和统一的学术数据标准。

线数据集。这些数据有自己的特点。例如,DBLP数据集不包含引文关系,APS数据集提供论文之间引文关系的列表。这些不同的数据类型给论文推荐系统的建设带来了巨大的挑战。在论文推荐系统中,统一大的学术数据标准是一项具有挑战性的任务。

5结论

推荐系统在信息检索和过滤中起着重要的作用。本文综述了学术领域的科技论文推荐系统。首先,我们将科技论文推荐系统按其推荐技术分为四类:基于内容的过滤、协同过滤、基于图形的方法和混合方法。通过分析,我们发现基于内容和混合方法是论文推荐系统中最常用的技术。对于每一种技术,我们研究其基本原理、优点、缺点和应用。其次,介绍了论文推荐系统的评价指标:查准率、召回率、F-measure、NDCG、MAP、MRR、MAE和UCOV。最后,本文讨论了未来需要解决的开放性问题和挑战,包括冷启动、稀疏性、可扩展性、隐私性、偶然性和统一的学术数据标准。

参考文献:
[1] Bai X , Wang M , Lee I , et al. Scientific Paper Recommendation: A Survey[J]. 2020.

Scientific Paper Recommendation: A Survey2020翻译相关推荐

  1. How to Write and Publish a Scientific Paper: 7th Edition(科技论文写作与发表教程)(11.04更新)...

    How to Write and Publish a Scientific Paper: 7th Edition(科技论文写作与发表教程)(11.04更新) 重要通知: 最近开题报告已差不多告一段落, ...

  2. How to implement an algorithm from a scientific paper

    转自http://codecapsule.com/2012/01/18/how-to-implement-a-paper/ How to implement an algorithm from a s ...

  3. How to Write and Publish a Scientific Paper-What Is a Scientific Paper?

    What Is a Scientific Paper? 目录 What Is a Scientific Paper? DEFINITION OF A SCIENTIFIC PAPER ORGANIZA ...

  4. How to Read Scientific Paper??

    文章目录 Three-pass Approach 1. The first pass: The bird's-eye view 2. The second pass: Grasp the conten ...

  5. 整理研究方向(1)【未完成】

    系列文章目录 整理研究方向(2) 文章目录 系列文章目录 整理研究方向(2) 郑宇团队工作 2022 2021 总结与分析 研究方向的转变 心得体会--我们可以做什么呢? 北交林友芳团队 时空数据挖掘 ...

  6. 学术新秀采访-陆品燕~How To Get Your SIGGRAPH Paper Rejected

    from http://cbir.spaces.live.com 1.学术新秀采访-陆品燕 2.计算机系2007学术新秀朱军专访 3.How To Get Your SIGGRAPH Paper Re ...

  7. How to Review a Paper

    1. 标题和作者<Title and Author>标题可以用来确定文章要讨论的主题,同时标题和作者也是一篇文章唯一的标识. 2. 概述<Summary> 公正.简明地概述文章 ...

  8. 如何写第一篇研究论文 How to Write Your First Research Paper

    How to Write Your First Research Paper Elena D. Kallestinova Author information ► Copyright and Lice ...

  9. 程序员练级攻略(2018)-陈皓-笔记整理

    程序员练级攻略(2018)     开篇词     入门篇         零基础启蒙         正式入门     修养篇         程序员修养     专业基础篇         编程语 ...

最新文章

  1. 通过describe命令学习Kubernetes的pod属性详解
  2. 突然发现我还有博客园的博客呢哈哈哈哈
  3. more effective C++
  4. C语言:格式字符串中的类型
  5. java 从一个容器获取对象,如何从 Spring IoC 容器中获取对象?
  6. Linux as4开启telnet,Red hat AS4开启telnet过程
  7. 树莓派(Raspberry Pi)日期时间不准的修正方法
  8. java基础之线程参考尚硅谷视频
  9. (八)flax Engine游戏引擎物理引擎——物理碰撞器
  10. 毕业论文用到的在线网站
  11. 01背包问题 —— 【算法设计】分支限界法
  12. iOS从零开始学习socket编程——HTTP1.0服务器端
  13. 读书之《别做正常的傻瓜》
  14. 为了治好拖延症,我祭出了这个自虐的项目,把我搞的卧槽卧槽的
  15. multism中ui和uo应该怎么表示_Multisim在模拟与数字电子技术中的应用(最终版)最新版...
  16. 基于NXP_LS1012A 芯片ARM工控主板
  17. 专访金榕:四年蜕变,阿里iDST是如何登上浪潮之巅的?
  18. 下载xampp之后还用下载PHP吗,PHP 下载并安装XAMPP
  19. win11cf烟雾头怎么调?
  20. 三步教你安装微软系统,使用uiso制作U盘启动盘

热门文章

  1. Java并发基础,不怕你看不懂
  2. SQL SERVER使用技巧集
  3. 2014年4月23日
  4. blr不是已知的css属性名,css笔记
  5. Oracle获取当前日期及相关操作
  6. oracle中插入当前日期时间
  7. 计算机网络class4(时延、时延带宽积、RTT和利用率)
  8. thinkPHP+vue医院核酸检测预约挂号系统 nodejs微信小程序
  9. Chrome插件Loom录制视频音频
  10. 搜书利器 -- 壹搜网