Quantifying Success in Science: An Overview

摘要

量化科学上的成功在指导资金分配、招聘决策和奖励方面起着关键作用。最近,在量化科学成就方面取得了大量进展。缺乏详细的分析和总结仍然是一个实际问题。文献报道了影响学术影响力的因素以及旨在克服这一关键弱点的评价方法和指标。本文着重对学术影响力评价指标的研究现状进行了分类和评述,包括论文影响力、学者影响力和期刊影响力。此外,本文还总结了现有评价方法和指标存在的问题,探讨了存在的问题和挑战,并提出了可能的解决方案,包括合作影响模式、统一的评价标准、内隐成功因素挖掘、动态学术网络嵌入、学术影响膨胀等。这篇论文将有助于研究者对科学成功的量化有更广泛的理解,并确定一些潜在的研究方向。

索引项

科学成就,学术影响,评价指标。

1.简介

期刊内容十分丰富,本文主要介绍了定量化科学上的成功来自这三个方面。一般来说科学成就是指科学家在其科研成果中被引用的次数,以此作为评价指标,衡量其学术生涯。量化科学上的成功源于它的容易获得性。论文的可见度[12]、[13]和科学计量学是影响文献计量学和论文成功的重要因素。一个有影响力的出版物或学者总是在论文的年龄[14]。一种常用的判断成功与否的方法,给后人开展研究带来了很大的帮助。一篇学术论文的评价指标就是要用什么适合测量论文的冲击力。

在量化论文影响力的同时,学者影响力也受到诸多因素的影响。提出了许多衡量学者影响力的方法和指标,如h指数[20]、g指数[21]、hg指数[22]。这些指数对一些年轻的研究人员来说是不公平的,因为学者的出版物的质量和数量与他们的学术年龄有关。基于网络的方法可以在一定程度上避免这种情况。

评价期刊影响力是量化科学成就的重要组成部分。许多基于网络的评价方法和指标被用来量化论文和作者的影响,也可以用来评价期刊[23]-[26]。这些方法基于PageRank、HITS,或者考虑期刊在期刊引文网络中的结构位置。此外,期刊引文报告(JCR)在期刊排名中非常流行。

尽管现有的研究提供了一个工具来量化科学上的成功,但它仍然有一些局限性。每一个量化科学影响的指标都有其不足之处。尤其是在量化科研成果时,最具挑战性的问题之一来自于学术大数据的异质性和动态性。目前,在大多数量化科学成功的方法中,内隐特征和内隐关系引起了研究者的关注[27]。

本文综述了近年来在量化科学成就方面的进展,并对过去的相关工作进行了补充:Wildgaard等人[28]对作者影响评价进行了综述。这篇综述的一个局限性是它没有考虑论文和期刊的影响评价研究。Bai等人[9]回顾了有关论文影响评估的文献。本文概述了关键技术和论文影响度量。这项工作的局限性在于作者没有考虑作者和期刊的影响评价。另外,对影响学术影响力的因素也没有进行分析。为此,本文详细介绍了论文、作者和期刊影响评价的进展。

图1显示了量化科学成功的框架。科学成功的量化包括以下几个部分:数据采集、数据预处理、关系分析、评价方法和评价指标。一些公共可访问的数据集用于量化科学领域的成功,包括美国物理学会(APS)[1]、数字书目与图书馆项目(DBLP)[2]和微软学术图表(MAG)[3]。定量科学成功研究中的数据预处理是非常重要的,因为它关系到研究的准确性。同质和异质学术网络用于研究学术关系,如引文关系、合著者关系和论文期刊关系。斯皮尔曼的秩相关系数、贴现累积增益和RI可作为量化科学成功的评价指标[29]、[30]。特别是,异构的学术网络结构增加了学术网络分析的挑战。

为了检索量化科学成就的论文,我们在Google Scholar的基础上,输入科学成就、论文影响力、学者影响力、期刊影响力等搜索词,首先搜索最近在顶级期刊和顶级会议上发表的相关论文,然后查找其参考文献,并引用这些论文来获得更多的相关论文。对论文进行逐级搜索,然后从论文影响、学者影响和期刊影响三个方面进行筛选和分类,保留有代表性的相关论文。在上述工作的基础上,我们对这些论文的发表年份进行了标注,并对这些论文进行了年复一年的阅读,从影响学术影响力的特征、评价方法和指标等方面进行了分析和总结。例如,根据评价论文影响的这些特征,我们对这些特征进行了分类,包括参考文献、参考文献、精选特征、统计特征、网络特征、显性特征、隐性特征和评价论文影响。通过对这些评估方法的分析和总结,我们发现了存在的问题和挑战,并提供了可能的解决方案。

本次调查的其余部分组织如下。在第二节中,我们讨论了论文影响的评估。第三节介绍了作者影响力的评价。第四节讨论了期刊影响的评估。第五节将讨论尚未解决的问题。最后,我们在第六节总结了本次调查。

2.文章影响评估

在这一部分中,我们将详细介绍论文影响力的评价方法和指标。此外,我们还将讨论现有方法和指标的演变,指出它们的优缺点。首先,我们从论文影响力的评价入手,因为许多学者和期刊的评价方法和指标都是基于对论文的评价。因此,能否准确量化论文的质量具有重要意义。虽然论文的价值主要取决于其内容,但对其内容的评价容易受到主观因素的影响,评价效率不能满足学术性投标数据的要求。这一现象促使研究者提出一些准确、高效的自动评价方法。一个可能的解决方案是构建一个多维度量,其中需要探讨引用的重要性、作者的社会关系、早期citers的影响与学术论文影响之间的关系以及引用膨胀。

2.1 影响论文影响力的因素

图1:科学成功的量化框架 。

表1显示了用于评估论文影响的选定特征的示例,包括参考、选定特征、统计特征、网络特征、显式特征、隐式特征和评估论文影响。

表1:用于评估论文影响的选定特征的示例 。

工具书类 选定的功能 统计特征 网络功能 显式特征 隐式特征 评估论文影响
[14] 论文的引用率,时间 论文在给定时间的引用率
[27] 相对引用权重 应用亲属关系引用权重高阶量子PageRank算法
[30] 合作次数、合作时间跨度、引用次数、引用时间跨度 削弱利益冲突在引文网络中
[31] 引用次数 使用引文
[32] 引文,作者,期刊/会议和出版时间信息 集成选定的功能PageRank和点击率算法
[33] 偏好依恋,衰老,健康 确定三个基本原则机制评估长期影响
[34] 论文的重要性 应用Google-PageRank算法获取相对所有出版物的重要性
[35] 引文相关性和作者贡献 使用选定的与权重相关的功能引文网络及其应用作者网络评价论文影响力
[36] Altmetrics 监控引文,博客,推特,下载研究文章中的统计数据和属性
[37] 论文的威望、作者的威望、时间 利用引文网络作者网络与出版预测未来引文的文章时间
[38] 时间加权引文计数,引文宽度,引文深度 利用熵权对三个指标进行加权

很长一段时间以来,引文数量一直被用作评估论文影响力的指标[31]。由于引文的数量相对容易获得,因此经常被操纵,如自引、互引和朋友引。虽然一些学者可以引用他们的论文,因为他们的研究对象可以有几个阶段输出,前者的结果可以是后者的基础。但如果自引只是为了增加被引次数,就会误导学术评价,给评价体系带来不公平因素。对于不恰当的引文,前人提出了相应的方法,依靠高阶引文网络唤醒自引的影响[27]。

以往的研究表明,论文的影响会随着时间的推移而衰减,这证实了论文的年代是影响其影响的一个因素。一般来说,一篇旧论文比一篇新论文被引用的次数多,但是它的工作已经被新论文覆盖了,所以将来可以得到更少的引用。Parolo等人[14]表明,对一篇论文的注意力衰减是一种普遍现象,衰减率接近幂律。在某些情况下,论文可以更快地被遗忘,因此注意力衰减更快,这符合指数曲线。时间因素、论文声望和作者声望被用来评估学术论文的影响[37]。基于这三个因素,他们通过预测未来学术论文被引用的数量来评估学术论文的影响力。Wang等人[33]考虑了老化因素来评估论文的影响,因为它可以捕捉到新思想在后续工作中被整合的事实。Wang等人[38]首先提出了三个指标:时间加权引文数、引文宽度和引文深度。然后,他们利用熵来衡量这些指数,以评估论文的影响。Chan等人[39]讨论了作者和从属关系的影响会影响他们论文的影响。在他们的研究中,他们认为,作者的声誉和他们所属关系的影响有助于提高论文在出版初期的影响力,但这种影响力可能会在随后的阶段迅速衰减。Chen等人[34]利用谷歌的PageRank算法在引文网络中发现了这些科学瑰宝。Zhang等人[35]基于异质作者引用学术网络评估了作者和论文的影响。

除上述因素外,还使用了其他一些因素来评估论文的影响,如个人、机构和国际合作、参考文献影响、参考文献总数、关键词总数和摘要可读性[40]。优先依恋、适合度和年龄因素被用来量化长期科学影响,这三个因素可以驱动学术论文的引用历史[33]。在这项研究中,优先附件抓住了一个事实,即高被引论文比低被引论文更有可能再次被引用。适合性抓住了学术论文之间固有的差异。老龄化以前就有过。它可以追溯到期刊影响因子,该因子曾被用作评估论文影响的标准[41]。Altmetrics根据社交媒体平台上的活动(如引文、博客、推文、下载统计数据和研究文章中的归因)评估学术影响[36]。Altmetrics分数用于补充对学术论文的评估,提供新的见解[42]。由于我们已经了解了影响论文影响力的大部分因素,因此可以设计评价方法和相应的指标。

2.2 基于计数的评价方法和指标

表2从方法与参考文献、选取因素、各引文的重要性、优缺点等方面对基于计数的评价方法和指标进行了比较。

表2:评估论文影响的基于计数的方法比较示例 。

方法和参考 选定因素 每个引文的重要性 优势 劣势
引文[43] 引文 平等的 容易获得。 容易被操纵。对论文时代的强烈失望。
影响系数[41] 论文数量、论文引文、时间 平等的 易于计算。 容易被操纵。难以统一不同学科的影响因素。
SVR模型[44] 发生次数, 定位截面, 时间间隔,自引 不等 区分引用的重要性。 很难计算。
有监督的机器 学习模式[45] 引文位置,语义 相似性,引用频率,引用次数 不等 它可以区分引文的重要性。 很难计算。
论文正常 引文与文献分布 吉夫[46] 分配 引证,JIF 平等的 这在全国范围内是可行的 评估练习。 容易被操纵。

Garfield等人[47]首先提出用引用次数来评估学术论文的影响。引文是最简单和最直接的基于计数的论文影响指数。然而,引文作为一种评价指标存在着一些缺陷。例如,它在很大程度上依赖于论文的发表时间。时间越长,引文越多。考虑到这个缺点,以前

研究使用期刊影响因子来量化论文的影响[41]。究其原因,是期刊影响力在一定程度上可以表征论文影响力。然而,Seglen等人[41]总结了与使用期刊影响因子相关的问题,他们发现期刊影响因子不能代表单个论文。人们已经认识到,并非所有引文都同等重要,因此需要区分引文的重要性[45]。

为了区分引文的重要性,前人做了许多尝试。Wan等人[44]将引文的重要性划分为5个层次,称为引文强度。在他们的研究中,引文的重要性是由以下特征决定的:出现次数、所在章节、时间间隔、引文句子的平均长度、引文出现的平均密度和自引。然后利用SVR模型计算每个引文的重要度,并给出一些人工标注的数据。一篇论文的影响力是通过总结所有的引文强度来计算的。他们的实验结果表明,利用引文强度对论文进行排名更符合基本事实。Zhu等人[45]通过确定一组有助于确定学术论文影响的四个特征来区分引用的重要性,包括论文中的引用位置、被引用论文标题和引用论文内容之间的语义相似性、被引用频率、文献中的引用次数。

Anfossi等人[46]认为,将多个指标的信息结合起来对论文进行排名比只使用一个指标更为合理。在他们的论文中,提出了一个评估工具,它使用了论文的标准化分布引文和JIF,并将论文直观地定位在(引文,JIF)空间中,作为散点图。然后,通过将阈值作为论文引文和JIF的加权线性组合,将该空间划分为若干区域,如函数(1)所示,

fn**公司(CIT,JIF)=常数n+a1n·CIT+a2n·JIF+a3n·CIT·JIF+a4n·CIT2+a5n·JIF2+···

(1)

其中是一个控制区域分割的常数,CIT表示论文的引用。不同的分词标准会导致不同的文章分类。在Anfossi的工作之前,Ancaiani等人[48]对意大利大学和其他研究机构提交的大量研究成果进行了分析。常数

如今越来越多的研究成果或论文在社交媒体上传播,这有助于提升学者的影响力。在线社交网络上下载、分享或评论论文的时间已经成为评估研究成果的一组指标,称为Altmetrics[36]。基于社会网络的Altmetrics作为一种新兴的论文评价指标,应用越来越广泛。Xia等人[49]对Twitter和Facebook用户如何影响该论文在《自然》杂志上发表的影响力进行了分析。他们发现Twitter的用户更容易传播发表在《自然》杂志上的论文的影响。尽管Altmetrics能够补充和改进对论文影响的评估,但是Altmetrics作为一个评估指标并不具有权威性。主要是因为Altmetrics很容易被当作引文来使用。基于Altmetrics的学术影响量化方法有待进一步探索。

2.3 基于网络的评价方法和指标

表3从方法与参考文献、选择因素、学术网络、算法、优缺点等方面对基于网络的评价方法和指标进行了比较。

表3:基于网络的论文影响评估方法比较示例 。

此方法的功能如下:

经典的基于网络的评估方法是PageRank算法[18]。另一个著名的算法是HITS来评估异构网络中节点的重要性。这两种方法被用来量化论文的影响。PageRank算法用于异构学术网络,HITS算法用于异构学术网络。图2显示了用于论文影响评估的几个典型学术网络,如引文网络、合著者网络、论文作者网络、论文期刊网络。这四个学术网络是从MAG数据集中随机挑选的10位计算机科学领域的作者中产生的。不同的颜色节点表示不同类型的学术实体,它们之间的线条表示它们之间的学术关系。

Chen等人[34]将Google PageRank算法应用于1893年至2003年Physical Review系列期刊的所有出版物,以发现一些例外论文。PageRank可以发现引文网络中论文之间的线性关系。最近,London等人[55]提出了一种局部形式的PageRank来评估论文对从整个引文网络中提取的一小部分节点的影响。被引用次数较多或被重要论文引用过的论文将通过该算法获得较高的分数。但是经典的PageRank算法对时间不敏感。这就导致了这样一种不合理的结果:一篇过时的论文,由于其引用量的积累,其影响力可能仍然很大,但其真正的价值已经被许多新的出版物所取代。为了克服这个问题,Walker等人[50]引入了CiteRank,用基于PageRank的时间加权来推广最近的出版物。

T**型=I·ρ+(1−α)W·ρ+(1−α)2W2·ρ+···(2)

T**型是所有论文最终得分的矩阵。是转移概率矩阵,如果引用,则为1/kjout,否则为0,其中为论文的出格度。是在引文网络中选择第th篇论文的初始概率,这里给出了=e-age,其中表示第th篇论文发表后的年份。W型权重系数j我克茹特jρiρi目录阿盖伊我

为了使PageRank更符合学术网络的特点,人们付出了很多努力。Yao等人[51]将非线性引入PageRank算法,通过非线性方式聚集下游相邻节点的得分。迭代函数相应地变成如下形式:

​ (3)

该方法通过调整的值来控制试卷的分数积累,使其对citer的影响更加敏感。这种非线性方法认为高影响力论文的引文价值比低水平论文的引文价值更重要。θ

图2:用于论文影响评估的几个典型学术网络。

Wang等人[52]提出了一种PageRank类型的方法,使用多个学术网络对论文进行排序,包括时间感知的合著者网络()、时间感知的论文引用网络()、表示论文作者身份的作者论文网络(),论文文本特征网络()表示论文的文本特征,作者文本特征网络()。迭代方程为:

蒋等[56]考虑到引文网络的这种动态演化,提出了一种与PageRank思想相同的方法。该方法综合了科技发展中的三个因素,即个人论文的知识积累、引文行为的知识扩散和知识随时间的衰减。然后利用引文网络上的随机游走过程来描述这三个因素。通过按论文发表时间划分论文,并按时间顺序部分加入引文网络,模拟了论文的动态演化过程。

另一种方法是基于点击率[19]。Zhou等人[53]在论文的引文网络和合著者网络上执行了HITS算法,这两个网络由作者连接。在引文网络和合著网络中,首先用PageRank计算节点的得分,然后在二部图上进行点击,得到论文和作者的最终得分。因此,该方法可以同时评价作者和论文的影响力。迭代函数如下:

其中矩阵和分别是合著网络和引文网络的转移概率矩阵。以及AD**级Ae是合著者网络上PageRank过程中的迭代矩阵,由e,其中I是所有元素都等于1的矩阵。意思是一样的。向量存储所有作者的分数,向量存储所有论文的分数。一种类似的方法是参考文献[54]在2014年提出的三秩算法,该算法考虑了论文的发表信息,在三个链接网络上执行了点击类型的方法,在之前使用的两个网络上添加了一个场馆引用网络。D**级e一**d

此外,一些结合PageRank和

点击评估论文的影响。一个典型的例子是参考文献[37]提出的FutureRank。与其他方法不同,FutureRank通过预测论文和作者未来的PageRank得分来对其影响进行排名。首先利用PageRank算法对论文通过引文网络进行排序,然后利用HITS算法计算论文的权威性得分和基于混合网络的作者中心得分。在计算论文的PageRank得分、论文的权威性得分和作者的hub得分之后,通过对这些得分进行加权,最终得到评价的最终结果,见函数(6)。

其中是网络中的节点数。Wang等人[32]提出了一种类似的方法,即增加一个期刊/会议网络来显示论文的发表地点。评估方法的形式与FutureRank相同,但可以对期刊/会议进行排名。使用HITS算法还可以评估论文和作者的质量。基于他们的工作,Bai等人[30]通过调查引文关系对学术论文进行排名,以削弱引文网络中的利益冲突关系。这种方法在一定程度上削弱了自引的影响。此外,Bai等人[27]基于高阶加权引文量化了学术论文的影响。本研究提出了一种高阶加权量子PageRank算法来反映多步引用行为。这种方法的一个优点是可以削弱被操纵引文活动的影响。n

3.学者影响力评价

对学者的评价总是与他们的论文有关。许多方法可以与作者一起评价论文,如联合秩[53]、三秩[54]、未来秩[37]、sindex[57]。这些基于网络的方法通常将多个学术实体排列在一起,因为使用单个网络提供的信息往往不足以给出合理的评估。也有一些基于计数的评价方法,如著名的h指数来量化作者的影响。在这一节中,我们比较了不同的基于计数的方法,包括方法和参考文献,选择的因素,每个引文的重要性,优点和缺点。从方法与参考文献、学术网络、同质网络、异质网络、算法、优缺点等几个方面对基于网络的方法进行了比较。此外,我们还将讨论现有方法和指标的演变,并总结这些方法存在的问题。一种可能的解决方法是探索高阶学术网络分析、作者影响通货膨胀、学术成功基因。

3.1影响学者影响力的因素

作者的影响评价经历了从非结构化测度到结构化测度的转变[29]。研究者用来评估作者影响的因素从简单的统计因素到结构性因素,从显性因素到隐性因素。目前,影响学者影响力的常用因素可分为六类:论文相关因素、作者相关因素、地点相关因素、社会相关因素、参考文献相关因素和时间相关因素。表4显示了评估作者影响的选定因素的示例。

在科学界,学者可以不断积累学术影响力,但在一定程度上,学者的内在影响力决定了其最终的研究成果。由于学者发表的论文能够代表学者的影响力,因此论文相关因素常常被用来衡量学者的影响力。选择这些因素主要是考虑论文的质量和数量。然而,这些因素会导致偏见。学者的学术产出一般与他们的学术年龄有关。年纪大的学者可能会有更多的产出。这样,简单地从产出的角度来评价学者的影响力,对新来者有很大的偏见。在评估学者对不同研究领域的影响时,也存在这种偏见。科学家们已经做了很多努力来消除学科之间在评估学者影响方面的不平衡。此外,学术论文合著者的贡献分配也可能导致学者影响评价的偏差。Shen等人[68]开发了一种信用分配算法来捕获合著者的贡献。

作者相关因素和文脉相关因素在一定程度上可以反映学者的影响。Dong等人[66]发现两个因素,学者和地点的影响,在提高主要作者的h指数方面起到了关键作用。Deville等人[69]讨论了科学家在机构层面的流动模式以及他们在科学生涯中的成功。他们发现,学者从高影响力机构转向低影响力机构的后果是研究质量和产出都下降,这表明学术环境对学术成果有影响。学者们还利用在线平台(谷歌学者、微软学术搜索)和社交媒体来增强学术影响力。Mas-Bleda等人[70]发现,尽管在欧洲机构工作的大多数被高度引用的学者都有自己的机构网页,但他们很少维护这些网页。他们大多使用其他社交媒体,这也加速了Altmetrics的发展。

此外,参考文献相关因素和时间相关因素也引起了学者们的关注。Dong等人[66]考虑了两个与参考文献相关的因素研究了学者的影响:参考文献的max-h-index引用与论文参考文献总数的比率和论文参考文献累积的平均引用数。Zhang等人[67]考虑了学术创新,并通过时间感知排名算法评估学者影响,根据代表性时间函数为新发表的论文分配更多学分。基于上述因素,人们提出了许多评价指标来量化学者的影响。在接下来的两个小节中,我们介绍了基于计数的评价方法和指标,以及基于网络的评价方法和指标分别。

表4:评估作者影响的选定因素示例 。

因素 要素类别 显式因子 隐性因素 工具书类
引用次数 与论文有关 [58], [59]
出版物的数量 与论文有关 [59], [60]
论文成绩 与论文有关 [61]
在作者和论文之间共享关键字 与论文有关 [62]
页面排名 与论文有关 [63], [64]
论文授权向量 与论文有关 [65]
作者人数 作者相关 [59]
最大熵 作者相关 [60]
场馆得分 场馆相关 [61]
日记账影响系数 场馆相关 [60]
论文参考文献被作者引用前,论文的引用的参考文献之前的作者作者以前出版物中的参考文献 参考文献相关 [62], [66]
作者之前到会次数,作者之前到会次数之比 参考文献相关 [62]
时间 与时间有关 [67]

3.2基于计数的评价方法和指标

2005年,Hirsch[20]提出了著名的h指数来评价学者影响力,这是整个科学界广泛使用的最著名的指标。一个学者的h指数意味着他至少引用了至少篇论文。h指数的优点是计算简单,而且定义结合了学者产出的数量和质量。但仍有学者认为,hindex存在着学科间的不平衡、合著者影响力的分配、高被引论文的影响力被忽视等问题。为了避免高引用论文的影响被忽视,Egghe等人[21]提出了g指数。如果一位作者所发表的所有论文的引文都是按降序排列的,那么g指数就是有引文的顶级学术论文。与g指数类似,Jin等人[71]提出了R指数和AR指数来克服h指数的缺点。R指数定义为 (7)

其中是作者的h-指数,表示作者被引用次数超过次的论文,又称h-核心论文。应收账款指数考虑了出版物的年限,其计算方法如下 (8)

其中表示第-篇论文的年代。

出于同样的目的,张[72]将作者的引文函数分为三部分:h平方表示h索引本身的信息,过量表示引文多于h索引的论文的信息,h尾表示引文较少的论文的信息。然后,利用三角形映射技术将这三个部分映射成一个正三角形,使分析更加容易。作者的影响被对应地映射到三个部分:代表研究质量的超额(e指数)、代表研究数量的h尾(t指数)和代表平均值的h平方(h指数)。这种方法使用了三个独立的部分来量化作者的影响。本文将作者分为两类。第一类作者发表了多篇高质量的论文,但H指数较低或e指数较高;第二类作者发表了大量低质量的论文,但H指数、t指数较高,e指数较低。Dorogovtsev等人[73]开发了o指数,以改善大多数被引用论文的影响。作者的o指数定义为√

o=hm,其中是作者的h-指数,表示他/她被引用最多的论文的引文。小时米

h-index的另一个缺点是它对一篇论文的所有作者都一视同仁。一篇多作者论文的作者对工作的贡献总是不相等的,因此,h指数会导致偏倚。许多研究试图解决这个问题。Wang等人[74]提出了A指数来量化合著者的相对贡献。基于A-指数,Stallings等人[60]开发了一个协作指数,C-指数,以量化作者的影响。C指数的定义是

作者的A指数在哪里。通过考虑出版物的质量,提出了P指数来量化研究人员的影响,该指数由阿克

论文发表地期刊的影响因素。此外,一些研究者指出,即使是不同引文模式的作者也可能得到相同的h指数。Farooq等人[75]提出了DS索引,这是g-索引的扩展,旨在为具有相似引文模式的作者提供独特的排名。DS索引定义为杰夫克**k

其中是g-core论文的数量,是第g-core论文的引文。与h-core论文一样,g-core论文是用来计算作者g指数的论文。克西特克**k

以上介绍的指标都是h指标的推广和改进。使用h指数可以部分反映作者的发表行为和引用分布。为了更合理地量化学者的影响,Sinatra等人[76]研究了物理学家的引用分布,发现学者的最高影响是在他们的学术生涯中随机分布的。基于这一随机撞击规则,他们提出了一个随机模型,其中指定了一个唯一的参数来预测撞击。作者的Q值是由
作者的价值何在。hlogciαi表示作者发表的所有论文的平均对数引用。是作者的第篇论文。是运气对论文成功的平均影响。

基于引文的作者影响评价方法显示了学科间的差异。Waltman等人[77]发现,使用分数计数法可以给出更适合跨领域学者评估的结果。Radicchi等人[78]提出了一种通用的h-索引变体,名为-index。2013年,Kaur等人与Radicchi一起改进了-指数,并提出了一种新方法来比较跨学科的科学影响。在他们的工作中引入了新的指数,它是由同一学科的所有作者的平均h指数所组成的标准化h指数。Lima等人[80]认为,一篇论文可以属于多个研究领域,作者在某个领域的影响力是通过该领域发表的论文计算出来的,作者的百分位排名就是用这个计算出来的。最后,作者的影响通过总结所有领域的影响来量化。通过这种方法,虽然可以减少不同学科之间的偏倚,但活跃在快速发展地区的作者也可以在基础学科中获得比其他人更高的分数。

3.3基于网络的评价方法和指标

由于基于计数的评价方法在评价学者影响力时易于操作,学者们探索了结构化方法来克服这一缺点。基于网络的学者评价方法已经从同质学术网络发展到异质学术网络[32]、[37]、[52]–[54]、[57]、[65]、[81]。学术网络由学术实体组成,包括学者、论文、期刊或会议以及机构。Ding等人[82]基于作者共引网络,使用PageRank算法来量化作者的影响。Yan等人[83]开发了P-Rank,它使用三种不同的网络,包括引文网络、作者网络和出版关系网络,来评估作者、论文和期刊的影响。首先采用点击类型法更新作者网络和发表关系网络中的论文、作者和期刊的得分。然后将这些分数作为节点的初始值,在引文网络中运行PageRank,得到论文的最终分数。由于HITS型算法更适合于异构学术网络,深入挖掘异构网络的学术关系可以使HITS型算法更好地工作。Amjad等人[84]考虑了潜在Dirichlet分配(LDA)[85]产生的学术实体的主题分布,提出了一种基于主题的排序方法,称为基于主题的异类排名(TH Rank)。由于网络的复杂性和计算LDA的代价,TH秩算法不是一种有效的算法。Li等人[86]提出了一种名为QRank的方法,目的是有效地对作者进行排名。Nykl等人[87]使用PageRank算法和几个单独的评价指标,包括h指数、出版物数量、引用数量和出版物作者数量,对学者进行排名。

现有的网络评价方法虽然取得了一定的成果,但仍存在以下问题:(1)以往的研究大多是基于一阶学术网络来量化作者影响力;(2)引文膨胀影响作者的真实影响力;(3)学术成功基因的起源不得而知。因此,对高阶学术网络的分析,作者影响通货膨胀,以及学术成功的基因都需要探究。

4期刊影响评价

期刊的影响力来源于发表的论文。作者更愿意在影响较大的期刊上发表论文。期刊评价与论文评价、作者评价密切相关。世界上有几个著名的出版集团。他们是爱思唯尔、斯普林格、威利、沃尔特斯·克鲁维和皮尔森。值得一提的是,最著名的期刊《柳叶刀》和《细胞》是由爱思唯尔出版社出版的,《自然》是由麦克米伦出版社出版的。从1975年起,期刊引文报告(JCR)开始提供期刊上一年度的影响因子(IF),以及期刊的当前排名、期刊简称、国际标准序列号(ISSN)、总引用次数、即时性指数、总文章数和被引半衰期等评价指标。由于JCR是期刊量化的重要数据资源。JCR指标已成为评价期刊最流行的指标,汤森路透还提出了其他一些指标,如特征因子得分(EF)、年度JCR和CiteScore[4]。目前,除了JCR指标外,还提出了许多其他的评价方法和指标。在接下来的小节中,我们将讨论现有方法和指标的演变,并总结这些期刊评价方法存在的问题。一个可能的解决办法是探索期刊对通货膨胀的影响和更高阶的学术网络分析。

4.1影响期刊影响力的因素

一些经典的高影响力期刊,如《自然》和《科学》等,都是经久不衰的。期刊的质量取决于发表论文的质量。许多评价期刊的指标都是以引文为基础的。互联网的发展促进了论文的引用,也影响了期刊的影响力。因此,开放获取期刊可能比私人期刊具有更高的影响力。

期刊的影响力是具有较强的学科性,即不同学科有不同的权威期刊。此外,期刊的类型也会影响其影响因素。有些期刊喜欢发表评论论文,有些则发表长论文和短论文。一般来说,评论期刊的影响因子高于同一学科的其他期刊。

4.2期刊引文报告

期刊引文报告始于1975年。现在它每年提供超过10000种高质量的期刊排名,并在科学网(WoS)上发布。期刊影响评价包括期刊总引用量、期刊影响因子、无期刊自引影响因子、5年影响因子、即时性指数、被引半衰期、被引半衰期、特征因子得分等常用指标,文章影响得分和可引用的期刊项目数和其他指标。这份报告一直被认为是对期刊最权威的评价。

期刊影响因子是加菲尔德在1955年提出的,通常指的是2年期的影响因子[47]。年度日记账的JIF定义如下:

其中是第−1年在本杂志上发表的论文数,是第−1年该杂志的引用数。5年期期刊影响因子的计算与2年期期刊影响因子的计算相同,2年期期刊影响因子的计算考虑了近5年期刊的论文数量和被引用次数。没有期刊自引的影响因子消除了期刊自引的影响,使期刊影响评价更加客观。引文半衰期是指达到期刊总引文的一半所需的年数,这表明期刊影响力的持久性。引文半衰期是指引文数量达到全部引文数量一半的年份,是引文新颖性的体现。

其他指标,如即时性指数、特征因子得分和文章影响得分,都是为了弥补影响因子的不足。即时性指数是指某一年发表在期刊上的论文的平均引用量,它可以反映该期刊在该年的影响力。特征因子得分由期刊的引文网络计算,无需自引,使用PageRank类型方法[88]。

4.3JCR的分析和改进

虽然JCR指标被广泛使用,但如果仅用一个指标来评价期刊,就会产生偏差。为了克服这些不足,人们付出了许多努力,并提出了许多其他指标,如期刊H指数[15]、SCImago期刊排名(SJR)[89]、源标准化论文影响力(SNIP)[90]。除了使用单个度量之外,还发现可以通过以某些方式组合这些常用度量来改进排序结果,例如计算它们的调和平均值[91]或使用神经网络来找到非线性表示[92]。Serenko等人[93]发现,学者们总是喜欢熟悉的期刊,并给予他们更高的评价。建议在期刊评价中引入个人观点。Tsai等人[94]研究了主观评价(学者个人观点)和客观评价(期刊排名按JIF和h指数)之间的相关性,并使用Borda计数法将两个排名结果结合起来。Beets等人[95]参照部门期刊列表对会计期刊进行了排名,这些期刊用于评估几所著名商学院的教员出版物。

也有许多学者关注这些指标在不同期刊排名之间的关系[96]-[101]。Setti[99]认为,不可能通过任何单一指标来捕捉期刊的真正影响。不同的评价方法从不同的角度对期刊进行量化,所以哪些指标更有用总是基于应用场景。有时,仅根据期刊高被引出版物的百分比对期刊进行排名是有意义的[102]。此外,对同一学科不同学科、不同领域期刊的评价也需要讨论[102]、[103]。

Chatterjee等人[104]研究了引文分布,发现一些高被引论文在期刊和机构中都占据了大部分引文。在对期刊引文分布进行大量研究的基础上,Kao等人[105]提出了一种基于随机优势分析的期刊评价方法。

4.4 基于网络的评价方法和指标

网络中最常用的节点评估方法是PageRank和HITS。如前几节所述,HITS算法可用于将论文、作者和期刊一起排序。有一些PageRank类型的方法是为期刊排名而设计的,它们的基本形式如下

其中表示自适应阻尼系数,且满足=1。通常,的值设置为
表示日记账的重要性得分[106]。

在PageRank算法的基础上,Chen[23]加入了专家对该方法的判断作为权重部分,并用粒子群优化算法(PSO)对函数进行了优化。同样,Lim等人[107]利用期刊间引文的相关性和重要性来设计加权PageRank。Zhang提出了HR PageRank算法,根据作者的H指数和被引用论文与被引用论文之间的相关性,通过加权PageRank来评估期刊影响力[108]。Bohlin等人[109]研究了零(经典马尔可夫模型)、一阶和二阶马尔可夫模型在期刊排名时的不同表现,发现高阶马尔可夫模型表现更好,更稳健。

一些评价方法考虑了期刊在期刊引文网络中的结构地位。Zhang等人[24]提出了质量结构指数(QSI),它根据期刊内在的流行程度和结构地位对期刊进行排名。内在流行度通过一些常用的指标来量化,如JIF、特征因子得分、PageRank得分。同样,Leydesdorff[25]将期刊引文网络中期刊的中间性中心性引入到评估任务中。Su[26]对JIF等期刊常用的度量指标进行了基于链接的表示,提出了一种基于链接的融合方法,根据论文引用网络、作者网络和论文发表网络之间的链接,将多个度量指标融合在一起。这种方法为综合考虑多个指标来评价学术实体提供了一种新的方法。

基于以上分析,现有的期刊评价方法仍存在以下问题:(1)以往的研究大多基于一级学术网络来量化期刊影响力;(2)引文膨胀影响期刊的真实影响力。因此,研究者需要探索高阶学术网络分析和期刊影响力膨胀来解决期刊评价的挑战性问题。

5未决问题和挑战

在这一部分中,我们提出了一些有待进一步研究的问题和挑战,包括协作影响模式、统一的评价标准、内隐成功因素挖掘、动态学术网络嵌入和学术影响膨胀。

5.1合作影响模式

大量的工作集中于量化学术论文、学者和期刊的影响[27]、[76]、[108]。然而,人们对科学合作的影响是如何随时间演变的知之甚少。以前的研究人员通过引用来衡量合著者的影响,引用很容易被操纵。科学界迫切需要衡量合著者影响的结构化方法。有了关于引文和合作的大规模数据集,就有可能探索随着时间的推移,科学合作职业中合作影响的模式及其与科学家成功的潜在关系。由于需要结构化的方法来量化合作作者的影响,如何构建网络来衡量合作影响以及如何建模仍然是更广泛的挑战。一个可能的解决方案是构建一个异构的学术网络,在这个网络中,合作作者的影响被量化。在此基础上,研究者探讨了合作影响的模式。

5.2统一的评价标准

我们提到了许多自动评估方法,这些方法试图从大量出版物中找到高质量的论文。但这些方法只能给研究者提供哪些论文可能有用的建议,推荐论文的内容与算法无关。因此,在研究过程中仍然需要努力找到你需要的论文。虽然有许多自动评价方法,但还没有一个统一的评价标准来评价哪种方法优于其他方法。在评估体系中,一个被广泛接受的基本事实是非常必要的。要解决这个问题,首先必须统一数据集。

5.3隐性成功因素挖掘

过去,人们更多地关注显性成功因素。在作者影响评价研究中,研究者发现了一些明确的成功因素,如学术年龄、机构、研究领域和国家[110]。然而,人们对科学成功的时间演化机制知之甚少。揭示科学中成功因素的起源是一项具有挑战性的任务。科学的成功可能取决于外生因素,如师生关系、学习习惯和教育水平,这些因素仍然是未知的。积极探索外生因素与学业成功的关系,可以为内隐成功因素挖掘提供一种方法。

5.4动态学术网络嵌入

许多静态网络嵌入方法已经被提出,然而,学术网络随着时间的推移而发展。例如,在引文网络中,引用的论文和被引用的论文总是随着时间的推移而动态变化,例如,当作者引用以前的研究成果时,新的引文不断地添加到引文网络中。为了学习动态学术网络中节点的表示形式,现有的学术网络嵌入方法需要反复运行,且耗时较长。因此,对动态学术网络嵌入算法的进一步研究仍然是该领域的一大挑战。为了获得有效的表征,可能需要建立一个由动态学术数据支持的深度特征学习和相关表征模型。

5.5学术影响通货膨胀

学术影响通货膨胀是由学术论文的指数增长引起的,它影响学术影响的实际价值,因此影响不同时期对论文、学者、期刊、机构和国家产出的比较评估[111]。学者们可以依靠他们的朋友和合著者来增加他们的引文,这表明引文很容易被操纵。许多工作集中于揭示引用文献的通货膨胀动态[30]、[112]–[114]。在引文膨胀的背景下,如何构建学术影响力评价网络,如何建立模型,是一个令人惊讶的难题,凸显了学术影响力评价在科学界面临的更为广泛的挑战。一个可能的解决办法是通过高阶学术网络来削弱引用膨胀。

6结论

了获得有效的表征,可能需要建立一个由动态学术数据支持的深度特征学习和相关表征模型。

5.5学术影响通货膨胀

学术影响通货膨胀是由学术论文的指数增长引起的,它影响学术影响的实际价值,因此影响不同时期对论文、学者、期刊、机构和国家产出的比较评估[111]。学者们可以依靠他们的朋友和合著者来增加他们的引文,这表明引文很容易被操纵。许多工作集中于揭示引用文献的通货膨胀动态[30]、[112]–[114]。在引文膨胀的背景下,如何构建学术影响力评价网络,如何建立模型,是一个令人惊讶的难题,凸显了学术影响力评价在科学界面临的更为广泛的挑战。一个可能的解决办法是通过高阶学术网络来削弱引用膨胀。

6结论

在本文中,我们进行了一次全面的文献回顾,在量化的科学成就,重点是评价指标的学术影响。科学研究成果的量化发生了两个变化:(1)从非结构化评价指标到结构化评价指标;(2)从单一学科影响评价到跨学科影响评价。然而,基于文献的分析得出结论,尽管有大量的评价指标被用来解决科学成功的量化问题,但一些潜在问题的解决方案仍然是未知的,如协同影响模式、隐性成功因素挖掘、信息挖掘、信息挖掘、信息挖掘、信息挖掘、数据挖掘、数据挖掘、数据挖掘等,动态学术网络嵌入,学术影响通货膨胀。为了解决这些具有挑战性的问题,研究者可以从高阶学术网络、异构网络分析与建模、学术关系识别等方面进行探索。

参考文献:
[1] X Bai, Pan H , Hou J , et al. Quantifying Success in Science: An Overview[J]. IEEE Access, 2020, PP(99):1-1.

Quantifying Success in Science: An Overview2020翻译相关推荐

  1. 数学与计算机学院英文翻译,数学与计算机,mathematics and computer science,音标,读音,翻译,英文例句,英语词典...

    山西大同大学数学与计算机科学学院是于2006年在山西大同大学组建后成立的,前身是雁北师范学院数学系. 学校坐落于历史文化名城.煤海之乡山西大同.校园占地面积2292.82亩,建筑面积612605.43 ...

  2. 数学与计算机学院英文翻译,数学与计算机科学逻辑,logic for matheamtics and computer science,音标,读音,翻译,英文例句,英语词典...

    安徽大学数学与计算科学学院的前身是安徽大学数学系,创建于1929年,是中国较早建立的大学数学系之一.学院现设数学与应用数学.信息与计算科学.统计 学三个系,一个高等数学教学部,一个数学研究所.全院现有 ...

  3. 发送语音+讯飞翻译 项目案例

    数据结构 public LongSparseArray<RecordBean> recordList=new LongSparseArray<>(); 封装所有相关数据的Bea ...

  4. 论文中文翻译——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  5. 成绩单课程翻译参考总表

    生物物理学 Biophysics 真空冷冻干燥技术 Vacuum Freezing & Drying Technology 16位微机 16 Digit Microcomputer ALGOL ...

  6. 论文中文翻译——Double-Fetch情况如何演变为Double-Fetch漏洞:Linux内核中的双重获取研究

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--How Double-Fetch Situations turn into Double-Fetch Vulnerabil ...

  7. 论文中文翻译——Automated Vulnerability Detection in Source Code Using Deep Representation Learning

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Automated Vulnerability Detection in Source Code Using Deep R ...

  8. 论文中文翻译——A deep tree-based model for software defect prediction

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--A deep tree-based model for software defect prediction 论文阅读笔记 ...

  9. 2000门课程名称翻译大全

    2000门课程名称翻译大全 BASIC 语言及应用 BASIC Language & Application C 语言 C Language CAD 概论 Introduction to CA ...

最新文章

  1. 算法结构1.插入排序
  2. 一切为了AI!黄仁勋GTC大会发布全新DPU处理器,计算吞吐量三年跨越1000倍
  3. Windows下使用gvim
  4. post传参部分数据丢失
  5. mysql版本的索引类型_【mysql】索引 回表 覆盖索引 索引下推
  6. 网易严选的wkwebview测试之路
  7. X Window Messing With The Mouse Cursor
  8. MySQL-数据操作-增删改查
  9. 用Python写一个批量生成账号的函数(用户控制数据长度、数据条数)
  10. 虚拟机文件系统混乱,导致编译失败
  11. c语言编程数的平方,C语言编程实例:由两个平方三位数获得三个平方二位数
  12. Java使用thumbnailator批量压缩JPG图片、加水印
  13. ORA-12801: error signaled in parallel query server PZ99分析
  14. Autosar Dcm模块之Vector Configurator Pro配置(DSP子模块)
  15. 语音识别技术的前世今生之前世
  16. 盯住Z世代增量,汽车之家818车晚透露哪些营销信号?
  17. CSS解决文字与图片不能水平居中对齐的问题
  18. PTA使我精神焕发 (5分)
  19. 阿里云MVP课堂:零基础建站,满足你拥有自己网站的心愿
  20. MinIO的介绍以及简单的使用

热门文章

  1. 淘宝运营是什么意思?运营要学习的内容有哪些?
  2. 511遇见易语言乐玩插件FindMultiColor找色多点及找色块
  3. 数学物理方法·基础⑥e^iπ+1=0的基本物理意义
  4. linux 查询文件大小大于1g_常用Linux命令
  5. SecureCRT提示 not contain an entry for the hostname
  6. PNG背景透明 转成 BMP背景透明
  7. solidworks装配体改为柔性_三维软件技巧知识:SOLIDWORKS方程式如何控制焊接机架尺寸!...
  8. 基于 xbot 实现微信关键词自动回复
  9. 【AIoT库】RFID基础知识第5期 · 市场应用及前景
  10. Android 自定义Camera(一)如何预览相机