科学网

您所在的位置：网站首页 › 定量评价和定性评价的优缺点是什么 › 科学网

科学网

2024-07-03 07:41| 来源: 网络整理| 查看: 265

基于文献利用数据的期刊论文定量评价研究精选

已有 12001 次阅读 2012-9-2 06:40 |个人分类:科学计量学研究|系统分类:论文交流| 论文评价

（博主按：下面的版本在文字上与发表版本有微小差异，内容是一样的。）

基于文献利用数据的期刊论文定量评价研究*

何星星武夷山

（中国科学技术信息研究所，北京，100038）

（发表于《情报杂志》2012年第8期）

摘要传统期刊论文评价工作关注的是论文内部特征和引用情况，本文从新的视角提出以文献的利用数据（包括网页点击量、浏览量、下载量），及调整指标(点击下载率、下载引用率)，综合评价一篇文章的表现力，并利用《PLoS Biology》与F1000系统数据做了实证分析，证明了上述指标的可行性，其表现也优于被引这一单一指标。

关键词 科技论文评价；文献使用指标；被引频次；下载量；点击量

中图分类号 G35 文献标识码 A

A Quantitative Method for Assessing Single Publications Based on Paper Usage Data

He Xingxing Wu Yishan

(Institute of Scientific and Technical Information of China, Beijing, 100038)

【Abstract】The traditional way of assessing scientific papers focuses on the internal characteristics and citation frequency. In this paper, we propose to do the evaluation from a new perspective—paper usage data. We introduce some new indicators, including paper usage index( HTML page views, downloads, citations) and the adjustment indicators (the ratio of download to views, the ratio of citations to download), to assess a single paper comprehensively. It is shown that this approach works and is better than using citation only，by comparing our ranking results drawn from PLoS Biology data with the F1000 paper scores .

【Keywords】evaluation of scientific papers；paper usage index；citation； HTML page views；download

1.引言

学术文献是科研产出的重要形式，可以从侧面反映国家、机构、个人的科研实力，也可以反映各学科发展现状和趋势。学术文献评价工作关系到国家科技的良性发展和原始创新能力的提高，关系到科研环境建设，具有重要意义。

目前，学术文献评价方式主要有三种：基于同行评议的定性评价，基于科学计量学指标的定量评价，以及二者结合的理想方式。

同行评议因人力、时间等因素限制，在海量文献不断涌现的数字时代面临诸多困难。评审专家精力时间有限，知识结构相对局限，人情利益等因素都是同行评议不可避免的难题。基于计量的定量评价集中于两项指标，论文发表期刊影响因子和被引频次，片面地使用这两种方式给学术评价工作带来很多弊端。影响因子代表一定时间内期刊的论文被引水平，同刊物内论文水平不一，这种简单的“以刊评文”的方式不恰当。2003年6月，科技部、教育部等五部委联合发布《关于改进科学技术评价工作的决定》，强调：“刊物的影响因子，在用于宏观上判断科学技术产出的总体情况是有意义的，但不宜作为具体论文内在价值的判断标准。”[[1]]此外，学科间引用情况不同，简单以被引频次评价文章也不合适。即使被引频次相同，也不能简单将两篇文章水平等同，因为被不同人、不同文章引用，其价值也是不同的。

传统论文评价工作更多关注论文的内部特征（基金资助情况、发表期刊情况、收录数据库等），对于外部特征仅仅是考虑到文章的被引频次，较为单一。在数字化时代，论文点击量、下载量、被链接次数等新的统计数据也唾手可得，这给单篇论文的评价工作带来新的视角。本文从文献利用数据方面定量评价单篇学术文献，用实例验证了该方法的可行性。需要指出的是，该方法也有待改进和完善。

2现有研究

目前，学术评价的对象集中于期刊、机构、科研人员，关于单篇论文评价的研究主要关注两方面：单指标评价研究与综合指标评价体系研究。

在单指标评价研究方面，Schubert A（2009）提出用单篇文献施引文献的h指数来表示这篇文章的h指数，该方法更适用于高被引文章[[2]]。Kosmulski Marek（2011）提出“成功论文”（successful paper-SP）的概念，并定义成功论文：一篇论文的被引用次数超过该文章参考文献的数量的论文[[3]]。Van, Erjia，Ding, Ying（2010）[[4]]，Walker, Dylan , et al.（2007）[[5]]，Su Cheng, et al.（2010）[[6]]等人，提出基于pagerank的思想的单篇文献评价方法，综合考虑引用的数量与质量，引入引用间隔时间权重和引用期刊的知名度权重。Fragkiadaki E等人提出F-值指标，在引文网络中，区分直接引用与间接引用，并考虑路径深度n，按照一定算法得出相关论文的F值[[7]]。Lutz Bornmanna等人提出了引用速度指标（citation speed index），主要是指文献第一次被引用的时间间隔，一般而言从发表到第一次被引的时间间隔越短，该文章的影响力越高[[8]]。Hu Xiaojun,Ronald Rousseau,Chen Jin提出基于文章参考文献数和二代引用数的CR指数、CC指数[[9]]。邱均平提出了论文质量指数（Paper Quality Index）,可以解决不同学科之间比较和时效性方面的问题[[10]]。吴勤[[11]]、钟文一、陈云鹏[[12]]从消除自引的角度出发，设计了引证强度/引证系数，优化了影响因子。徐芳、刘文斌、李晓轩提出等同论文数（EPN）[[13]]，通过稿件录用率测量学术论文中包含的等同工作量，实现对学术论文质量的评估。

在综合指标评价方面，Cho SR提出了开源环境下论文的评价综合指标，设计了OAR评价模型[[14]]。PLoS ONE总编Peter Binfield在2009年12月召开的一次科学计量学会议上，就网络环境下论文质量评价可以考虑的因素做了分析，并提出了相关的指标，包括使用数据、浏览量、从Scopus 和 CrossRef获得的引用量、社会网络链接、相关新闻报道、评论和读者评级等[[15]]。Sombatsompop N等人在对引文的评估中，提出了文章影响因子（article impact factors ，AIF）、位置影响因子（position impact factors ，PIF）、期刊影响影子（ journal impact factors ，JIF）等多个指标，使用多指标进行评价，特别考虑了在文章不同位置引用应该给予不同权重[[16]]。国内研究方面，张玉华、潘云涛、马峥提出用期刊文献类型、期刊影响力、国际显示度等多项指标综合评估科技论文质量[[17]]。杨亚晶、左惠凯等对高校的学术评价文献体系进行了研究，主要基于发表论文级别、会议论文级别、著作的字数以及论著类别等方面的考虑[[18]]。金晶、何钦成、王孝宁等对跨学科门类的学术论文影响力评价方法进行了研究，建立了综合评价体系下应用TOPSIS法计算其综合评价值、应用SOM法聚类的一套评价体系[[19]]。苏学、郭继军等人分别对期刊论文质量评价指标体系进行了探讨，并初步设计了一系列相关指标（期刊影响因子、论文被引情况、论文基金资助情况等）[[20]]。程艳丽依据期刊影响因子、被引频次和h指数，运用期刊评价的数学模型来评价学术成果，在比较同行评议的基础上探讨综合评价方法[[21]]。于跃进对学术研讨会论文进行定性评价与定量评价，增加定量评价因子，体现评价的层次性与综合性[[22]]。罗江琴提出了基于Web社区的科研论文自动评价方法，该方法本质上是模拟同行评议[[23]]。

综上，单篇文献单指标评价专注于“引用”指标，并适度计及引用的质量，例如引入时间截点、影响因子、直接间接引用、自引他引、引用位置等。在综合指标体系方面，除了被引频次、期刊影响因子外，人们还考察了一些其他指标，如发表论文的级别、学术会议级别、基金资助情况、被国际文献数据库收录情况、文献类型等。此外定量与定性评价相结合也是一大趋势。

3指标选择

一篇文献大致包含两类信息，内部信息和外部信息。内部信息是指自发表之日起作者或编辑赋予文章的属性，如发表时间、发表期刊、发表栏目、基金资助、文献类型、参考文献数等。外部信息是指文献发表后来自外部的各种反馈包括引用、浏览、下载、评价、社会网络传播等，如表3.1所示。

表3.1 单篇文献信息分类

信息属性

具体信息

指标延伸

内部

发表时间

发表期刊

期刊影响因子等

文献类型

文章Article综述Review社评Editorial Material快报Letter等

基金资助

是否获得基金资助及基金级别

合著情况

是否合著；国际合著或国内合著

参考文献数

页数

发表栏目

外部

引用

引用的量：引用次数、引用半衰期

引用的质：引用论文自身的质量

网络浏览

总点击次数、浏览持续性：月浏览量大于平均水平（中值）的月份总数等

下载

下载总量、下载持续性：月下载量大于平均水平（中值）的月份总数

Blog覆盖量

科研类博客网站链接、关注文章的次数，如科学网、Nature Blogs、Bloglines等

社会网络标签数

个人在文献管理网站对文献添加的标签数量，目前比较出名的网站有CiteULike、Connote、百度文档等

如上所述，现有的单篇论文评价方式，在内部信息方面关注来源期刊的影响因子，在外部信息方面关注被引频次，仅此而已。本文尝试用更为全面的外部指标来评价单篇文章。考虑到目前数据可得性，本文提出以下外部指标来评价单篇文献的学术质量：

a. 被引频次：引用是对文章的直接肯定，是反映文章学术价值的重要部分。需注意，不同学科之间被引频次的不可比性，如需考虑论文在不同学科的被引情况，可考虑引用频次在学科内的被引百分位。鉴于被SCI收录期刊引用更有代表性，以及多数人的使用习惯，本文引用数据来自Web of Science。

b. 下载指数=0.4*下载量+0.6*下载持续性指数（数据需标准化）。下载也是文献利用的一种方式，表明该文章对读者的研究有参考价值，这种价值不一定反映在参考文献中（即引用），还可能是别的启发，如扩展文献阅读。下载量是从数量上反映文献被关注程度，但是可能有偶然因素导致数据偏高，如文章才发表时放在网站首页而被关注，本文提出下载持续性指数，即月下载量超过平均水平（取所有月下载量中值）的月数和，可反映下载的“质”，可部分消除这种偶然因素。

c. 浏览指数=0.4*浏览量+0.6*浏览持续性指数，算法同上。浏览是另一种文献利用形式，但其所传播的价值又是不及引用和下载的，这点可以用权重加以调整。

d. 浏览下载率=下载量/浏览量，反映文章被浏览后下载的概率，是对点击量的调整指标。

e. 下载引用率=引用量/下载量，反映文章下载后被引用的概率，是对下载量的调整指标。

浏览量、下载量和引用频次，都是关于“利用”的指标，本文将这三项合并成文献利用指标，并根据其重要性赋予相应权重，文献利用指标=0.5*被引频次+0.3*下载指数+0.2*浏览指数。d、e指标是对文献利用指标的调整，因为单方面提高某个指标是可以人为操作的，但是综合提高各项指标就有难度了。本文设定，单篇文章总得分=文献利用指标+浏览下载率+下载引用率（此处均是标准化值）。

4 基于 PLoS Biology的实证分析 4.1 数据准备

公共科学图书馆（Public Library of Science, PLoS）是一个由科学家和医生组成的非营利机构，致力于全球科学和医学文献的OA服务。PLoS Biology是PLoS旗下最具代表性的刊物之一，著名线上期刊PLoS ONE也是PLoS系列刊物之一种。PLoS在其网站上对每篇文章提供了详细的文章级别测度值（Article-level-metrics），包括使用数据（usage data）、浏览量（view data）、从Scopus和CrossRef获得的引用量、社会网络链接、相关新闻报道、评论和读者评级等，本文实证部分正是基于这些数据。考虑到论文使用的时滞性和科技评级的及时性，本文选取的是2010年发表在PLoS Biology并被SCI收录的所有文章，共243篇[1]，包括两种文献类型：Editorial Material和Article。由于社评文章很少，本文未对两种文献类型分别处理，而是视为一体。

数据说明：

(a)被引次数：截止到2012年4月18日某篇文章在Web of Science平台上获得的引用次数。

(b)点击量：文章自发表之日起在PLos网上被点击次数。

(c)下载量：文章自发表之日起在PLoS网站上以PDF格式及XML格式下载次数总和。

(b)、(c)数据均来自PLoS网站发布的PLoS-ALM文件，发布时间为2011年9月18日。

4.2 数据分布及相关性分析

对原始数据做单样本 Kolmogorov-Smirnov 检验，结果如表4.1所示，检验发现，只有点击下载率符合正态分布。

表4.1 原始数据Kolmogorov-Smirnov 检验

被引频次

浏览量

下载量

下载引用率

点击下载率

243

正态参数a,b

均值

13.03

3637.78

1018.33

.011866

.3106012

标准差

20.493

3907.273

692.107

.009616

.0766763

最极端差别

绝对值

.262

.251

.180

.137

.068

正

.234

.228

.180

.137

.068

负

-.262

-.251

-.160

-.109

-.060

Kolmogorov-Smirnov Z

4.090

3.909

2.810

2.142

1.063

渐近显著性(双侧)

.000

.208

a. 检验分布为正态分布。

b. 根据数据计算得到。

因为多数指标不符合正态分布，此处用Spearman系数（秩相关系数）检验指标间相关性。Ffa表示F1000系统中专家对某篇文章的评分（下文会有具体说明），可代表“金标准”。如表4.2所示，各个指标与Ffa的相关性都不强，可以从不同侧面反映文章质量。多数指标间相关性不显著，只有浏览量与下载量、被引频次与下载引用率显著相关，Spearman系数分别为0.88和0.860。网页点击量与点击下载率负相关，即当点击量很高时，提高该指标难度加大。

表4.2 原始数据相关性分析

Spearman 的 rho

浏览量

被引频次

下载量

下载引用率

点击下载率

Ffa

浏览量

相关系数

1.000

Sig.（双侧）

被引频次

相关系数

.394**

1.000

Sig.（双侧）

.000

下载量

相关系数

.880**

.524**

1.000

Sig.（双侧）

.000

下载引用率

相关系数

-.022

.860**

.071

1.000

Sig.（双侧）

.738

.000

.267

点击下载率

相关系数

-.343**

.214**

.078

.226**

1.000

Sig.（双侧）

.000

.001

.227

.000

Ffa

相关系数

.138*

.362**

.229**

.280**

.208**

1.000

Sig.（双侧）

.031

.000

.001

243

**. 在置信度（双测）为 0.01 时，相关性是显著的。

*. 在置信度（双测）为 0.05 时，相关性是显著的。

注：Ffa表示F1000文献评估系统基于同行评议的文献评分，作为定性参照。

4.2 方法及结果

本文采用标准分对数据进行标准化，计算各指标Z得分和T得分[[24]]，标准分能反映对象在集合中的位置，其最大特点是考虑到指标得分的相对难易程度。标准化后，利用本文所提指标将结果与F1000（Faculty of 1000）的评价Ffa得分进行对比。

F1000（Faculty of 1000）由英国BioMed Central发行，包括生物学（Biology）和医学（Medicine）两大系列，旨在为全球生物学及医学研究人员提供在线文献评估。其主要特点是：（1）评审成员由国际知名机构临床专家、学者组成；（2）评估的主要依据是文章的学术成就而不是文章一定要被SCI收录。专家组根据论文学术贡献度和科学价值，给予客观反映学术水平的评分（F1000因子，即Ffa得分），Ffa有三个等级分别为10分（杰出）、8分（必读）和6分（推荐）。在2010年PLoS Biology发表文章中，有67篇被F1000评估，分值从15分到6分不等。

根据国际科学计量学评价的习惯做法，对评价分值进行分级处理，划分为6级（top1%,top5%,top10%, top25%,75%-50%,最末位50%），并比较在不同级别内定量与定性选择的重合率，具体结果如下表4.3所示。F1000是一个主观评价的系统，评审专家对于文章的评估出于多种角度，与定量评价必然有出入，例如某些文章F1000评分很高，但是被引次数、点击量、下载量都不高。但仍可看出，我们的评价总分前25%的文章（文章分级为1-4），与F1000的重合率还是可观的，而且随着文章级别的降低，重合率也在下降，说明本文的指标能从一定程度上反映文章质量。另外，我们发现，采用综合指标时重合率的降低趋势优于单采用被引频次时重合率的降低趋势。在文章FFa平均得分方面，虽然有小波动，但总体来说是下降的。由于参与同行评议者对分数的把握程度不同，这种分数上的波动是可以理解的。

表4.3 本文指标、被引频次指标与F1000系统评估重合率对照表

总分百分位位置

文章分级

总篇数A

F1000收录篇数B(综合指标）

F1000收录篇数B1（被引频次）

重合率=B/A(综合指标）

重合率=B1/A（被引频次）

篇均F得分=∑Ffa/B（综合指标）

篇均F得分=∑Ffa/B1（被引频次）

X>=99%

67%

11.50

95%

【本文地址】

公司简介

联系我们