大学排名相关指标的数据挖掘 您所在的位置:网站首页 大学排名重要不重要 大学排名相关指标的数据挖掘

大学排名相关指标的数据挖掘

2024-07-15 07:42| 来源: 网络整理| 查看: 265

大学排名相关指标的数据挖掘 学生成果展示 发布时间:2017年05月06日

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据科学导论》优秀学生成果

小组成员:

张怿良(清华大学数理基科班14级本科生)

张云舒(清华大学数理基科班14级本科生)

金    帆(清华大学自动化系15级本科生)

尹秋阳(清华大学自动化系15级本科生)

指导教师:俞  声

摘  要

大学排名一直都是社会关注的焦点,尤其是对于学生而言,通过排名了解学校是必不可少的。然而,我们常常会怀疑现存排名的合理性,也关心究竟是哪些因素影响了大学的排名,也好奇过一些简单的指标来判断一所学校的水平。本研究通过爬虫、网络检索等方式获取大学排名相关的数据,并通过相关性分析、机器学习等方法,寻找出大学排名相关的因素和判断顶尖大学水平的方法,并通过大学排名来获取更进一步的信息,如地理位置等。

1. 研究背景 1.1 引言

究竟什么样的大学才是好的大学?

不得不承认的是,给大学排名本身是一个困难的、主观的、有争议的课题。迄今为止,全世界各个地区有上百套不同的大学评价体系。他们运用不同的特征,采取不同的方法,针对不同地区的大学,给出了他们所认为的全世界大学排行榜供世人参考。许多得出的排名和结论往往还是相冲突的。

关于大学排名,我们主要关注以下几点:

1.1.1 大学间的相对位次

是指某两所大学间的孰优孰劣。众所周知,全世界不同区域都有顶尖大学互相掐架。从清华与北大,哈佛大学和MIT再到加州伯克利分校和斯坦福大学,很多学校因毗邻的地理位置和相近的学术成就,都在不断竞争希望能够在排名上高于对方。

1.1.2 世界优秀大学分布

是指世界优秀大学的地理分布。优秀大学有集聚性,我们会关心世界上优秀大学都在哪里,他们有哪些相似性。

1.1.3 现有评价体系特征

基于现有评价体系琳琅满目,不免让人对评级体系内部流程产生兴趣。我们会关心各种评价体系的不同侧重点,也会关心评价体系内部特征相关性和合理性。我们想知道的是,一个大学的优秀程度究竟和哪些特征的相关性最大?

1.1.4 获取排名的简单途径

由于大多数排名中的指标和特征很难被普通人获取(例如一些论文发表数、校友评价等等),普通人只能通过看排名得知大学好坏,却无法自己通过简单分析得到。我们所关注的是,存不存在一种简单、易获取的评价特征。让普通人也可以很快定性得出大学排名和大学好坏。

我们期望通过自己一学期《数据科学导论》的学习,体验整个从数据收集、数据清洗到分析、可视化的数据处理过程,从而回答以上我们所关心的有关大学排名的问题。

2. 数据收集及清洗 2.1 Kaggle数据集

Kaggle 是一个数据分析的竞赛平台, Kaggle上的“世界大学排名”数据集(https://www.kaggle.com/mylesoneill/world-university-rankings )中包含了三种大学排名体系的公开数据,其中一种是Times Higher Education World University Ranking(THE)。THE的数据集情况如下:

2.2 网页数据的获取

2.2.1 大学之间的“相关条目数”(弃用)

某个大学的词条数可以作为一个很好的特征去分析大学。在单个大学搜索的基础上,我们产生了分析“相关条目数”的想法。我们的想法是基于这样的假设:如果大学A和大学B是相似的,则他们共同的搜索结果比较多,原因在于他们往往共同出现。

我们发现,我们的这种假设不能和上述数据符合。因此,我们放弃了这种检验各学校两两之间相关性的做法。

2.2.2 院校论文总数的爬取(Bing学术)

在2.2.1节爬取搜索结果条目数时,我们发现不同搜索引擎的条目数相差较大,在通用搜索引擎中,排名相近的学校的条目数也相差很大。为了解决这个问题,我们认为相比于通用网页搜索,学术领域的垂直搜索得到的页面数更加准确;同时,论文总数也是我们考查的一个重要指标。

2.2.3 结果对比:论文总数 v.s. Bing学术条目数

 Fig. 论文总数和Bing学术条目数的关系

图线呈现出一个逗号的形状,这是一个有趣的发现。

依照逗号形图线,学校被大致分为了两类。对此我们的解释是:对于A类学校,它们的论文在发表后很少被再次引用,因而条目数和论文数非常接近。而对于B类学校,它们的论文被多次引用,因而同一篇论文实际上关联着多个条目。

2.2.4 最能反映学校排名的指标是论文总数

(图:P、S、W和学校排名R之间的关系)

从这个图中看出,P、S、W三个指标均和学校排名呈现(近似线性的)负相关。我们认为使用波动最小的论文总数来衡量一个学校的排名更加合理。这与后文更进一步的分析结果相符。

同时,我们发现,通用搜索的结果参考价值不大。可以从下图看出,Bing普通搜索的条目数W与其他两个指标之间相关性很弱(线性回归的R^2



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有