四种likert量表等级的设计对比研究

您所在的位置：网站首页 › 等级量表属于哪一种量表 › 四种likert量表等级的设计对比研究

四种likert量表等级的设计对比研究

2023-07-30 20:12| 来源: 网络整理| 查看: 265

关键词: Likert量表等级 电视节目 满意度 区分度 稳定性 有效性

内容摘要: Likert等级量表的应用，学者们在商品、服务满意度调查等多领域已有较为充分研究，但对于文化创意类产品如电视节目的满意度调查，且调查结果将被直接应用于连续性的季度或年度考核时，哪种量表最为适用，业界并无明确定论。本文选取2014年1-4月有播出的各卫星频道热门节目30个，分别采用五分制、七分制、十分制和百分制五对观众进行了满意度调查，利用调查数据试图分析出哪种量表对应用于考核管理需要的电视节目满意度调查更为有效。

ABSTRACT：The application of Likert Scaling. Scholars have conducted relatively sufficient researches in satisfaction surveys of goods and services. But there is not a widely used tool for the measurements of cultural creative products such as satisfaction surveys of television programs, of which the results will be directly applied to successive quarterly or annual appraisals. Therefore, there is no conclusion as to which scale is the most applicable. This article selects thirty popular programs broadcasting on the satellite channels , respectively using five-point scale, seven-point scale, ten-point scale and centesimal system in audience satisfaction survey. By analyzing the survey data, the author is trying to tell which scale is the most effective, especially in the satisfaction survey of TV programs for the program evaluation.

KEY WORD: Likert Scaling, the survey of audience satisfacation , recognizability ,stability, validity

1 研究背景及问题提出

满意度调查普遍应用于各个领域，无论通过单个题项直接调查，还是通过多题项量表形式调查，目前最常使用的是Likert量表打分的方式进行。对于哪种等级量表最合适有效，学者在商品、服务满意度调查等多领域已有较为充分研究。代表性的研究有美国学者Cox在1980年回顾大量量表文献后认为[①]：1）适用于任何情况的最优量表等级并不存在，分析量表精度必须考虑研究问题、研究对象等实际情况；2）相对于3级以上量表，2级和3级量表可收集到调查对象的信息过少；3）根据调查对象是否能合理选择中性中间点，而选择是否推荐使用具有中性中间点的量表；另外，应答选项的增加可一定程度减小中性中间点的被选比例；4）较多研究者的研究结论都支持：5级、7级、9级、10级量表的精度都较好，明显高于5级以下和10级以上量表的精度，且5-10级适用于多数情况。澳大利亚学者John在2002年和2008年两次研究中得到，5级、7级、10级、11级量表的数据都呈现负偏态和平阔峰分布，但量表之间在偏度和峰度并不存在显著性差异[②] [③]。另外研究者还发现，不同人群的分辨能力也会影响到量表等级的选择。英国学者Eduardo等[④]在2009年的流行病学研究发现，对于没有受过教育的人群，3级likert式量表的测量特性要好于5级。荷兰学者Borgers等[⑤]认为，针对青少年和儿童的量表最佳等级为4级，应综合考虑调查对象的分辨能力、配合程度及调查内容的敏感性等情况，以决定如何设置才能获得更好的调查结果。

央视市场研究个案集群研究部长年来一直承担着国内诸多电视台的栏目观众满意度的评价工作，在问卷中我们根据调查目的和对象的不同，一般使用五分制、十分制与百分制让观众对栏目的满意度进行打分，但哪种量表针对电视节目的满意度调查更为有效，尚未做过系统性的对比分析研究，本文选取2014年1-4月有播出的各卫星频道热门节目30个采用不同量表对观众进行了满意度调查，以下的分析将应用这些采集到的数据围绕下述四个问题进行探讨，用以了解各个量表的特点和差异，并进而得出在电视节目的满意度调查中，使用哪种量表最为有效。

（1）观众对四种量表的打分特点是什么？四个量表所采集到的数据分布上是否存在统计学差异；

（2）四种量表区分度研究：意在了解各量表在同一个评价对象上是否能有效的区分开评价高的人与评价低的人；

（3）四种量表稳定性研究：分析各量表在不同多次调查中的数据稳定性，以便发现稳定性最高的量表；

（4）四种量表敏感度研究：针对多个电视节目，判断哪种量表更能在统计学意义上分辨出各节目的差异，便于电视台做节目排名使用。

2 研究设计及研究方法

本研究随机选取当前卫星频道较为热门的30个电视节目（见表1），在全国范围内分别以5分、7分、10分和百分量表对观众进行了满意度的数据采集，调查共设计了ABCD四类问卷，每类问卷对应一种量表，如A类问卷对应5分量表，B类问卷对应7分量表，C类问卷对应10分量表，D类问卷对应百分量表。调查采取访员随机入户问卷调查的方式，抽样范围为全国406个区县中的186个样本点，每个样本点样本量为4或4的倍数，ABCD四类问卷在每个样本点循环使用。全国设计访问量为12000，即每类问卷设计样本量为3000，调查执行时间为2014年5月15日到6月15日，共回收有效样本A卷3170份，B卷3145份，C卷3099份，D卷3106份，总计12520份。

表1 本文研究的30个热门电视节目

编号

节目名称

频道

编号

节目名称

频道

出彩中国人

CCTV-1综合

快乐大本营

湖南卫视

梦想合唱团

CCTV-1综合

我是歌手

湖南卫视

舌尖上的中国第二季

CCTV-1综合

天天向上

湖南卫视

中国谜语大会

CCTV-1综合

我们都爱笑

湖南卫视

寻找最美系列

CCTV-1综合

花儿与少年

湖南卫视

嗨2014

CCTV-1综合

最强大脑

江苏卫视

中国好歌曲

CCTV-3综艺

非诚勿扰

江苏卫视

中国汉字听写大会

CCTV-10科教

金牌调解

江西卫视

中国成语大会2014

CCTV-10科教

中国达人秀

上海东方卫视

超级演说家

安徽卫视

笑傲江湖

上海东方卫视

养生堂

北京卫视

年代秀

深圳卫视

梨园春

河南卫视

非你莫属

天津卫视

成语英雄

河南卫视

中国梦想秀

浙江卫视

爸爸去哪儿

湖南卫视

中国好舞蹈

浙江卫视

超级演说家

安徽卫视

爸爸回来了

浙江卫视

目前国内外学者对量表精度的检验，最常用到且有效的方法是信度、效度检验。其中信度通过内部一致性系数、折半系数、相关系数[⑥]、[⑦]、方差比例系数[⑧]等方法来检验；效度则分为校标效度、结构效度、内容效度，通过探索性因子分析（EFA）、验证性因子分析（CFA）、结构方程模型等方法进行验证[⑨][⑩]。

由于本文研究电视节目满意度，每个节目满意度问题只有一个，且30个节目满意度之间相互独立，因此上述传统的信度、效度、相关系数等传统检验量表精度的方法在本研究中均不合适。本文针对上述四个研究问题，采用相应的研究方法如下：

（1）通过非参数K-S、偏度、峰度等参数值判断观众用四种量表的打分特点，以及数据在分布上是否存在显著差异，另外通过比较四种量表在中间点比例是否存在显著差异来判断四种量表在数据上的离散程度。

（2）四种量表区分度研究。通过项目分析方法，将每个节目满意度数据按升序排列，分别选取前后27%数据作为高分组和低分组，通过独立样本T检验进行差异检验，并通过t统计量比较四种量表在高低组别上的区分度；

（3）四种量表稳定性研究。将本次各节目在四种量表的数据作为一个样本总体，首先通过随机数（RV.Uniform）将样本总体分为两组，再通过bootstrap随机抽取1500份作为子样本，接下来通过两方面进行稳定性验证：1）检验子样本中两组数据在30个节目满意度均值是否存在统计学差异：2）计算子样本中两组数据在30个节目满意度上的pearson相关系数。将上述步骤在软件中循环重复100次，统计每次的检验结果，进而对比四种量表的稳定性。

（4）四种量表敏感度研究。对特定数量电视节目（本研究为30个节目），通过独立样本均值差异t统计量，计算四种量表在0.05显著性水平下最小均值差，进而判断哪种量表在统计学意义上可以更好的对电视台节目的满意度进行排名，以更好的服务于电视台对于节目的考核与管理。

3 四种量表数据对比研究

3.1 四种量表数据分布研究

3.1.1数据正态分布检验

与前人在满意度调查的数据分布特征上一致，四种量表均不符合正态分布，均呈现明显的左偏，。另外，5分和7分量表的峰度均小于0，说明两种量表数据分布更扁平，即平阔峰；而10分和100分量表刚好相反，分布更陡峭，属于尖峭峰。说明人们在10分和100分量表上，更倾向选择量表中的峰值点

表2 四种量表中30个节目在各指标上的描述统计（均值±标准差）

量表种类

样本量

标准差

偏度

峰度

K-S Z值

5分

496.67±357.83

0.77±0.05

-0.64±0.24

-0.04±0.58

5.50±2.23

7分

494.07±355.19

1.08±0.06

-0.67±0.20

-0.02±0.41

4.68±1.81

10分

486.47±332.83

1.54±0.09

-0.74±0.17

0.48±0.49

3.93±1.47

100分

480.20±351.88

13.47±1.66

-3.16±0.62

15.50±4.85

3.60±1.43

图1 5分、7分和10分量表各分值上的平均比例（%）

图2 100分量表各分值上的平均比例（%）

3.1.2、中间点比例分布差异检验

对于量表中间点的设计，研究者一直存在争论。多数研究者希望能获得调查对象明确的态度或行为频次，而不是类似于“不同意也不反对”、“一般”等模棱两可的选项，但没有中性中间点会使某些调查对象被迫选择不适合自己情况的其他选项；而设置中间点又增加不认真作答的调查对象选择这一选项的倾向，或调查对象对某些敏感问题不愿表达自己想法时的选择。2008年美国学者John 等[11]研究发现，中性中间点对量表的信度和效度没有影响，并建议设置中性中间点，让调查对象在其他选项不适合自己时有所选择。另外，早在1972年Matell等[12]的研究发现，随着量表等级增加，调查对象选择中间点的比例有所下降，3级和5级时，平均有20%的调查对象选择中间点，而7级、9级到19级时，只有7%的调查对象选择中间点。因此，可通过增加量表等级来减小中性中间点带来的误差。

在本研究中的四种量表都有中间点，因此可以通过比较四种量表的中间点比例来检验四种量表在中间点上带来的误差大小。在检验之前，首先将四种量表数据为五个分值段：低分段、中低分段、中间分段、中高分段和高分段，五个分值段在四种量表分别对应的区间如下表：

表3 四种量表五档分值上的分布区间

量表种类

低分

中低分

中间分

中高分

高分

5分

7分

2-3

5-6

10分

1-2

3-4

5-6

7-8

9-10

100分

0-19

20-49

50-69

70-89

90-100

图3 四种量表各分值段的平均比例分布

经检验发现，100分量表的中间点被选比例最低（p0.05）。另外，在四个量表中，只有100分量表的数据分布比例最高出现在90-100高分段，而其他三个量表都出现在中高分段。

综合来看，虽然100分量表的中间点比例最低，但是100分量表都集中在中高分和高分段（如表5），在数据分布上失去了量表低分和中低分段的意义。因此7分量表中间点被选比例最低，并且7分量表中高分比例在四种量表中比例最高，

表4 四种量表中间点比例

5分量表

7分量表

10分量表

100分量表

均值

16.36%

10.75%

15.30%

4.10%

最大值

26.00%

（嗨2014）

16.95%

（梦想合唱团）

21.99%

（中国喜剧星）

2.64%

（非诚勿扰）

最小值

8.22%

（最强大脑）

5.43%

（中国汉字听写大会）

7.99%

（舌尖上的中国）

0.10%

（超级演说家）

3.2 四种量表区分度研究

本节通过各节目在不同量表得分进行项目分析，检验各量表的区分度。将各节目的样本由低到高排序，分别选取前27%人群作为低分组、后27%人群作为高分组，进行独立样本t检验。结果显示：四种量表在各节目上的高低分均存在非常显著的差异（p10分

10分

32.965

11.009

——

0.944

0.804

7分

37.828

15.446

——

0.668

5分

34.768

13.744

——

注：表中第4-6列为两两量表之间t值的pearson相关系数。

3.3 四种量表稳定性检验

将原有所有节目的样本随机分为两组，对比30个节目在两组中的四种量表得分是否存在显著差异。检验结果显示：5分、7分、10分和100分四种量表出现显著差异的节目数分别为2、4、3、1个（p为两个节目间的满意度均值差，S2某个节目满意度得分的标准差，n为样本数。

为计算四种量表的有效性，本研究假设所计算的两个样本标准差均为量表内30个节目的平均标准差，样本量均为500。因此应采用t检验统计量公式（1）来计算，在自由度为998（500+500-2）时，95%置信区间下的t统计量为1.962344，99%置信区间t统计量为2.580765。在这两个置信区间下分别计算出四种量表对应的敏感度，结果见表17：

表8 四种量表95%和99%两种置信区间下的敏感度

量表种类

标准差

两节目的样本量

敏感度（p=0.05）

敏感度（p=0.01）

5分

0.765

100

0.24393

0.32171

300

0.14025

0.18454

500

0.10855

0.14276

1000

0.07671

0.10085

1500

0.06262

0.08232

2000

0.05423

0.07128

7分

1.077

100

0.28942

0.38172

300

0.16641

0.21896

500

0.12880

0.16939

1000

0.09102

0.11966

1500

0.07430

0.09767

2000

0.06434

0.08457

10分

1.541

100

0.34620

0.45660

300

0.19906

0.26192

500

0.15407

0.20262

1000

0.10887

0.14314

1500

0.08888

0.11683

2000

0.07696

0.10116

100分

13.471

100

1.02359

1.35001

300

0.58855

0.77439

500

0.45552

0.59907

1000

0.32190

0.42320

1500

0.26278

0.34543

2000

0.22755

0.29911

图4 四种量表不同样本量下95%置信区间的敏感度

结果可见，在0.05显著性水平下，5分、7分、10分和100分四种量表两个节目之间存在显著差异的满意度均值差分别为0.108582、0.128780、0.154045和0.455521。居于此，结合四种量表极差值（最大值-最小值），将四种量表分成多个敏感度组别，即每个组别间的节目存在满意度显著差异，而每个组别内的节目满意度不存在显著差异。敏感度组别数计算公式为：

Xi表示第i种量表的各节目满意度均值，mi表示第i种量表的敏感度。经计算，5分、7分、10分和100分四种量表可划分的敏感度组别数分别为5、6、7和16组。从30个节目在四种量表的敏感度组别分布情况可以看出，100分量表可以更加精细化调查出每个节目的满意度，每个敏感度组别中的节目数最少，调查精度最高。

表9 四种量表95%和99%两种置信区间下的敏感度

量表种类

极小值

极大值

敏感度（p=0.05）

敏感度组别数

5分

3.90

4.45

0.108582

7分

5.43

6.17

0.12878

10分

7.31

8.37

0.154045

100分

82.28

89.65

0.455521

图5 30个节目在5分量表各敏感度组别内的节目占比（%）

图6 30个节目在7分量表各敏感度组别内的节目占比（%）

图7 30个节目在10分量表各敏感度组别内的节目占比（%）

图8 30个节目在100分量表各敏感度组别内的节目占比（%）

4 总结与讨论

从上述分析可以基本看出，在电视节目满意度调查中，5分、7分、10分和100分四种量表的数据均具有效度。

在数据分布上，100分量表在抽样误差随样本量减小的速度明显不如其他三个量表。100分量表在中高分段和高分段上比例明显高于其他三个量表， 7分量表的中间点比例相对5分、10分量表最低，中间点带来的误差最小。

人们对节目满意度评价越低，在5分、7分和10分量表选择中间分的概率会越高，而在100分量表中选择中高分的概率最高；另外随着人们的满意度分值越低，7分量表中选择中低分段的概率是四种量表中最高的。

从量表区分度来看，100分量表最低，其次是10分量表，7分量表比5分量表略高。表明100分量表对观众两个极端态度的评价上最差。这与人们不怎么选择百分制下的中低分段是直接相关的。

[①] EU P. COX III. The optimal number of response alternatives for a scale: a review【J】. J Mark Res, 1980, 17: 407-422.

[②] John D. Five point vs. eleven point scales: does it make a difference to data characteristics【J】. Australas J Market Res, 2002, 10: 39-47.

[③] John D. Do data characteristics change according to the number of scale points used【J】 Int J Market Res, 2008, 50: 61-77.

[④] Eduardo C, Marcelo PF, Mick P. Literacy affected ability to adequately discriminate among categories in multipoint Likert Scales【J】. J Clin Epidemiol, 2009, 62: 37-46.

[⑤] Natacha B, Joop H, Dirk S. Response effects in surveys on children and adolescents: the effect of number of response options, negative wording, and neutral mid-point【J】. Quality & Quantity, 2004, 38:17-33.

[⑥] 王晓钧，7种嫉妒评估量表的信度与效度研究【J】，心理科学，2001（5）

[⑦] 保宏翔，患者滴意度量表的设计及信、效度评价【J】，卫生职业教育，2010（21）

[⑧] 李红梅、刘喜波，相关原理在量表信度评价中的应用【J】，数学的实践与认识，2009（18）

[⑨] 张卫东，应对量表(COPE)测评维度结构研究【J】，心理学报，2001,33（11）：55-62

[⑩] 王华、金勇进，统计数据质量与用户满意度：测评量表设计与实证研究【J】，统计研究，2010（7）

[11] John TK, Alicia AS, Brad AH. Middle response functioning in likert-responses to personality items【J】. J Bus Psychol, 2008, 22: 251-259.

[12] Matell Michael S, Jacob Jacoby. Is there an optimal number of alternatives for Likert-scale items? Effects of testing time and scale properties【J】. J Appl Psychol, 1972, 56: 506-509.

【本文地址】

公司简介

联系我们