基于月季微卫星标记的7个遗传相似系数比较

您所在的位置：网站首页 › UPGMA聚类分析图 › 基于月季微卫星标记的7个遗传相似系数比较

基于月季微卫星标记的7个遗传相似系数比较

2024-07-11 14:40| 来源: 网络整理| 查看: 265

DNA分子标记是指生物个体间或者群体间基因组上的DNA差异片段。随着现代生物技术发展，开发出许多DNA水平差异检测技术。目前，分子标记广泛应用于分子辅助育种、群体遗传多样性评价、物种系统发育、亲缘关系分析、品种鉴定以及依赖性派生品种(essentially derived variety)认定等方面的研究(van Eeuwijk et al.，2004;Heckenberger et al.，2005)。在这些研究中，数据分析都是基于个体间遗传相似度或遗传距离，选择不同遗传相似系数导致分析结果存在很大差异(Kosman et al.，2005)。因此，选择合适的遗传相似系数对于准确估计个体间遗传相似度、评价群体间遗传多样性尤为重要。

遗传相似性分析往往基于分子标记数据。RAPD，AFLP等获得的是显性标记，该类型数据直接转换成为“0-1”二元矩阵;RFLP，SSR，SNP等标记产生共显性数据，二倍体生物中共显性标记可转成每个位点的基因型进行后续分析，而一些研究也直接将共显性数据转换为“0-1”二元矩阵进行遗传相似性分析。Rodrigues等(2008)利用微卫星标记研究大豆(Glycine max)依赖性派生品种鉴定，数据分析中使用相同等位基因数量与总等位基因数量比值计算品种相似度;Vosman等(2004)应用AFLP标记鉴定切花月季(Rosa hybrida)依赖性派生品种，数据分析中选择了Jaccard系数，研究结果表明原始品种与突变品种间Jaccard相似系数均大于0.96;Borchert等(2008)选择Dice系数进行了欧石楠(Calluna vulgaris)依赖性派生品种认定的研究。Kosman等(2005)认为先前的研究对选择合适的遗传相似系数缺乏理论指导，并提出选择遗传相似系数需要考虑分子标记特性、物种倍性、自交程度(杂合度)等诸多因素的影响。

月季是世界上最为重要的木本观赏花卉之一，大约包含200种，主要分布于北半球温带地区。月季通常指的是蔷薇科(Rosaceae)蔷薇属(Rosa)一类植物的总称，包括月季花、蔷薇、玫瑰等。根据美国月季协会(American Rose Society)分类方法，月季分为野生种(Wild Species)、古老月季(Old Garden Rose)和现代月季(Modern Rose)。现代月季多为四倍体(4x=28)，也有少数三倍体(3x=21)，染色体数目变异也给月季遗传分析带来一定难度。本研究以多倍体月季微卫星标记数据为基础，选择7个遗传相似系数计算月季品种间遗传相似度，采用UPGMA法进行聚类分析，并建立相应的系统树。通过遗传相似系数的相关性分析、系统树一致性分析、拟合优度分析以及聚类结果与品种谱系比较分析，探讨不同遗传相似系数在月季遗传分析中的适用性问题。

1 材料与方法 1.1 试验材料

49个月季栽培品种均采集于北京植物园苗圃，主要包括中国月季(China rose)、杂交茶香月季(Hybrid Tea rose)、丰花月季(Floribunda rose)、藤本月季(Climbing rose)、灌木月季(Shrub rose)、多花月季(Polyantha rose)、杂交玫瑰(Hybrid rugosa)以及法国蔷薇(Galica)等品种群(表 1)。

表 1 供试月季品种 Tab.1 Information of rose varieties

表 1 供试月季品种

Tab.1 Information of rose varieties

编号 No.品种 Variety品种群 Group编号 No.品种 Variety品种群 Group 1Rosa ' Yinrihehua'中国月季China26Rosa ‘Sweet Dreams’杂交茶香月季Hybrid Tea 2Rosa 'Viridiflora/中国月季China27Rosa ‘Ruby Wedding’杂交茶香月季Hybrid Tea 3Rosa ‘Old No. 1J中国月季China28Rosa ‘Paul Shirville’杂交茶香月季 Hybrid Tea 4Rosa ‘Old No. 6 J中国月季China29Rosa ‘Royal William’杂交茶香月季 Hybrid Tea 5Rosa ‘Zixianghong5中国月季China30Rosa ‘Warm Wishes’杂交茶香月季 Hybrid Tea 6Rosa ‘Simianjing5中国月季China31Rosa ‘Pride of England’杂交茶香月季 Hybrid Tea 7Rosa 'Yushizhuang’中国月季China32Rosa ‘Congratulations’杂交茶香月季 Hybrid Tea 8Rosa ‘Hermosa’中国月季China33Rosa ‘Deep Secret’杂交茶香月季 Hybrid Tea 9Rosa ‘Irene Watts’中国月季China34Rosa ‘Elina’杂交茶香月季 Hybrid Tea 10Rosa ‘Queen Mab中国月季China35Rosa ‘Royal Smile’杂交茶香月季 Hybrid Tea 11Rosa ‘Sophies Perpetual5中国月季China36Rosa ‘Summer Fragrance’杂交茶香月季 Hybrid Tea 12Rosa ‘Bloomfield AbundanceJ中国月季China37Rosa ‘Regensberg’多花月季Polyantha 13Rosa ‘Old Blush^中国月季China38Rosa ‘Summer Sunset’多花月季Polyantha 14Rosa ‘Comtesse du caylaJ中国月季China39Rosa ‘Snowdon’杂交玫瑰Hybrid rugosa 15Rosa ‘Columbian Climber’藤本月季Climbing40Rosa ‘Hazel le Rougete’杂交玫瑰Hybrid rugosa 16Rosa ‘Breath of Life5藤本月季Climbing41Rosa ‘Pearl Drift’灌木月季Shrub 17Rosa ‘Open Arms’藤本月季Climbing42Rosa ‘Sussex’灌木月季Shrub 18Rosa ‘Eden Rose 88 J藤本月季Climbing43Rosa ‘Many Happy Return’灌木月季 Shrub 19Rosa ‘Spice of Life’丰花月季Floribunda44Rosa ‘Rose Ball’灌木月季 Shrub 20Rosa ‘Twenty Fifth’丰花月季Floribunda45Rosa ‘Peter Beales’灌木月季 Shrub 21Rosa ‘Woman’ s Hour’丰花月季Floribunda46Rosa ‘Perle d’ Or’灌木月季 Shrub 22Rosa ‘Glad Tidings’丰花月季Floribunda47Rosa ‘Cardinal Hume’灌木月季 Shrub 23Rosa ‘Rememberance ’丰花月季Floribunda48Rosa ‘Sadler’s Wells’灌木月季 Shrub 24Rosa ‘Oranges and Lemons’丰花月季Floribunda49Rosa ‘Rhapsody in blue’灌木月季 Shrub 25Rosa ‘James Mason’法国蔷薇Gallica 1.2 研究方法 1.2.1 数据来源

分析数据源于月季品种的微卫星标记分析。先前的研究利用荧光毛细管电泳技术分析了49个月季品种在27个微卫星位点上的DNA指纹，具体微卫星标记试验步骤、微卫星引物来源均参考前人研究(Kimura et al.，2006;Hibrand- Saint Oyant et al.，2008;Zhang et al.，2006;Park et al．，2010;冯锦霞等，2011)，部分月季的微卫星毛细管电泳检测结果如图 1所示。

图 1 月季品种在位点Rw18N19 的等位基因变异 Fig. 1 Allelic variants of rose varieties at Rw18N19 locus rfu: 相对荧光单位Relative fluorescence units． 1.2.2 分析方法

研究选择了7个常用的遗传相似系数(表 2)，它们分别是Dice系数、Jaccard系数、 Simple Matching系数(SM)、Roger and Tanimoto系数(RT)、Russell and Rao系数(RR)、Hamann系数和Phi系数。其中，Dice系数、Jaccard系数、Simple Matching系数和Roger and Tanimoto系数是一种相似性配对系数，即相似匹配数与总匹配数的比值;Russell and Rao系数是一种二分点乘积配对系数;Hamann系数又称为Hamann概率，该系数原理是相似概率与相异概率之差;Phi系数是一个统计关联的系数，该系数与卡方检验相关。

表 2 遗传相似系数计算方法① Tab.2 Calculation methods of different genetic similarity coefficients

表 2 遗传相似系数计算方法①

Tab.2 Calculation methods of different genetic similarity coefficients

相似系数计算公式区间参考文献 CoefficientAlgorithmIntervalReference DiceC D)2 a/(2 a + b + c)(0，1)Dice，1945 Hamann(H)[(a+d)-(b+c)]/ [(a + d)+(b+c)](-1，1)Hamann，1961 Jaccard(j)a/{ [ (a + d)+(b+c)] - d}(0，1)Duarte et al.，1999 Phi(ad - bc)/$\sqrt {(a{\rm{ }} + {\rm{ }}b)(c{\rm{ }} + {\rm{ }}d)(a{\rm{ }} + {\rm{ }}c)(b{\rm{ }} + {\rm{ }}d)} $(-1，1)Yule，1912 Roger and Tanimoto(RT)a + d /[( b + c)+ ( a + b + c + d)](0，1)Rogers and Tanimoto，1960 Russel and Rao(RR)a /[( a + d)+ ( b + c)](0，1)Russel and Rao，1940 Simple Matching(SM)(a +d)/(b +c)(0，1)Sneath and Sokal，1973 ①a 表示品种i，j 共有条带，b 表示品种i 特有条带，c 表示品种j 特有条带，d 表示品种i，j 共同缺失条带。a denotes bands owned by variety i and variety j; b denotes specific band owned by variety i; c denotes specific band owned by variety j; d denotes bands absented between i and j in the whole matrix．

品种间遗传相似度使用NYSYS-pc 2.1e软件(Rohlf，2000)计算，然后根据品种间遗传相似矩阵，采用SHAN模块UPGMA法进行聚类分析。遗传相似矩阵间相关性分析使用Mantel检验(Mantel，1967)。rc共表型相关系数使用Cophenetic模块计算，该系数是用于检验原始遗传相似矩阵与聚类方法之间拟合优度的参数。聚类树状图CIc指数采用CONSENSUS-consensus tree模块计算，该指数是用于估计不同系统树间相对一致性的参数(Sokal et al．，1981)。S统计值(STRESS)使用MDSCALE模块进行分析，该值是用于估计不同遗传相似系数的拟合优度的参数(Kruskal，1964)，拟合优度分级参考表 3。

表 3 S 值拟合优度分级 Tab.3 Classification for goodness of fit of the graphic projection according to value of STRESS

表 3 S 值拟合优度分级

Tab.3 Classification for goodness of fit of the graphic projection according to value of STRESS

拟合优度分级Goodness of fitS 水平 STRESS level(%) 不合格 Unsatisfactory40 合格 Regular20 良好Good10 优秀 Excellent5 完美 Perfect0 2 结果与分析 2.1 遗传相似系数相关性

研究结果(图 1)显示，不同月季品种在相同的微卫星位点上等位基因表型存在明显差异。基于上述数据，利用7个遗传相似系数计算成对品种的遗传相似度矩阵，矩阵的相关性分析结果(表 4)显示7个遗传相似系数之间成对的相关系数介于0.726～1.000。Hamann系数与RR系数相关性最好，相关系数到达1.000;其次是SM系数与RT系数，相关系数为0.997;Jaccard系数与Dice系数之间的相关系数为0.991;RR系数与SM系数、RR系数与Hamann系数，相关系数均为0.738;RR与RT系数之间相关性最低，相关系数为0.726。

表 4 基于不同相似系数间相关系数① Tab.4 Correlation coefficients between different genetic similarity matrixes based on different similarity coefficients

表 4 基于不同相似系数间相关系数①

Tab.4 Correlation coefficients between different genetic similarity matrixes based on different similarity coefficients

相关系数 Correlation coefficientJDHRTRRSM D0.991 H0.9150.909 RT0.9150.9000.997 RR0.9350.9430. 7380. 726 SM0.9150.9091.0000.9970. 738 Phi0. 9830. 9880.9590.9520. 8870. 959 2.2 系统树一致性分析

不同的系统树一致性分析结果(表 5)显示，CIc指数范围在0.468～1.000之间。Dice系数与Jaccard系数，SM系数与RT系数，RT系数与Hamann系数，SM系数与Hamann系数间建树的一致性最高，CIc指数均为1.000。当CIc指数为1时，2个系统树完全一致。建树一致性最低的是RT系数与RR系数，SM系数与RR系数，CIc指数均为0.468。SM系数与Jaccard系数、SM系数与Dice系数之间的CIc指数均为0.702，表明SM系数与Dice系数以及SM系数与Jaccard系数的聚类分析结果相似，但也存在差异。RR系数与其他系数之间的CIc指数都低于0.6，表明RR系数建树结果与其他系数均存在较大差异。系统树一致性分析表明选择不同遗传相似系数进行聚类分析，结果存在较大差异。

表 5 基于不同遗传相似系数的UPGMA 系统树的CIc指数 Tab.5 Consensus fork index between dendrograms(UPGMA) produced by similarity coefficients

表 5 基于不同遗传相似系数的UPGMA 系统树的CIc指数

Tab.5 Consensus fork index between dendrograms(UPGMA) produced by similarity coefficients

一致性指数 CIcJPhiRTDSMH Phi0. 829 RT0. 7020.723 D1.0000.8290.702 SM0.7020.7231.0000.702 H0.7020.7231.0000.7021.000 RR0.5320.5740.4680.5320.4680.498 2.3 拟合优度分析

根据不同的遗传相似系数建立UPGMA系统树，7个遗传相似系数的rc范围在0.85～0.93之间(表 6)，RR系数的rc最大，其次是Dice系数和Jaccard系数，rc值为0.88，结果表明品种间遗传相似度在UPGMA聚类分析中有良好的体现。7个遗传相似系数的S统计值介于16.24%～29.90%(表 6)，RR系数的S值最低(16.24%)，Dice，Jaccard，Phi系数与RR系数处于同一优度，SM，Hamann系数以及RT系数的S统计值均超过20%，拟合优度相对较低。

表 6 相似系数拟合优度分级 Tab.6 Classifications of good-of-fit in different genetic similarity coefficients

表 6 相似系数拟合优度分级

Tab.6 Classifications of good-of-fit in different genetic similarity coefficients

相似系数 Similarity coefficient r c 值 Cophenetic correlation S 统计值 STRESS value (%) Phi 0.87 19.64 RT 0.85 29.90 D 0.88 17.44 J 0.88 17.43 SM 0.85 29.40 H 0.85 28.83 RR 0.93 16.24 2.4 聚类分析

系统树一致性分析表明Jaccard系数与Dice系数二者间建树结果一致，Hamann系数、RT系数、SM系数三者间建树结果一致。因此，选择对Dice系数、SM系数、Phi系数以及RR系数的聚类结果进行详细比较与分析。

基于Dice系数的聚类分析(图 2a)，月季品种分为2大类群(第Ⅰ类和第Ⅱ类)。其中，第Ⅰ类又分为I-A类和I-B类2个聚类群。I-A类包括品种1，2，3，6，7，8，13，44(44为灌木月季，其余为中国月季)。Ⅰ-B类又细分为Ⅰ-B1，Ⅰ-B2，Ⅰ-B3: Ⅰ-B1包括月季品种26，30，34等杂交茶香月季;Ⅰ-B2包括19，21，22，23，24等丰花月季以及多花月季;Ⅰ-B3包括月季品种11，3 8，4 7，4 9(该组品种间遗传差异较大)。第Ⅱ类群中包括品种4，9，12，14等中国月季品种。

图 2 基于Dice 系数(a) 和Simple Matching 系数(b) 的聚类分析 Fig. 2 Clustering analysis based on Dice coefficient( a) and Simple matching coefficient( b)

基于SM系数的聚类分析(图 2b)，月季品种分为2大类群(第I类和第II类)。第Ⅰ类由中国月季组成，它分为Ⅰ-A和Ⅰ-B 2个亚类。Ⅰ-A包括品种1，2，3，6，7，8，13，49;I-B包括品种4，9，10，12，14，4 6。第Ⅱ类分为Ⅱ-A和Ⅱ-B 2类。Ⅱ-A再细分为2类，Ⅱ-A1包括了所有的杂交茶香月季，Ⅱ-A2由丰花月季品种组成;Ⅱ-B由品种15，20，41，4 5构成。

基于Phi系数的聚类分析(图 3a)，样本分为2大类群(第Ⅰ类和第Ⅱ类)。其中，第Ⅰ类分为Ⅰ-A和I-B 2个亚类。Ⅰ-A包括品种1，2，6，7，8，13，44，4 7，4 9。I-B又细分为4组: Ⅰ-B1由杂交茶香月季组成;Ⅰ-B2由丰花月季品种组成;Ⅰ-B3包括品种15，20，28，31，41，43，45;Ⅰ-B4包括品种11，17，3 8。第II类群由品种4，9，10，12，46等中国月季组成。

图 3 基于Phi 系数(a) 和Russell and Rao 系数(b) 的聚类分析 Fig. 3 Clustering analysis based on Phi coefficient(a) and Russell and Rao coefficient(b)

RR系数聚类分析将月季分为4类(Ⅰ，Ⅱ，Ⅲ，Ⅳ)(图 3b)。第I类包括3个亚类: Ⅰ-A包括品种1，7，4 4，47;Ⅰ-B再细分为3类;Ⅰ-C由品种11，38组成。第Ⅱ类包括品种2，3，6，8，13。第Ⅲ类包括品种4，10，14。第Ⅳ类包括品种12，4 6。

通过对聚类树状图进行比较，结果显示基于不同遗传相似系数的聚类系统树存在差异。基于Dice系数的聚类分析，中国月季被分为2类，其中一类与其他类型月季组成一个大聚类群(Ⅰ)，而另一类独立组成一个聚类群(Ⅱ)，品种44与中国月季聚为一类，品种47和49单独聚为一类;基于SM系数的聚类分析将月季分为中国月季(Ⅰ)和其他类型月季(Ⅱ)2个类群，品种49与中国月季聚为一类，品种44，4 7单独聚类;基于Phi系数聚类分析，品种44，4 7，4 9与中国月季聚为一类;基于RR系数的聚类分析将中国月季分为4类，只有少量品种与杂交茶香月季、丰花月季等多个类型组成一个最大的聚类群(Ⅰ)，其余中国月季单独聚类。

3 讨论与结论 3.1 遗传相似系数相关分析

相关性分析结果表明遗传相似系数分为3类:第1类包括Jaccard系数与Dice系数，二者的计算式均不含d值(共同缺失条带)，只是在a值(共有条带)权重有所差别(表 1);第2类是Hamann系数、SM系数、RT系数以及Phi系数，这类相似系数均含有d值，Hamann系数是基于概率的系数，Phi是基于统计关联的相似系数;第3类则是RR系数，该系数计算式分母包含d值，被认为是一种“杂合”系数。Dice系数与Jaccard系数相关系数r为1，Hamann系数、SM系数、RT系数三者间相关系数r也为1，表明了这些系数表达式上虽然存在差异，但表达式之间存在某种函数关系。Miguel等(2003)利用假定矩阵和试验数据分析不同遗传相似系数对聚类结果的影响，结果显示无论矩阵结构还是分类拓扑结构，Jaccard系数与Dice系数产生结果一致，本次分析结果也印证之。这可能是由于二者计算原理相同，只是a值权重存在差异。已有研究提出Jaccard系数和Dice系数适用于RAPD数据分析，认为以RAPD标记数据为基础的个体间遗传相似度计算不应考虑d值(共同缺失的条带)，这是由于在共同缺失的情况下，DNA之间也可能存在差异(Duarte et al.，1999;Meyer et al.，2004)。每个微卫星位点上存在许多等位基因，个体所携带的等位基因数量有限，因此我们认为计算2个杂合基因型遗传相似度时，只需比较观测的等位基因之间的差异，不考虑d值。

3.2 系统树一致性

系统树一致性分析中的CIc指数是用于比较2个聚类结果之间的差异程度的参数。Dalirsefat等(2009)研究中SM系数与Jaccard系数，SM系数和Dice系数的CIc指数分别为0.75和0.76，相比于本文的分析结果略大;而Balestre等(2008)利用微卫星标记分析玉米(Zea mays)自交系的研究中，Hamann系数与RT系数的CIc指数为0.22，这可能与试验材料自交程度、基因组复杂程度、分子标记类型等因素有关。已报道的研究中RR系数与其他系数间的CIc指数均较低，本研究结果也证实了该系数与其他系数存在较大差异，RR系数在生物学研究中鲜有应用(Beer et al.，1993)。

3.3 不同遗传相似系数的拟合优度比较

根据Kruskal拟合优度判断标准(表 3)，RR系数最优，Jaccard系数和Dice系数与其处于同一水平，SM等系数拟合优度水平较低。但我们认为RR系数不适用于微卫星标记数据分析。首先，微卫星标记具有单位点特异性，每个位点存在较大等位基因变异，而个体中等位基因保有量是有限的;其次，月季栽培品种涉及到多个原生种杂交、回交，这也进一步增加了等位变异数量。等位变异数量大势必增加d 值，而在RR的计算式只在分母中包含d值，d值比例过高会导致样本间遗传相似度显著降低(图 3b)。SM系数也是前人研究中常用的遗传相似系数，SM系数计算式在分子和分母中均包含d值，在一定程度上可减少d值偏差产生的影响。

3.4 聚类分析比较

不同遗传系数的聚类树状图之间存在差异，主要差异是中国月季分类。SM系数将所有中国月季聚为一大类，然后再进行细分;而Dice系数和Phi系数则先将部分中国月季单独聚为一类，另一部分则与其他类型月季形成一个较大的聚类群;RR系数则先将中国月季分为3个独立的聚类群，每个聚类群包含2～3个品种，只有少数几个品种与其他类型月季组成一个较大的聚类群。基于Dice系数、Phi系数和SM系数的聚类结果，中国月季与其他类型的月季存在较大遗传差异，这与Scariot等(2006)结果一致，符合试验材料的真实遗传背景。

基于SM系数聚类分析中，灌木月季品种Rosa ‘Rhapsody in blue’与中国月季聚为一类，该品种的育种亲本涉及2个北美原生种———加州蔷薇(Rosa californica)和草原玫瑰(Rosa setigera)，因此，认为该品种与中国月季聚为一类是不合适的。基于Dice系数的聚类分析，灌木月季品种Rosa‘Roseball’与中国月季聚为一类，育种亲本涉及密刺蔷薇(Rosa spinosissima)，该种在中国有分布;品种Rosa ‘Cardinal Hume’和Rosa‘Rhapsody in blue’的育种均涉及到加州蔷薇，但二者育种亲本不同，因此聚类分析中2个品种聚为一类，而遗传相似度较低(图 2a)。基于Phi系数的聚类将Rosa ‘Rhapsody in blue’，Rosa ‘Roseball’和Rosa ‘Cardinal Hume’3个品种与中国月季聚为一类。通过聚类结果与品种谱系比较，研究认为Dice系数适用于月季品种遗传分析，其次是SM系数，数据分析最好避免使用Phi系数和RR系数。

3.5 多倍体遗传分析存在的问题

前人研究认为利用微卫星标记准确获得多倍体基因型比较困难，多倍体的微卫星指纹可能不是该位点等位基因型，而是一种“表现型”(Becher et al.，2000;Esselink et al.，2003)，并提出等位基因定量分析方法，如MAC-PR(Esselink et al.，2004)，但是定量分析的影响因素较多。许多研究中采用“0-1”矩阵方法对微卫星标记数据进行赋值，这种赋值方法的主要问题是观察的个体间遗传差异低于实际差异，还会降低品种鉴定中微卫星标记的分辨率。例如，四倍体植物中基因型1为AAAB，基因型2为AABB，基因型3为ABBB，利用“0-1”赋值方式分析该位点，统计结果均为“AB”。总之，应用微卫星标记分析多倍体遗传关系时，分析结果与实际情况之间存在一定的差异，而且多倍体遗传分析缺少合适的数学模型(Kosman et al.，2005)。

3.6 结论

遗传分析研究的基础是利用分子标记数据计算个体间遗传相似度或遗传距离，遗传相似系数的选择势必影响遗传相似度或者遗传距离的计算。综合考虑分子标记特点、遗传相似系数原理、物种杂合度、Kruskal拟合优度分级等因素，结合聚类结果与品种谱系比较，研究认为Dice系数和Jaccard系数适用于月季微卫星遗传分析，其次是Simple Matching系数。

【本文地址】

公司简介

联系我们