R语言实现k |
您所在的位置:网站首页 › 杜甫诗歌的风格是沉郁顿挫沉郁顿挫具体指什么 › R语言实现k |
原文链接:http://tecdat.cn/?p=23038简介 假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。 换句话说,我们必须决定以何种方式来组合辅助变量(从现在开始是 "X "变量)的值,来确定一个新的变量,称为 "分层"。 为此,我们必须考虑到抽样调查的目标变量"Y "变量:如果为了形成分层,我们选择与Y变量最相关的X变量,那么由此产生的分层框架所抽取样本的效率就会大大增加。 每个活动变量的数值组合都决定了目标人群的特定分层,也就是 "最佳 "分层问题的可能解决方案。在这里,我们所说的最佳分层,是指能够确保最小样本成本的分层,足以满足对调查目标变量Y's的估计精度的约束(约束表示为不同兴趣领域的最大允许变异系数)。 当数据收集的成本在各分层中是统一的,那么总成本就与总体样本量成正比。一般来说,对于一个给定的总体来说,可能的替代分层的数量可能非常多,这取决于变量的数量和它们的值的数量,在这些情况下,不可能为了评估最佳分层而枚举它们。一个非常方便的解决方案是采用进化方法,包括应用遗传算法,在有限的迭代次数后可能收敛到一个接近最佳的解决方案。 步骤抽样设计的优化首先是提供抽样框架,确定调查的目标估计值,并确定对其的精度限制。然后,在分析两组变量(分层和目标)之间的相关性的基础上,必须在框架中选择哪些分层变量。当所选的分层变量既是分类变量又是连续变量时,为了使它们具有同质性,应该对连续变量进行分类(例如使用聚类的K-means算法)。反之,如果分层变量都是连续类型的,则可以利用 "连续 "方法直接执行优化步骤。也可以执行两种优化,比较结果并选择更方便的方法。 在使用遗传算法进行优化之前,最好在使用k-means算法的基础上运行一个不同的快速优化任务,其目的有两个。 为最终分层的合适数量提供提示。获得一个初始的 "好 "解决方案,作为遗传算法的 "建议",以加速其向最终解决方案的收敛。在优化步骤中,可以指出必须选择的抽样单位集合("全取 "层)。优化之后,可以通过模拟从框架中选择大量的样本来评估解决方案的质量,并计算所有目标变量的抽样差异和偏差。还可以根据可用预算 "调整 "优化方案的样本量:如果允许更大的样本量,则按比例增加各层的抽样率,直到达到新的总样本量;如果我们不得不减少样本量,则采取相反的做法。 最后,我们开始选择样本。 在下文中,我们将从一个真实的抽样框架开始说明每个步骤。 优化步骤所需的输入准备框架为简单起见,让我们考虑数据集的一个子集。 head(mun)![]() 为了限制处理时间,我们只选择了前三个地区和我们例子中感兴趣的变量。该数据集的每一行都包含一个城市的信息,由市政编号和市政名称标识,并属于三个选定的地区之一。 假设我们要计划一个抽样调查,目标估计值Ys是3个地区(感兴趣的区域)中每个地区的树林面积和建筑物面积的总数。假设每个市镇的总面积和总人口的值总是被更新。看相关矩阵。 cor(mun\[,c(4:8)\])![]() 我们看到,树林面积和建筑物面积之间的相关性,以及"有建筑物的区域"和"总人口"之间的相关性都很高(分别为0.77和0.87),因此我们决定选择"有建筑物的区域","总人口"作为我们的框架中的分层变量X。 首先,我们决定将分层变量视为分类变量,所以我们必须对它们进行聚类。一个合适的方法是应用k-means聚类方法。 我们现在可以按照要求的格式定义框架数据帧。以合适的模型组织数据,以便进行下一步处理。 Frame(df = mun,value = "REG") head(frame1)![]() 这个数据框架不是必需的,因为它是由从数据框架中自动生成的。不过,我们需要使用它来分析框架的初始分层,和在没有优化的情况下可能出现相关样本量。 Strata(frameF)![]() 该数据框架中的每一行都输出了与给定分层有关的信息(通过对每个单元与X变量的值进行交叉分类获得),包括: 分层的标识符(名为 "strato")。与框架中的变量相对应的m个辅助变量(从X1到Xm命名)的值。人口中的单位总数(名为 "N")。标志(名为'cens'),表示该层是要进行普查(=1)还是抽样调查(=0)。成本变量,表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差,分别命名为 "Mi "和 "Si")。分层所属的关注域的值('DOM1')。精度约束误差数据框包含对目标估计值设置的精度约束。这意味着要为每个目标变量和每个域值定义一个最大的变异系数。这个框架的每一行都与感兴趣的特定子域中的精度约束有关,由domainvalue值确定。在我们的案例中,我们选择定义以下约束: 分层的标识符。与框架中的变量相对应的m个辅助变量(从X1到Xm命名)的值。人口中的单位总数(名为 "N")。标志(名为'cens'),表示该层是要进行普查(=1)还是抽样调查(=0)。成本变量,表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差,分别命名为 "Mi "和 "Si")。分层所属的关注域的值('DOM1')。ndom |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |