验证性因子分析（转）

漠河 · 发表于 2014-7-29 11:56:39

因子分析主要有两种基本形式：探索性因子分析（Exploratory Factor Analysis）和验证性因子分析（Confirmatory Factor Analysis）。
在市场研究的实际应用中，经常会用到探索性因子分析，而验证性因子分子则很少被人提及。在最近完成的一个项目中，这两种因子分析方法和潜类分析的结合使用使得我们成功地获得了中国287个地级以上的城市魅力度以及1-5级城市类别的划分。
下面我来简要介绍一下验证性因子分析。
众所周知，因子分析是一种非常重要的处理降维的方法，它是将具有错综复杂关系的变量综合为少数几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类。它实际上就是一种用来检验潜在结构是怎样影响观测变量的方法。
验证性因子分析(Confirmatory Factor Analysis，CFA)是相对于探索性因子分析(Exploratory Factor Analysis，EFA)的一种因子分析方法，研究者可以根据理论或实际需要对模型施加条件约束，观察不同因子结构模型与数据的拟合程度，用来检验已知的特定结构是否按照预期的方式产生作用。
验证性因子分析可以从多个观测变量中析取出多个因子，将这些因子作为新的“指标变量”，在此基础之上，再析取出新的因子（二阶因子），并以此类推。这样就会形成多阶验证性因子分析。在完成的项目中，我们采用的是二阶验证性因子分析。
验证性因子分析主要有以下6个步骤：
１、定义因子模型。包括选择因子个数和定义因子载荷。
因子载荷可以事先定为0或者其它自由变化的常数。或者在一定的约束条件下变化的数（比如与另一载荷相等）。这是和探索性因子分析在分析方法上的一个重要差异，用一个直观的比喻，探索性因子分析是在一张白纸上作图，而验证性因子分析是在一张有框架的图上完善和修改。
２、收集观测值。
定义了因子模型以后，就可以根据研究目的收集观测值了。这一点与探索性因子分析有一定的相似之处。
３、获得相关系数矩阵。
与探索性因子分析一样，我们的分析都是在原始数据的相关系数矩阵基础上进行的，所以首先就要得到相关系数矩阵。实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。
４、根据数据拟合模型。
我们需要选择一个方法来估计自由变化的因子载荷。在多元正态的条件下，最常用的是极大似然估计，也可采用渐进分布自由估计。
５、评价模型是否恰当。
这一步可以说是验证性因子分析的核心。当因子模型能够拟合数据时，因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。最好的参数被选择以后，差异量能被用来作为衡量模型与数据一致的程度。最常用的模型适应性检验是卡方拟合优度检验。原假设是模型是适应性模型，备择假设是存在显著差异。但是，这个检验受样本量大小影响，包含大样本的检验往往会导致拒绝原假设，尽管因子模型是合适的。其他的统计方法，比如用Tucker-Lewis指数，比较建议模型和“原模型”的拟合度。这些方法受样本量大小影响不大。
６、与其他模型比较。
为了得到最优模型，我们需要完成这一步。如果你想比较两个模型，其中一个是另一个的缩略形式，你就能从卡方统计量的值检查出他们的差别，大约服从卡方分布。几乎所有独立因子载荷的检验能用来作为全因子模型和简因子的模型之间的比较。为以防你不是在检查全模型和简模型，你可以比较均方根误差的近似值 (RMSEA)，它是模型中每个自由度差异的一个估计值。
如果概括两种因子分析方法的差异，那么探索性因子分析（EFA）致力于找出事物内在的本质结构；而验证性因子分析（CFA）是用来检验已知的特定结构是否按照预期的方式产生作用。
在实际应用中，一般来说，如果没有坚实的理论基础支撑，有关观测变量内部结构，一般用探索性因子分析。先用探索性因子分析产生一个关于内部结构的理论，再在此基础上用验证性因子分析。值得注意的是，这两部步骤必须用分开的数据集来做。如果直接把探索性因子分析的结果放到统一数据的验证性因子分析中，仅仅是进行数据的拟合而已，而不是检验理论结构。合理的做法是用一半数据做探索性因子分析，然后把析取的因子用在剩下的一半数据中做验证性因子分析。如果做验证性因子分析的拟合效果非常差，则必须用探索性因子分析来找出数据与模型之间的不一致。但是在对新数据拟合模型时，任何改动都需要进行检验。
在上面提到的案例中，之所以使用了验证性因子分析，主要有以下几个方面的考虑：
1、由研究目的确定研究方法
本项目的主要目的不是为了找出影响观测变量的因子个数，以及各个因子和各个观测变量之间的相关程度，而是为了形成稳定的一致的标准，以便在此基础上形成可以计算出各个城市魅力值的有效方法。
2、去除观测变量的误差
本项目的数据的主要来源为统计年鉴，由于众所周知的中国统计数据的特色，观测变量存在较多的误差。
通过定义变量的过程，可以对数据进行优化，例如采用自然对数的方法。
采用CFA可以在一定程度上去除观测变量的误差的影响。
3、消除缺失值带来的影响
因为各省统计年鉴上某些指标不完整以及统计口径不同造成的数据缺失，出现较多的缺失值。
分析过程中对缺失值采用“最大似然估计法”对缺失值进行推测，这样就能将缺失数据的指标也能纳入进来，减小缺失值的影响。

		自动登录	找回密码
密码			立即注册