混合线性模型介绍--Wiki - 好文

模型介绍

混合线性模型：是即包括固定因子，又包括随机因子的模型。
混合线性模型被广泛应用于物理、生物和社会科学。尤其是一些重复测量的数据及面板数据。混合线性模型比较突出的特点是可以非常优秀的处理缺失值，相对于传统的方差分析，
它有更广泛的使用范围，也更优秀。

发展历程

Ronald Fisher 最早提出随机因子模型来研究亲属间性状的相关性，1950年 Charles Roy Henderson
提出了最佳线性无偏估计（BLUE），这是针对于固定因子的评估。对随机因子的评估是最佳线性无偏预测（BLUP）。随后，混合模型在统计学研究中成了一个热门领域，相关的模型不断提出，
比如非线性混合模型，极大似然发估计，混合模型中的缺失值处理，贝叶斯估计混合模型等。混合模型被应用在许多领域，特别是观测值之间是有关联的重复测量数据，比如动植物育种，医学，也被应用在其它领域，比如棒球，工业统计等。

定义

以矩阵定义混合模型，可以写成：

y=Xβ+Zμ+ϵy=Xβ+Zμ+ϵ

这里
yy是观测值的向量,它的平均值可以表示为E(y)=XβE(y)=Xβ
ββ 是固定因子的效应值
μμ 是随机因子的效应值，它的平均值为E(μ)=0E(μ)=0,.它的方差为var(μ)=Gvar(μ)=G
ϵϵ是残差的向量矩阵,它的平均值为E(ϵ)=0E(ϵ)=0,.它的方差为var(ϵ)=Rvar(ϵ)=R
XX和ZZ分别是是ββ和μμ的矩阵

计算

混合模型的假定为μ N(0,G),ϵ N(0,R)μ N(0,G),ϵ N(0,R), 其中Cov(μ,ϵ)=0Cov(μ,ϵ)=0，即两者的协方差为0.
Henderson的混合线性公式：

[X′XZ′XX′ZZ′Z+A−1K][μˆαˆ]=[X′YZ′Y][X′XX′ZZ′XZ′Z+A−1K][μ^α^]=[X′YZ′Y]

求解混合线性模型, β^β^和μ^μ^的估计值是BLUE值和BLUP值, 求解方程组的前提是KK已知, 即而K的公式为: K=σ2eσ2aK=σe2σa2,
即残差的方差组分σ2eσe2和随机因子的方差组分σ2aσa2已知.

评估方差组分的方法有很多种, 有EM 方法, REML方法, Beyes方法等, 现在R种的包(nlme, lme4, MCMCglmm)对这些方法都有应用.

热门工具换一换