一般线性模型、什么是一般线性模型_生活资讯_资讯

一般线性模型、什么是一般线性模型

2023-04-22 00:37 浏览:47

统计学（47）-一般线性模型

（1）t检验用于两组均值比较？

（2）方差分析用于多组均值比较？

（3）线性回归则用于自变量对因变量的影响分析？

粗粗一看，三者之间貌似没有联系！

但它们却在同一个模型下面，这就是一般线性模型（General Linear Model）。

一般线性模型并不是一个具体的模型，而是多种方法的统称，像t检验、方差分析、线性回归等都从属于一般线性模型的范畴。

（1）左侧为两座城市空气质量指数（AQI）的比较，中间为不同心功能分级的精神健康得分比较，右侧为不同温度对某病发病率的影响。

在一般线性模型中，因变量必须是定量的，而自变量则既可以是定量的，也可以是分类的。自变量的不同形式会导致一般线性模型退化为不同的具体方法，具体对应的各种方法如下：

（1）首先，将左侧数据做一个t检验，结果如下：

线性模型

线性模型（linear model）：通过属性的线性组合进行预测的函数。线性模型形式简单却包含机器学习主要建模思想。

假设一个样本包含d个属性，表示为 x =(x_{1};x_{2};...;x_{d})，其中x_i表示样本的第i个属性值。线性模型的一般形式如下：

写成向量形式：

因此，只要w和b确定，模型就可以确定。例如，一个判断瓜的方程可以写为：f_{好瓜}(x)=0.2x_{色泽}+0.5x_{根蒂}+0.3x_{敲声}

给定数据集D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}，其中x_i=(x_{i1};x_{2};...;x_{id})，y_i∈R。

对于离散型的属性，若存在序的关系，可以转化为连续值，例如对身高的高和矮可以转化为1和0；若没有序关系，假定有k个属性值，则可以转化为k维向量，例如对于瓜瓜，可以将西瓜、南瓜和黄瓜转化为（0,0,1）、（0,1,0）和（1,0,0）。

线性回归试图学得f(x_i)=wx_i+b，使得f(x_i)simeq y_i。

通过均方误差求得所有f(x_i)和y_i之间距离(欧几里得距离)之和的最小（即最小二乘法），得到w和b，即：

根据数学上的知识，E_{(w,b)}实际上是一个凸函数，这就保证了通过对E_{(w,b)}两个变量分别求其偏微分，就可以得出满足条件的值。

列出E_{(w,b)}分别对w和b的偏微分，并令其等于0：

解得：

这是针对样本x_i是一维的情况，当样本为多维时，需要利用向量来计算。

当样本为多维时，多元线性回归形式如下：

同样采用最小二乘法求解，在这里，将所有样本及标签写成向量的形式，方便计算：

类似的有：

同样对widehat{w}求导（用到向量求导）得到：

对于上式，必须分情况讨论：

令widehat{x}_i=(x_i;1)，则最终求得的多元函数模型为：

将y变为ln y，即得对数线性回归：

也就是：

前年说的都是预测的连续值，即标签是连续的。要处理分类问题，该如何处理呢？

对于二分类任务，其标签属于{0,1}，通过线性模型产生的预测值z=w^Tx+b，通过一个阶跃函数，就可以把z转换为{0,1}:

如图所示：

但是阶跃函数不连续不可微，可以用Sigmoid函数（对数几率函数）来代替阶跃函数，即上图中的左边的式子。将z=w^Tx+b代入得：

上式做变化为：

若将y视为样本作为正例的可能性，则1-y是其成为反例的可能性，两者之比称为几率。反映样本作为正例的相对可能性。将此几率取对数，称为对数几率（logit）：

对数几率回归求解的目标函数是任意阶可导凸函数，具有良好的数学性质。

为确定上面的w和b，将视为类后验概率估计p(y=1|x)，上面的式子可以写为：

上式是关于beta的高阶连续凸函数，根据凸优化理论，梯度下降和牛顿法均可以得到其***解：

线性判别分析（linear discriminant Anastasis，LDA）：给定训练样例集，将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能的远离。对新样本进行分类时，投影到相同的直线上，根据投影点的位置来确定新样本的类别。示意图如下：

给定数据集D={(x_i,y_i)}_{i=1}^{m}，y_i∈{0,1}，令X_i、mu _i、sum _i分别代表第i∈{0,1}类示例的集合、均值向量、协方差矩阵。在直线w上投影后：

由于直线是一维空间，上面4个都是实数。

定义类内散度矩阵：S_w=sum_0+sum_1=

定义类间散度矩阵：S_b

则上式J可重写为：

这就是LDA欲***化的目标，即S_b与S_w的广义瑞利商。

在实践中，通常是对S_w进行奇异值分解，然后再求得S_w^{-1}。

LDA也可从贝叶斯决策理论的角度来诠释，可证明，当两类数据同先验、满足正态分布且协方差相等时，LDA可得***解。

多分类任务通常是将其拆分为多个二分类任务。经典的拆分策略有三种：

最终，根据这些个分类器的结果进行投票，把预测的最多的分类作为最终的分类结果。

其中：

结果海明距离就是3.

ECOC编码对分类器有一定的容忍和修正能力，一般来说，同一个学习任务，ECOC编码越长，纠错能力越大，然后这意味着所需训练的分类器越多，计算机存储开销会很大，另一方面，对于有限类别数，可能的组合数目是有限的，码长超过一定范围就会失去意义了。

前面的方法都假设样例中正例及反例的数量相差不大，但如果样本中不同类别的样例数量差别较大，则会对学习过程产生很大影响。

类别不平衡：分类任务中，不同类别的训练样例数目差别很大。

当训练集中的正、反例数目不同时，令m +表示正例数目，m -表示反例数目，则观测几率是frac{m +}{m -}。假设训练集是真实样本总体的无偏采样，则观测几率代表真实几率，因此只要分类器的预测几率高于观测几率，就判定为正类，即：

类别不平衡的基本策略：再缩放：

为基于训练集观测几率来腿短真是几率，有三类做法：

什么是一般线性模型

一般线性模型包含了许多不同的统计模型：ANOVA，ANCOVA，MANOVA，MANCOVA，普通线性回归，t检验和F检验。一般线性模型是多元线性回归模型对多个因变量情况的推广。如果Y，B和U是列向量，则上面的矩阵方程将表示多重线性回归。

用一般线性模型进行的假设检验可以用两种方法进行：多变量或多个独立的单变量检验。在多元测试中，Y的列被一起测试，而在单变量测试中，Y的列被独立地测试，即具有相同设计矩阵的多个单变量测试。

线性模型有哪些

线性模型是一类统计模型的总称，制作方法是用一定的流程将各个环节连接起来，包括线性回归模型、方差分析模型，应用于生物、医学、经济、管理。

软件工程模型建议用一定的流程将各个环节连接起来，并可用规范的方式操作全过程，如同工厂的生产线。常见的软件工程模型有:线性模型，如图。

线性模型是一类统计模型的总称，它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。许多生物、医学、经济、管理、地质、气象、农业、工业、工程技术等领域的现象都可以用线性模型来近似描述。因此线性模型成为了现代统计学中应用最为广泛的模型之一。

关于一般线性模型和什么是一般线性模型的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

打赏