判别分析

判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。
当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
- 中文名 判别分析
- 研究对象 某一研究对象的各种特征值
- 定 义 统计判别和分组技术
- 别 称 分辨法
基本介绍
判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。
当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
简介
判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。
解决问题:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。
基本思想
根据判别中的组数,可以分为两组判别分析和多组判别分析;
根据判别函数的形式,可以分为线性判别和非线性判别;
根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;
根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
判别函数
判别分析通常都要设法建立一个判别函数,然后利用此函数来进行批判,判别函数主要有两种,即线性判别函数(Linear Discriminant Function)和典则判别函数(Canonical Discriminate Function)。
线性判别函数是指对于个总体,如果各组样品互相对立,且服从多元正态分布,就可建立线性判别函数,形式如下:
其中,是判别组数;是判别指标(又称判别分数或判别值),根据所用的方法不同,可能是概率,也可能是坐标值或分值;是自变量或预测变量,即反映研究对象特征的变量;是各变量系数,也称判别系数。建立函数必须使用一个训练样品。所谓训练样品就是已知实际分类且各指标的观察值也已测得的样品,它对判别函数的建立非常重要。
典则判别函数是原始自变量的线性组合,通过建立少量的典则变量可以比较方便地描述各类之间的关系,例如可以用话散点图和平面区域图直观地表示各类之间的相对关系等。
建立方法
建立判别函数的方法一般由四种:全模型法、向前选择法、向后选择法和逐步选择法。
1)全模型法是指将用户指定的全部变量作为判别函数的自变量,而不管该变量是否对研究对象显著或对判别函数的贡献大小。此方法适用于对研究对象的各变量有全面认识的情况。如果未加选择的使用全变量进行分析,则可能产生较大的偏差。
2)向前选择法是从判别模型中没有变量开始,每一步把一个队判别模型的判断能力贡献最大的哦变量引入模型,直到没有被引入模型的变量都不符合进入模型的条件时,变量引入过程结束。当希望较多变量留在判别函数中时,使用向前选择法。
3)向后选择法与向前选择法完全相反。它是把用户所有指定的变量建立一个全模型。每一步把一个对模型的判断能力贡献最小的变量剔除模型,知道模型中的所用变量都不符合留在模型中的条件时,剔除工作结束。在希望较少的变量留在判别函数中时,使用向后选择法。
4)逐步选择法是一种选择最能反映类间差异的变量子集,建立判别函数的方法。它是从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献最大的变量加入到模型中,同时也检查在模型中是否存在"由于新变量的引入而对判别贡献变得不太显著"的 变量,如果有,则将其从模型中出,以此类推,知道模型中的所有变量都符合引入模型的条件,而模型外所有变量都不符合引入模型的条件为之,则整个过程结束。
判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大似然法外,其余几种均适用于连续性资料。
1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中去的条件概率(似然值),概率最大的那一类就是最终评定的归类。
2)距离判别:其基本思想是有训练样品得出每个分类的重心坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最近的类。最常用的距离是马氏距离,偶尔也采用欧式距离。距离判别的特点是直观、简单,适合于对自变量均为连续变量的情况下进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差阵相等。
3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于两种判别问题,使用此准则要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。另外,用该判别方法建立的判别方差可以直接用手工计算的方法进行新样品的判别,这在许多时候是非常方便的。
4)Bayes判别:许多时候用户对各类别的比例分布情况有一定的先验信息,比如客户对投递广告的反应绝大多数都是无回音,如果进行判别,自然也应当是无回音的居多。此时,Bayes判别恰好适用。Bayes判别就是根据总体的先验概率,使误判的平均损失达到最小二进行的判别。其最大优势是可以用于多组判别问题。但是适用此方法必须满足三个假设条件,即各种变量必须服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。
验证方法
对于判别分析,用户往往很关心建立的判别函数用于判别分析时的准确度如何。通常的效果验证方法如自身验证、外部数据验证、样品二分法、交互验证、Bootstrap法。
应用
在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
应用范围
1)信息丢失
2)直接的信息得不到
3)预报
4)破坏性实验
假设条件
1)分组类型在两种以上,且组间样本在判别值上差别明显。
2)组内样本数不得少于两个,并且样本数量比变量起码多两个。
3)所确定的判别变量不能是其他判别变量的线性组合。
4)各组样本的协方差矩阵相等。
5)各判别变量之间具有多元正态分布。
6)样品量应在所使用的自变量个数的10~20倍以上时,建立的判别函数才比较稳定;而自变量个数在8~10之间时,函数的判别效果才能比较理想。当然,在实际工作中判别函数的自变量个数往往会超过10个,但应该注意的是,自变量的个数多并不代表效果好