tceic.com
学霸学习网 这下你爽了
赞助商链接
当前位置:首页 >> IT/计算机 >>

Lasso及其相关方法在广义线性模型模型选择中的应用


中南大学 硕士学位论文 Lasso及其相关方法在广义线性模型模型选择中的应用 姓名:龚建朝 申请学位级别:硕士 专业:概率论与数理统计 指导教师:喻胜华 20080523

摘要

模型选择在统计建模过程中是极其重要的问题,但传统的逐步回 归结合信息准则的方法却存在一些不足。Tibshirani,R.(1996)针 对这一问题提出了一种称之为Lasso的新的模型选择方法。该方法很 好的克服了传统方法的一些不足。Efron等(2004)提出了能很好地解 决Lasso问题的算法。但Lasso方法在理论上也存在一些不足,因此 很多学者对此提出了改进,如:SCAD(Fan 2001)、Adaptive—lasso
(Zou 2006和Wang 2007)、elastic

net(Zou和Hastie 2005)、 2007)等。

Relaxed Lasso(Nicolai Meinshausen

本文的工作主要有三点:
(1)

基于线性模型对Lasso、SCAD、Adaptive—lasso、elastic
net、Relaxed

Lasso等方法进行了系统比较研究,指出

了它们之间的联系;
(2)

基于Logistic回归通过实际数据研究了Lasso及其相关 方法的一些差异,并在此基础上系统介绍了基于Lasso 方法的广义线性模型模型选择的统一处理框架;

(3)

指出了有待进一步研究的问题。

关键词套索,平滑削边绝对偏离罚函数,自适应套索,弹性网,放 松的套索

ABSTRACT

Model

selection is

an

extremely important part of the statistical
which generally
use

modeling.The traditional methods

stepwise

regression with AIC and BIC criteria for the choice of the optimal model exsit some

limitaions.Tibshirani,R.(1 996)proposed



new model

se—

lection method called Lasso which overcome the limitaions.Efron,etc.

(2004)proposed

that

an

effective algorithm to solve Lasso.There

are

also

some limimions in Lasso ed Lasso methods,such and

method.Many

scholars put forword the improv—

as:SCAD(Fan
net(Zou

200 1)、Adaptive

lasso(Zou

2006

Wang

200 7)、elastic

and Hastie

2005)and

Relaxed Lasso

(Nicolai Meinshausen 2007).
The main

job

ofthis paper are following:


(1)We give

comprehensive comparative study of Lasso、SCAD、
on

Adaptive—lasso、elastic net and Relaxed Lasso based

linear

model and point

out the relationship of them.

(2)We

study Lasso and related methods of some differences in Lo.

gistic regression methods used the real data,and systemetically introduce the unified approach to Lasso model selection basis of generalized linear model.
on

the

(3)Finally,we point
KEY

out

some problems

to further study.

WORDS

Lasso,SCAD,Adaptive—lasso,elastic net,Relaxed Lasso



原创性声明
本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。论文主要是自己的研究所得,除了已注明的地 方外,不包含其他人已经发表或撰写过的研究成果,也不包含为获得 中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的 同志对本研究所作的贡献,已在论文的致谢语中作了说明。

作者签名:

日期:







关于学位论文使用授权说明
本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以采用复印、缩印或其他手段保存学位论文; 学校可根据国家或湖南省有关部门的规定,送交学位论文。对以上规 定中的任何一项,本人表示同意,并愿意提供使用。

作者签名:婪烈时导师签名:

日期:硼’年f月罩)日

硕士学位论文

第一章综述

第一章综述

1.1模型选择的重要性
随着科技的进步,收集数据的技术也有了很大的发展。因此如何有效地从数
据中挖掘出有用的信息也越来越受到人们的关注。统计建模无疑是目前处理这一

问题的最有效的手段之一。在模型建立之初,为了尽量减小因缺少重要自变量而 出现的模型偏差,人们通常会选择尽可能多的自变量。但实际建模过程中通常需

要寻找对响应变量最具有解释性的自变量子集——即模型选择(或称变量选择、
特征选择),以提高模型的解释性和预测精度。所以模型选择在统计建模过程中
是极其重要的问题。

曾有统计学者问boothtrap的提出者斯坦福大学统计系教授Bradley Efron,当
今统计学中最重要的问题是什么时,Bradley Efron就曾毫不犹豫地答到是模型选

择。但对该问题的处理一直停留在AIC信息准则的研究上,尽管提出了很多对 这一准则的改进规则,如BIC、RIC、MDL、FIC。但当模型的自变量比较多(比 如超过40)时,信息准则因为计算量过大而变得无能为力。对于更高维的模型 选择问题,该方法自然就更加无能为力。
对于分类和回归问题,传统的方法一般用逐步回归结合AIC、BIC准则来进

行最优模型的选择。实践也证明这些方法有一定的实用性。但传统方法也有很多
不足:Breiman(1996)的研究就指出用该方法选择模型相当不稳定。Fan(2001)

指出该方法计算过程存在随机误差,其理论性质也难于研究,并且对于大型分类
或回归问题,其计算量也相当之大以致计算机都无法有效计算。 我们知道模型选择应该包含如下目标: (1)准确预测;

(2)可解释的模型即模型中选择的自变量应该具有科学意义;
(3)稳定性即数据集中数据微小的变动不会导致模型大的变动;

(4)应尽量避免在假设检验中出现的偏;
(5)应尽量控制计算的复杂度。 但传统的逐步回归、最优子集选择、岭回归方法、主成分回归以及偏最小二乘都 只能达到其中部分目标。

因此如何有效地克服这些问题达到统计建模的目标也就成为统计研究的热 点之一。Lasso方法及其有效算法的提出无疑为该问题提供了一条可行的办法。


硕士学位论文

第一章综述

下面简要介绍国内外对该问题的一些研究情况。

1.2文献综述
Breiman(1995)基于惩罚最小二乘的想法提出了选择模型的一种新方法,
称之为‘'Nonnegative Garrote”。Tibshirani,R.(1996)在Frank(1993)提出的“Bridge Regression”和Bireman(1995)提出的‘'Nonnegative Garrote”的启发下提出了一种称 之为Lasso(Least
absolute shrinkage and selection

operator)的新的变量选择方法

并将其成功应用于COX模型的变量选择。Lasso方法用模型系数的绝对值函数 作为惩罚来压缩模型系数,使绝对值较小的系数自动压缩为0,从而同时实现显 著性变量的选择和对应参数的估计。与传统的模型选择方法相比,Lasso方法很 好的克服了传统方法在选择模型上的不足。因此该方法在统计领域受到了极大的 重视。但是该方法缺乏有效的算法支撑,因此很多学者在这方面展开了研究:先 是Fu(1998)提出了“Shooting"算法,接着Osborne,M.R.等发现Lasso回归的 解的路径是逐片线性的并提出相应的同伦算法。这些算法尽管比最初用二次规划 方法做Lasso回归更为完美,但其有效性还是不能满足人们的需求。Bradley Efron
等(2004)提出的最小角回归(LeastAngle Regression)算法很好地解决Lasso的计

算问题。该方法的计算复杂度与最小二乘回归的相当。有效算法的提出使Lasso 方法广为流行。对Lasso回归的理论研究也同时展开:Fan和Li(2001)指出Lasso 估计对于绝对值较大的系数的压缩过大,可能会造成不必要的模型偏差,并且推
测Lasso估计不具有“哲人”性质(“oracle properties”),还给出了一种被简称为 SCAD新的惩罚函数,并沿用GCV方法来选择惩罚参数(或者叫“Tunning parameters”)。由此得出的估计不仅能同时完成显著性变量的选择和对应参数的

估计,而且具有“哲人”性质。最后还将该方法纳入惩罚似然框架,给出了一种能 针对一般模型同时做到估计和模型选择的方法,并提出了称之为“局部二次近似” 的算法。该方法能比较简便地进行计算。但是该方法和向后逐步回归一样,一旦 变量在某一步被去掉将不可能再进入模型。Hunter和Li(2005)通过引入一个 微小的扰动系统研究了该算法的收敛性,并在此基础上提出了MM算法来解决该 问题,但是该方法在实际操作时需要确定小扰动的值,这无疑给问题的处理增加了 难度。Zou和Li(2007)系统研究了非凸惩罚函数(包括SCAD),并提出了用局部一 次近似来代替局部二次近似。这种近似能有效地将非凸惩罚函数转化为Lasso惩 罚。这就使某些不适宜做自动模型选择的惩罚函数的凹函数(比如“Bridge
Regression”中0<q<1)也能做惩罚函数。从而可以有效地运用LARS算法。实

际上前面的研究启发着统计学家们:模型选择本质上是寻求模型稀疏表达的过


硕士学位论文

第一章综述

程,而这种过程可以通过优化一个“损失”+“惩罚”的函数问题来完成。这一 问题在统计学习理论中一般被称为正则化方法。但很明显并非所有的惩罚函数都
能实现模型的自动选择,岭回归就是相当典型的例子。到底什么样的惩罚结构能

实现模型的自动选择呢?Antoniadis和Fan(2001)系统研究了这一问题并给出 了一般性的结论。随后Fan及其合作者(2002,2004)对SCAD方法进行了广 泛的应用性研究,研究涉及生存数据模型变量选择,纵向数据半参数模型的变量 选择。Fan和Li(2006)对该方法进行了系统的总结并指出了其广泛的应用背 景,这实际上也正是Fan在2006年世界数学家大会上发言的主要想法。Yuan和 Lin(2005),Zhao和Yu(2006)分别独立指出了Lasso方法给出的估计在某些 情况下是不相合的,这主要是因为Lasso方法对每个系数都做相同的压缩,Zou (2006)针对Lasso的这一不足进行了一些改进,提出了一种具有“哲人”性质的 ‘'Aaptive—lasso”,很好地克服了Lasso的一些不足。实际上Wang(2007)也提出 了类似于‘'Aaptive.1asso”的想法。Wang(2007)指出SCAD用GCV方法选择
“Tunning “Tunning

paranaeters”可能会产生过拟和的模型,因此提出用BIC准则来选取 parameters”。“Aaptive.1asso”方法不仅在实践上具有较好的实用性,在

理论上也具有优良的性质。但是上面所有的方法在处理自变量高度复共线性时, 其处理方法和逐步回归类似,试图去掉其中一些变量以减小复共线性的影响。这 种处理模式在一般的回归问题中可能不会有大的影响。但在处理微阵列数据时, 科学家们总试图探察一组具有复共线的变量(这组变量通常是对某个基因的一些

不同特征的刻画)——这也称之为组效应(group effect)——对响应变量的影响。
Zou和Hastie(2005)针对这种数据结构在Lasso的基础上通过引入系数的二次 惩罚提出了“elastic net”。这种方法不仅能有效进行模型选择还能适应这一特殊数 据结构。而且能有效处理自变量数目大于样本容量的问题。Yuan,M.和Lin,Y.(2006)

提出了“group lasso”用于处理离散自变量的模型选择问题。Nicolai

Meinshausen

(2007)通过引入两个压缩参数提出了“Relaxed Lasso”,有效克服了Lasso方法 过度压缩参数这一问题。尽管Lasso及其相关方法一般具有“哲人”性质。但Leeb
和Potsche(2007)的研究指出“哲人”性质太好以致让人觉得它有不真实的地方,

并通过大量模拟指出了具有“哲人”性质的模型选择方法的不足。 基于LARS算法的Lasso方法尽管有着非常好的性质,并且也的确克服了传统 方法的一些不足。但是单纯针对Lasso运用LARS,对于d>>疗的情形,最多只能 选择n个自变量,这种结果往往得到的是过于稀疏的模型。因此很多研究者也进 行研究,见van
de

Geer和S.,van(2004),Meinshausen,N.和P.Buhlmann(2006),

Candes,E.和T.Tao.(2005)。实际上Zou和Hastie(2005)提出的“elastic

net”便是一种处理该问题相当有效的方法。还有一种想法就是降维,多元分析

硕士学位论文

第一章综述

中的主成分分析就是一种有效降维的方法,但该方法一般不能进行变量选择。 Bair,E.等(2006)在主成分的基础上结合Lasso方法提出的“有监督的主成分
(supervised principal component)”便是一种处理该问题相当好的方法。

实际上针对某些特殊的数据Tibshirani,R.等(2005)还提出了一种称之为
“fused

Lasso”的特殊的惩罚结构。

Lasso及其相关方法的不仅可以应用于简单的线性模型,而且可以应用于其
它很多模型:广义线性模型(Park和Hastie,2007),图模型(Yuan和Lin 2007:Meinshausen和Buhlmann,2006),半参数模型(Li和Liang 2007)。

Lasso及其相关方法在多元分析领域也得到了广泛的运用:Zou等(2006)
提出的稀疏主成分,Trendaflov等(2007)提出的DLASSO。 Lasso和统计学习领域非常热门的方法“Boosting’’也有相当密切的关系: 实际上Efron,B.等在提出最小角回归时就曾指出Lasso方法和Boosting的关 系。Zhao和Yu(2007)提出的“Stagewise lasso”就系统研究了这一问题。我 们知道“Ridge Regression’’不能进行变量选择,但用“Boosting”进行处理后

也能达到类似Lasso的效果,这正是Tutz,G.和Binder,H.(2007)
Ridge

“Boosting

Regression"的想法。

这是国外关于这一问题的研究情况,国内关于这一问题也仅有光华管理学院
的王汉生老师展开过研究。 为行文方便,下面将简要介绍一下Lasso及其相关方法。

1.3

Lasso及其相关方法简介
设模型的系数用/3表示,其对应的损失函数为粤(p),其中卢为d维向量,

则关于参数的惩罚似然函数为:


邯)+∑P~(Ip小
i=l

当,(D)=(Y一叉B)2

Pk(IpiI)=九Ip,19,此即Frank(1993)提出的“Bridge

Regression”。当q=l时,即得到Lasso回归。一般也称之为厶正则化(厶 regularization)。实际上当q--2时,即得到我们通常所说的岭回归。一般也称之

为厶正则化(厶regularization)。研究表明岭回归尽管可以有效克服白变量间的 高度相关性,并能提高预测精度,但单纯用此方法却不能进行模型选择。实际上
在岭回归的基础上引入“Boosting"后可以得到与Lasso同样的估计。



硕士学位论文

第一章综述

1.4本文的结构
本文在随后的章节的结构如下:第二章在线性模型基础上系统比较了Lasso 及其相关方法的一些差异,并通过模拟数据进一步研究它们之间的差异;第三章我 们基于Logistic回归模型通过一个实例比较了本文给出的几种方法和传统方法的
差异,并讨论了目前基于Aaptive.1asso及其相关方法处理广义线性模型的模型选

择的两个统一的处理方法;最后一章则在前面研究基础上指出了一些有待进一步 研究的问题。



硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

第二章线性模型基于Lasso及其相关方法的模型选择

为方便讨论在本章我们先考虑简单的线性模型

Y=X9+e

(2.1)

其中Y=(J,l,Y2,…,Y。)7,X,=(XlJ,X2『,.一,X。∥,J=1,2,…d。X=(xl,X2,…,%)。卢
是d维列向量,为待估参数,误差向量e满足E(e)=0,Var(e)=仃2,。并且 假定:E(y X)=pl而+…+pd勤。注意该模型是稀疏模型即p。,p:,…,pd中有很多

系数为O。模型选择(或称变量选择、特征选择)的目的就是要根据获取的数据
来识别模型中那些系数为O,并估计其它非0参数,即寻找稀疏模型。 对于线性模型其模型选择实际上可以表述成如下问题:

肛arg.min lY—xpll2+xlPl。


(2.2)

其中IpI。={f p,≠o,f-1,2,…,p}。这里面实际有两个过程:寻找显著性变量和估
计对应的系数,用传统方法处理模型选择时,这两个过程是分开进行的。由于没 有对参数空间做任何限制,因此在实际处理时往往有一定难度。但Lasso及其相
关方法这两个过程是同时进行的。Lasso实际上相当于考虑如下的问题:

矽:argminIIy—x硎2使得∑d慨I≤,

i=l

(2.3)

实际上后面的不等式有效地对参数空间进行了限制。注意(2.3)的表达和后面 用惩罚函数表述的Lasso是等价的。Lasso方法对所有的参数做相同的压缩,往 往产生较大的偏,一般不具有“哲人’’性质。改进的Lasso方法如:Adaptive.1asso
一般就具有“哲人性质”(oracle Properties)。即用Adaptive.1asso得到的最 优模型具有如下的性质:

设A={i旧,≠0),并且l刽=d。<d,并设6(6)是通过方法6得到的模型系数的
估计。我们称方法艿具有oracle

Properties是指6(6)渐近满足如下两个条件

(1)lim以{f p,(6)≠0)=A)=1;

(2)√行(B(6)A—pA)寸d N(0,∑),其中∑为真实模型参数的协方差。
此性质一般被认为是相当好的。在参数估计中也被称之为“超有效性"。

为了能更深入地理解Lasso及其相关方法的思熟我们将首先给出Lasso及


塾兰垡笙塞
其相关方法的直观解释。

第二章线性模型基于Lasso及其相关方法的模型选择

2.1

Lasso及其相关方法的直观解释
为使想法说明的更透彻,我们假定设计矩阵X的行向量正交,xrx:1。

那么最小化0y一鄙112等价于最小化忪一圳2得到的最小二乘估计为6=z 71少。并
令z=X

7’Y,夕=肠71Y,那么其中一种形式的惩罚最小二乘为:

,扣y一鄙112+善d九以(…)=扣y一爿12+三喜(z,一p,)2+善d~p卅p,I)(2-4)
其中的惩罚项目(.)对所有的j而言不必相等,为表达简便我们假定对所有的惩罚 项和乘法系数都相等,记为n(.)。关于卢最小化上式子等价于对其每个分量最
小化。这启发我们考虑如下的最小二乘问题:



三(z-o)2+p九(101)(2-5)
rule)"(见Antoniadis和Fan
1 997):

(1)硬门限规则:当风(101)=旯2一(Iol—九)2z(Iol<A),我们就获得“硬门限规则(hard
thresholding

d=d删>九)
此时相当于对卢考虑如下的最小二乘问题:

(2.6)

扣一邢n善d{n(J阶I九门(|p,|<I
一致。 (2)Bridge



(2—7)

那么对应的解应为房=zfl(zjl>九),这正好和最优变量子集选择和逐步回归趋于
Regression:p九徊f)=九"

(a)当q=l可得到Lasso估计(见Tibshiran 1996):



硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

谷=sgn(z)(1zI—A)+
其中Sgn为符号函数,互表示当z>0时值取z,否则取0。

(2-8)

这个惩罚一般被称之为软门限规则(soft thresholding rule),这个规则是Donoho 和Johnstone(1994)首先提出。 (b)当q=2时即得到Ridge
Regression:



0=

Z =

1+2九

(2?9)

当q=0时即得到普通最小二乘估计。q为其他值时百一般没有显式解。
(3)Nonnegative 估计:

Gar。tte:当p九(|。1)=九南|eI,由此得到N。nnegatiVe

Garotte

良(卜秘酢)

(2-10)

(4)Adaptive-lasso:当利印“护旧蚍得Adapfive-lasso估计瓢
O----Sgn(z)(H—i

z-争)+

(2-11)

(5)elastic

net:

px(1。1)=九lIeI+九2|。12,由此得到elastic net估计:
d=(H一~/2)+sgn(z) 九|el,当o≤|。l<九;
(2?12)

(6)sCAD:当刑pI)2 扣12—2口喇+A2)/{2(口一1))’当I<01<口A;时,
(口+1)九2/2,当|。I≥口九.



硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

既(19I)关于8的导数为以(吲)=A{,(p≤砷+专尝身},(9>允),此即平滑削边
绝对偏离罚函数(smoothly clipped
absolute deviation

penalty),简称SCAD罚

函数,其中a>2,0>0(见Fan和Li 2001)。由此可得SCAD估计为:

fsgn(z)(|zI一九)+,当Izl≤2九,

占2{{(口一1)z—sgn(z)口A)/(口一2),当2A<lzl≤口九,
Iz,当IzI>aZ,.
(7)Relaxed
Lasso:

(2.13)

px(|e1)=巾九IeI,其中≯的取值在0到1之间。由此得到Relaxed

Lasso估计(注:此处给出的仅是Relaxed Lasso的粗略定义,后文将给出精确 定义):

d:{z0,_z,九<’Xz,>九,
图2-1):

(2.14)

【z+中九,z<一九

下面可以根据上面得到的结果通过图形给出Lasso及其相关方法的直观解释(见
图中的实线为得到的各种惩罚估计。由图可知,逐步回归对参数估计的正则 化(regularization)是不连续的,这种不连续性导致了模型选择的不稳定性,即

某些自变量数据的微小变化都可能导致选择的最优模型的较大变化。尽管这种方
法得到的估计也是无偏的。岭回归估计是有偏的,并且岭回归对应的二次惩罚函 数不是门限规则。Lasso估计很好的克服了传统方法的不足,但得到的估计是以

牺牲无偏性为代价的。Adpive.Lasso不仅保留了Lasso的优良性,而且有效减小
模型参数估计的偏。SCAD,elastic net,Relaxed.Lasso等估计也具有与Adpive.Lasso

类似的效果。从图可以看出SCAD对于较大的最优模型参数的估计是无偏的。 但实际处理这种估计涉及到非凸优化问题,因此研究上有一定难度。elastic net
估计似乎和Lasso估计效果相同,但后面的实际数据处理我们将看到这种方法与 Lasso方法的差异。

对于以上各种估计实际上都可以纳入惩罚似然的框架来考察,这也正是Fan 在2006年世界数学家大会报告中的主要内容。Fan将其纳入一个统一的框架并
广泛研究了该种方法应用背景以及研究的难点。

由上面的论述我们也不难发现,不同的惩罚函数导出的估计也各不相同。 这里我们自然会问:是不是所有的惩罚函数既能导出稀疏模型,即进行模型选择, 又能提高预测精度,还能克服传统方法不稳定的缺点。显然岭回归就不是。那么 惩罚函数具有怎样的性质才能有以上优点。Antoniadis和Fan(2001)对此问题 进行了系统的研究,下面给出一般的结论。


硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

●■;量●

童E#● .昌v=

?10

-5





10

-10

-5






10



(a)逐步回归的参数估计圈(实线)

由l岭回归参敦估计图(实线)

to墓鐾誊5t蓉Z

一10

-5





10

-10

.5





10



(c)Lasso方法参数估计圈(实线)

(实线)



oI

! o● ■一●,譬a●口■

?10

-5






.'0

.5







(e)ad叫,幢_lasso参数估计圈(实线)

cf)ela蛐c_net参数估计图 (实线)

10

硕士学位论文

第二章线性模型基丁:Lasso及其相关方法的模型选择





(g)SCAD参数估计图(实线其中a=3.7)

∞relaxed-lasso参数估计图(实线)

图2-1实线为各种惩罚下取定参数值后得到的解关于无偏估计的图象

2.2惩罚函数的性质

一个好的惩罚函数应该具有这样的性质:

(1)无偏性:当未知参数的真实值比较大时,为了使模型不出现不必要的偏,
导出的估计应该接近无偏:

(2)稀疏性:为了减小模型的复杂性导出的估计应该是一个门限规则,这种规
则能自动将相对较小的模型系数设置为O;

(3)连续性:为了避免预测模型的不稳定性,导出的估计应该对数据z是连续
的。 对于模型变量选择问题而言,性质(2)尤为重要。 对于给定的惩罚参数,考虑如下的最小二乘问题:关于p最小化下式:

f(9)=三1(z—p)2+p。(1pI)
其中A(.)在(0,00)上是非负,非降可微函数。

(2-15)

前面已经说明过这相当于对(2.3)式中的每个分量求最小二乘解。注意到(2.15)

中当|。l—00时,其函数值也趋近于正无穷。因此使,(p)最小的p值一定存在。设
百(z)为其最小二乘解。下面定理给出了解具有门限规则,连续,近似无偏的充要
条件。

定理1:设玖(.)在(o,∞)上是非负,非降可微函数,并设函数埘一p:(p)在(o,o。)

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

是严格单峰的,勇B么有:

(1)(2.21)式的最小二乘解存在且唯一,并且解d(z)关于z是奇函数。即

d(一z)=巧(z)。
(2)解有如下性质:


叭力2

fo,当IzI<Po

1…gn(却嫩桃当IzI>风

其中岛=min。卸{9+pi(p)),并且F(z)l≤Izl。
(3)若曩(.)是非增函数,那么当H>风,有:

lzl-P。≤F(z)l≤lzl—p:(kI)
(4)若以(p)在(o,oo)上连续,那么解6‘(z)是连续的当且仅当函数p+苁(p)的最
小值在0处达到。

(5)若lzl寸∞时,从(H)专0,则有: 百(z)=z—pi(k1)+D(pi(kI))
证明见Antoniadis和Fan(2001)

由以上定理可知并非所有的惩罚函数都具有前面所述的三点优良性质。在
“bridge

regression"中,也只有q-1时,导出的估计满足性质稀疏性和连续性。

当q取其他值时,导出的估计往往不具有稀疏性或不连续。
2.3

Lasso及其相关方法和对应的算法

在后文的叙述中我们将对最小角回归算法和局部二次近似算法做重点介绍。



为行文方便,下文及以后的各节我们做如下假定:∑Y,=0, ∑/1 xF2:1,当j=1,2,...,d,即数据应该预先进行标准化处理:1
i=1

∑xF=o,


2.3.1

Lasso及最小角回归算法

(1)Lasso估计

6=鹕Pin"和卜争
12

(2.16)

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

实际上Tibshiran(1996)提出Lasso想法用于模型变量选择时就是用的二 次规划。但该方法比较复杂,后来Tibshirani,R.的学生Fu(1998)针对“bridge regression”提出了更为有效的算法。但目前比较流行的方法是Efon等(2004) 提出的最小角回归算法。 (2)最小角回归用于计算Lasso估计路径的算法(LeastAngle Stepl:更新模型入选变量集(active set)
计算相关系数绝对值:
Regression)

夕。=o;气=x歹(y一九一。);幺=max《O白I}
更新active
set

A(k),
jEA(k-I)

彳(|j})=a(k一1)+{歹,;么(o)=巾;/=argmin{]okj{)
Step2:确定最小角方向(“女).

令以=(…s/0…)J。月(t) 其中J』=sign{0白),∞t=彳々(xlx)~1女,Ak=(1々TL以tTx)一1女)-o?5
1。是NN#_NN

1的向量,其长度等于H.计算最小角方向:‰=X。∞。

Step3:计算步长
当J仨彳(尼),令口材=xT,“t

若H=d,则凡=Ck/A。,算法终止.
否则矿l=min;。彳(_i}){(£j一6匆)“么々一口灯),(0i+6移)/(彳女+口勾))
Step4:预测响应:

=,,>Um√∈in月(I)“,),其中丫J

2—6』/(s』∞移);讧=∞

若记<亿,N y々=允一l+Lu女

当/∈彳时,压/卜西J+亿∞移已,否则6J=o
彳(尼+1)=彳(尼)一{7),其中7=argmin{7',)


色w

2石歹(少一允),并且也+一=m,ax{l。¨,1),返回执行Step2.

否贝0夕女=夕女一1+矿t甜女

当,∈彳时,西,卜匹/+矿。∞目sJ,否则区,=0返回执行stepl.

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

注意用LARS算法,对于设计距阵是HX d的距阵,该方法最多能选择m个变量,
其中m=min(n,d)。因此对于d》n时,单纯用该方法往往会得到过于稀疏的模型。

2.3.2 Adapt i

ve—Lasso及对应算法

(I)Adaptive—Lasso估计

6=鹕Finoy一喜t 02+h善d岱邝,I,其中墨=?怛c。艮,f7,丫>。


c2.,7,

若最小二乘估计表现不好,则用岭估计替代。 (2)算法

1令x:‘=x,/岱J,J=1,2,…,d.
2对所有的h,求解下面的Lasso问题:

矿=argpin卜喜xJ邝02“擎d
3输出6y=酊/岙』,/=l,2,…,d.
2.3。3 Nonnegat i ve

lp,

(2.18)

Garotte估计及其算法

(1)Nonnegative Garotte估计:寻找一系列非负尺度化因子{cJ>使得下式最小:

Iy一善d瓣㈣112“争d(2-19)
由此得到Nonnegative
(2)Nonnegat i ve

Garotte估计为:区,=q 6,(ols)

Garot t e和Adaptive.Lasso的关系

注意到在Adaptive.Lasso估计中当7=1的情形:

随产畦硝+h喜尚
14

弦2。,

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

在Nonnegative
Nonnegative

Garotte中,因为Cj=西,(garotte)/6f(ols),那么我们给出

Garotte的等价形式:



2掣n卜和卜2。缶d揣[3,郴矗c删,

@2,,

因此我们可以认为Nonnegative Garotte是,,=1时的Adaptive—Lasso。 (3)Nonnegative Garotte的算法
Nonnegative

Garotte估计一个不太方便的处理是该估计强烈依赖最dx--乘

估计。当自变量间存在高度相关性时,最dx-乘估计不再是一个好的估计。此时 我们一般用岭估计来代替最小二乘估计。因此Yuan和Lin(2007)建议用岭估计 来代替最dx--乘估计求Nonnegative Garotte估计。
实际上由Nonnegative Garotte和Adaptive.Lasso关系的讨论我们可以知道
Nonnegat ive

Garotte估计可以用LARS算法得到。

Yuan和Lin(2007)也针对Nonnegative Garotte提出了相应的算法。Friedman
等(2007)也提出“coordinate.wise descent"来求Nonnegative Garotte的解路

径。
2.3.3 eIastiC

net估计及其算法

(naive)=argoninlly一喜x,pll2+h善d lp,I+九:喜p?c2.22,
注意到h=0时即得到岭估计,九:=0时即得到Lasso估计。因此这种估计应该
能有效处理自变量间的复共线性。但实践却表明这种估计得到的估计效果与
Ridge

此Zou(2005)又提出对“na'fve
为:

Regression相当,也就是说单纯象这样处理并不能得到模型的稀疏解。因 elastic net”进行尺度化处理。elastic net估计

p=(1+九2)p(naive)

(2.23)

这相当于考虑如下的问题得到的估计:

I;=argPin p

r(2竺}等弓#)p-2yrXp+九,善d Ip,I(2-24)

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

注意到此时的Lasso估计可以表述为:


西(1asso)=arg.min P 71x,邳一2y 7’邳+h∑… pi


(2.25)

由此可以看出引入二次惩罚后对变量间的高度相关性进行有效的调整。elastic

net

和Lasso的关系有点类似于最小二乘估计和岭回归估计的关系。另外当九:专oo

时,由(2.24)可知,此时得到的估计为:

压,=(yrx,I一等)+sgn(y,¨
注意此估计与软门限规则得到的估计相当。
elastic

(2-26)

net估计中有两个“tunning

parameter",其计算是先给九2一组固定

的值,用LARS算法得到Lasso估计的路径。然后再用Cross Validation选择另外 一个“running parameter"。其算法也是在最小角回归基础上修改得到的,
具体见Zou和Hastie(2005)。
2.3.4

SCAD估计及其算法

(1)SCAD

压删。:argmin眇一邶02+∑d p。(Ip。1)

i=l

(2-27)

川p,l,0<13,I<九;

其中p。(Ip,f)={一《p,12—2ak,I+九2)/{2(口一1),九≤lp,l<口九; I(口+1)九2/2,lp,I≥口九.
(2)算法概述:

尽管A(1屈1)在原点处不可微,不存在连续的二阶微分。但我们可以用如下
的二次函数进行局部近似。假定我们有一个风非常接近(2.27)的最小值点。若

屈。非常接近0,我们就令6,=o。否则他们可以被一个二次函数进行局部近似。
16

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

【p。(In,1’=以(I屈1)sgn(屈)≈{反(1屈。I)/In,。1)尼,其中p,≠0
换句话说就是:

n(帅≈既(㈨+芝1绯‰I)/In,。I)(所一成),其中屈≈屈。
如果1段定对数似然函数关于参数卢的二阶偏导连续,刃巧么(2.31)的百I贝也能被 局部二次近似。省略常数项后得到的近似时得到:

慨)+Vz(成)r(p一风)+(/t一成)rV2#(/30)(fl一成)+互1印7’∑九(fl。)卢(2-28)

其中W眠卜挈
最小化(2.32)式得到的解为:

俨邯o)_器

∑九(13。)=讲昭碱(蚓)/蚓13,…,p揶d。I)/1pd。11

屈=flo-{v2l(fl。)+胛∑九(风))一{Vz(风)+挖U(风)> 其中G(flo)=∑九(flo)/,o,当算法收敛时估计应满足如下的条件:

(2-29)

掣+嘁(蚓)sg碱)_0
性时,可以用岭估计作为迭代的初始估计。

(2-3。)

一般用全模型的估计作为迭代的初始值,如果全模型的自变量存在严重的复共线

运用局部二次近似后,SCAD估计相当于考虑如下的迭代估计:

酽+”瑙畦陟卅嘻帮哦
其中七=0,1,2…,D‘o’为初值,迭代直至{p‘‘’)收敛。
17

p3?,

为了避免数值迭代的不稳定,Fan和Li(2001)建议:当pj‘’非常接近0时。比如预

先指定:lDj‘)|<£。(£。为指定值),则令西,=o。这种处理方法和向后逐步回归一样,

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

一旦某个变量的参数的估计为0,此变量将无法再进入模型。Hunter和Li(2005)

系统研究了LQA算法的收敛性,并在此基础上进行了一些改进,即在上式中加入 一个扰动项以便上式第二项的分母不为0。

p‘々+1)=arg尹tnt圭fIy一义诂旷+喜j示萋糕p?,c2—32,
其中k=O,1,2…,p‘o’为初值,下。为扰动值。迭代直至{p‘‘’>收敛。但t。的估计却
没有有效的方法确定。

为弥补上面方法的一些不足,并且能方便应用最小角回归算法,Zou和Li (2006)年又基于局部线性近似提出了一种方法可以将SCAD惩罚函数及Bridge Rregression中的一些惩罚有效转化为Lasso回归问题。注意到:

p九(…)≈p九(IDj。’I)+p刈pj。)I)(|p卜Ipj。’I)其中p,≈∥
因此最小角回归算法便可以方便应用了:

(2—33)

一=argmin剑y一邛n芝pi("’)13肛
P Z—

(2-34)

J=l

其中p‘o’为普通最小二乘估计。这实际上进一步指出了SCAD和Lasso的近似关 系。对于SCAD的一些算法及其改进的系统比较见Zou和Li(2008)。
2.3.4

2.3.5

ReIaxed

Lasso估计及其算法

下面给出R elaxed Lasso的精确定义:

压九鼻:主(Yi--Xj{p.1№)):+帜∑d

fp,

(2.35)

其中1p。是关于变量集合p九c{1,2,…,d)的示性函数,k∈{1,2,…d)

㈣k小躲兰
其算法也是在最小角回归基础上修改得到的,具体算法见Nicolai
Meinshausen(2007)。

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

实际上由前面的讨论我们知道Lasso方法是一种非常有效的模型选择方法, 但由此得到的非0系数的估计的偏差往往不可忽略。因此提出了Aadaptive—Lasso
进行改进。Aadaptive.Lasso实际上是一种两步处理方法:第一步用Lasso方法得

到稀疏模型的参数估计:第二步对得到的Lasso估计进行调整以减小参数估计的
偏差。Nonnegative Garotte可以认为是Aadaptive.Lasso的一种实现形式。实际 上elastic net、Relaxed.Lasso也可以认为是一种两步处理模式。至于SCAD则和

Lasso一样是一步处理模式,即得到估计后不用再对估计进行调整。但对于较大的 模型参数的估计一般是无偏的。用一次局部近似算法处理后SCAD问题可以有 效转化为Lasso问题。并且该处理方法能将很多非凸惩罚函数转化为Lasso惩罚。
比如“Bridge Regression”中当0<口<1时,根据前面所述的惩罚函数理论,该惩罚

函数不能产生稀疏解。然而经过局部一次近似处理后,这种惩罚函数也能产生连 续的稀疏估计。当q>l时“Bridge Regression”一般不能产生稀疏解。
2.4“tunn i ng

parameter”选择方法

在上一节我们给出了基本的算法,但这里面还有一个问题有待进一步解决: 这就是“tunnJng parameter”的选择。目前所知的有3中方法。为下文叙述方便,
用p表示“tunning

parameter’’。比如:对于SCAD方法0=(A,口),而LASSO方

法0=允,Adaptive—lassoO=(A,y)。
2.4。1五折交叉核实(fivefold
cross—vaI iadutlon)

T代表完全数据集,交叉核实的训练集和检测集分别用丁一丁”,丁”表示,其中

v=l,…,5。对于每个p和v,我们用训练数据集丁一T”来寻找p的估计声(V’(D)。
由此可以给出五折交叉核实标准为:



cv(o)=Z∑{Yk一《∥(日))2
v=l(Yk,Xk)eT”

(2—36)

我们通过最小化cv(o)来求0。

2.4.2广义交叉核实(generaI

ized

cross—vaI iadution)

迭代所得的估计6(。)={x 7’x+九形一(。)}.1XrY,其中W一表示广义逆。比如:
19

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

LASSO形=diag(fi,,…,l尾1)。
令p(e)=护{X(X丁X+九矿一)-1X 71),由此可以定义GCV统计量:

Gc㈣=黑nil
我们通过最小化Gcy(9)来求否
2.4.3 BI C准则

(2.37)
—pI廿l /n }一

log(Gcy(。))=log(0y—xp(e)112/n)一2log{1一p(O)/n}l096 2+2p(O)/n

(2.38)

而后面的式子也就是AIC。也就是说logGCV与AIC的表现类似。由于AIC准 则是一个有效的模型选择标准,但不是相合的选择标准。这就启发我们用BIC
准则去选择p。

BIC(O)=l096 2(。)+p(0)log(n)/n

(2.39)

我们通过最小化BIC(O)来求p。

对于SCAD方法用GCV方法选择“tunning parameter”可能会导致模型过拟 合。因此Wang(2007)建议用BIC准则去选择“tunning parameter"。
下面我们通过模拟数据和实际数据来比较Lasso及其相关方法在应用上的一

些特点。

2.5能运用LARS算法的条件
由前面的讨论我们知道,前面讨论的很多惩罚最小二乘问题一般都可以用

LARS算法来求出其解的路径。即便不能用该算法的SCAD惩罚经过一次局部近似 之后也可以将SCAD惩罚转化为Lasso问题,因此也可以用LARS算法求得其解的 路径。下面针对一般的情况给出一个定理来描述满足怎样的条件的惩罚函数问题
其解的路径才是逐片线性的,才可以用LARS算法。

下面我们考虑比惩罚最小二乘更广的一类的问题:
20

坠学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

p(九)=argminL(y,鄙)+xJ(p)
13

(2—40)

其中A≥0为“running parameter"(或称正则化参数),允:0时相当于普通的无

惩罚问题,xli.m。西(九)=o,L和J都是非负凸函数。并且:

—813-(z)--[V:L(1300)+Z,v2,(西(九))】-1 w(区(九))(2-41)
OA,

前面所说的Ridge Regression、Adapive.Lasso、Lasso、Relaxed.Lasso都可以纳

入这个框架来考察。实际上惩罚Logistic回归模型也可以纳入这个框架:

区=arg。min∑d{一y,(x,p)+l。g(1+P,9))+九∑d Ip。l 百

f=1

(2.42)

但是我们将给出下面的定理,由定理我们能方便的判定惩罚Logistic回归模型的 解不是逐片线性的。 定理2-问题(2—30)的解在九。是逐片线性的充分必要条件是:

(1)L、J在6(九。)的邻域内二阶可微;

㈣剥JJ
2.6数值模拟

作为A的函数在区(h)的邻域内是各分量为常数的向量。

证明见Rosset和Zhu(2007)。

为对比方便我们仿照Fan和Li(2001)上的模拟数据进行。在本例中我们
将通过如下的模型产生一批数据:

Y=X§+08

(2-43)

其中卢=(3,1.5,0,0,2,0,0,0),自变量和误差均服从标准正态分布。样本容量n=40。

变量x,和x,的相关系数为p删,其中P也考虑三种情况p:0.5,0.9。仃也考虑
仃=1,3,6三种情况,此三种情况对应三种不同的信噪比,我们知道信噪比也同样
2l

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

会影响模型选择的效果,模拟重复100次。其中MRME表示相对模型误差中位
数。“C"表示得到的正确确定模型参数为O的平均个数。在本例中有5个自变 量为0,我们就是要比较用Lasso及其相关方法正确确定出的为0参数的个数。 “IC”则表示错误确定的参数为O的平均个数(结果见表2-1、表2—2)。

方法及比较项目
仃=1 Best Subset Ridge Lasso Adaptive—Lasso SCAD

MRME(%)
51.32 97.62 63.25 64.28 45.32
net

C 4.28 0 3.62 3.62 4.1 8 3.68 3.63 4.28 4.35 0 3.26 3.24 4.30 3.48 3.26 5 4.16 0 3.26 3.26 4.10 3.35 3.26 5

IC 0 O 0 O 0 O.08 O O 0.34 O O.10 O.12 0.21 O.12 O.1l 0 0.59 0 0.22 0.22 O.38 0.20 0.22 0

Elastic

48.36 63.25 51.32 68.25 86.25 64.35 65.02 71.23

Relaxed Lasso Oracl 仃=3 Best Subset Ridge Lasso Adaptive—Lasso SCAD

Elastic

net

50.12 67.12 31.25 71.Ol 88.79 68.02 67.01 78.15

Relaxed Lasso Oracl 仃=6 Best Subset

Ridge
Lasso
Adaptive-Lasso

SCAD Elastic
net

68.01 66.09 31.05

Relaxed Lasso Oracl

表2-1 P=0.5

由模拟数据处理结果,我们可以粗略的得到如下结果:

(1)随着信躁比的减小,各种模型选择方法选择的噪声变量也随之增加;
(2)随着自变量间的相关系数的增加,各种模型选择方法的表现也有所影

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

响,Elastic net的表现要更好些;

(3)以上各种模型选择方法并不存在哪种方法在所有的情况下都优于其他方法, 用BIC选择的最优模型在一般的情况下表现最好。但当自变量的数目增加时, 其计算量以指数增加,在自量超过40时,其计算量一般的计算机无法承担
方法及比较项目
仃=l Best Subset Ridge

MRME(%)
86.01 88.05 67.08 65.04 78.26
net

C 4.13 0 3.54 3.56 4.03 4.26 3.56 5 4.13 O 3.26 3.25 4.03 4.26 3.29 5 4.13 O 3.26 3.25 4.03 4.26 3.29 5

IC O.59 O O.30 0.29 O.36 O.37 O.28 0 O.61 0 O.24 O.22 O.36 0.37 O.25 O 0.6l O O.24 0.22 O.36 O.37 0.25 O

Lasso Adaptive—Lasso
SCAD

Elastic

61.02 63.26 34.16 86.01 88.05 67.08 65.04 78.26

Relaxed Lasso Oracl 仃=3 Best Subset Ridge Lasso Adaptive-Lasso SCAD

Elastic

net

61.02 63.26 34.16 86.01 88.05 67.08 65.04 78.26

Relaxed Lasso Oracl 仃=6 Best Subset Ridge

Lasso Adaptive-Lasso
SCAD

Elastic

net

61.02 63.26 34.16

Relaxed Lasso Oracl

表2-2 P=0.9

(4)Lasso、Adapive—Lasso、elastic net、Relaxed-Lasso比SCAD对较低的信噪比 更稳健: (5)elastic net选择的变量个数比Adapive—Lasso、Lasso、Relaxed-Lasso要多。

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

2.7高维情形的一些讨论
Lasso及其相关方法之所以受到广泛的关注的一个主要原因是这些方法有 处理d>n情形的潜力。但是单纯的Lasso方法用LARS算法来计算最多能选择n
个自变量。这往往会导出过于稀疏的模型。但是理论和实践表明在Lasso基础上 的一些改进的方法却可以有效处理d>n的情形,这里我们主要介绍基于主成分分 析的监督主成分和Elastic
net。

2.7.1有监督主成分的想法

我们知道主成分能有效降维,对于变量有高度相关性的问题,这种处理方法 尤其有效,但该方法一般不能进行变量选择。但Bair,E.(2006)提出的有监督主成 分的想法有效的克服了这个不足,现将其基本想法描述如下: (1)对每个自变量,计算其标准的回归系数; (2)对得到的标准回归系数设置一个门限规则,及设置一个标准值日(9一般用 cross.validation),当得到的标准回归系数的值的绝对值大于p,则对应的白变量 入选,否则则删除。这样选得的自变量就可以形成一个降维后的设计距阵; (3)计算新设计距阵的主成分,根据一定的标准选取其中几个主成分; (4)用得到的主成分对响应变量做回归,建立回归模型,并做预测。 net处理高维数据的想法

2.7.2 EIastiC

下面通过一个定理给出相关的想法: 定理3:给定数据集(y,X)和(九。,九:),由此可以定义一个数据集(y‘,x+):

令丫=九。/瓜,p’:瓜13.我们知道naive
题:

‰矿叶坳钔(青卜删,书
elastic

net相当于处理如下的问

6c嬲眈,=鹕Pi圳y一姜_pIl2+~善d hl+九:喜p产
经过上面的变换之后可以将naive elastic net转化为如下的Lasso问题:
24

c2.44,

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

p‘=甲m卜x‘p‘h驴d
由此可得:



(2.45)

压(naiw)2丽1区’

此结论的证明相当简单,详见Zou等(2005)。
在处理d>n时,除了以上方法外,最近提出的Dantzig selecto“2005)也颇受统 计界关注。

2.8

Lasso及其相关方法的一个简单比较
注意到Nonnegative Garotte相当于Adaptive—Lasso的一种情形,所以在此就

不对Nonnegative Garotte另做讨论了。 (1)Lasso回归能同时进行模型选择和参数估计,可能过度压缩参数,不能有效处 理group effect,不能直接处理d>疗的问题,不具有oracle (2)Adaptive.Lasso回归
Properties:

能同时进行模型选择和参数估计,一般不会过度压缩参数,不能有效处理
group

effect,不能直接处理d>/'/的问题,具有oracle

Properties:

(3)SCAD回归

能同时进行模型选择和参数估计,一般不会过度压缩参数,不能有效处理
group effect,不能直接处理d>珂的问题,具有oracle Properties,SCAD回归尽

管是一个非凸优化问题,但可以用一次局部近似的想法将其转化为Lasso问
题; (4)elastic net回归

能同时进行模型选择和参数估计,一般不会过度压缩参数,能有效处理group
effect,能直接处理d>刀的问题,具有oracle (5)Relaxed Lasso回归
Properties;

能同时进行模型选择和参数估计,一般不会过度压缩参数,能有效处理group
effect,能直接处理d>F/的问题,具有oracle Properties。

2.9其它的Lasso方法
自最小角回归算法提出后,Lasso及其相关方法如雨后春笋般逐一提出,如
Tibshirani,R.等(2005)提出的fused lasso,Yuan和Lin(2006)提出的Grouped lasso,

硕士学位论文

第二章线性模型基于Lasso及其相关方法的模型选择

Wang(2006)提出的LAD-lasso等。实际上对于模型选择(或者说变量选择或特征
选择)在统计模型或方法中是一个基本的问题。Lasso及其相关方法从整体上重新 书写了回归和分类这两大基本问题。下面简要介绍fused lasso和Grouped lasso。 (1)fused
lasso

压=鹕Pinp一善d 02+~善d慨I+九:娄Ip。一睢,I(2.46,
tp fused

lasso不仅对模型的系数进行惩罚,还对它们之间的差异进行惩罚。这种

惩罚结构适宜于某些特殊的数据结构,细节见Tibshirani,R.等(2005),比较好的
算法见Friedman,J.等(2007)。 (2)Grouped
lasso

西=鹕尹in卜喜叫卜扣歹矾II%
Grouped

亿47,

lasso一个重要的应用就是在多因子方差分析中进行变量的选择。其最

简单的情形就是普通的Lasso。Yuan和Lin(2006)给出了Group LARS算法。

26

硕士学位论文

第三章基于广义线性模型的统一处理方法

第三章基于广义线性模型的统一处理方法

我们知道一般的线性模型可以纳入一个统一的框架,这个框架就是广义线性 模型。下面我们简单讨论一下广义线性模型框架下Lasso及其相关方法的模型选
择。

3.1广义线性模型下的各种Lasso及其相关方法
一般的广义线性模型可以写成如下的形式(McCullagh和Nelder
1989):

L(y;O,巾)=exp{(y0-b(O))/口(巾)+c(y,巾))

(3-1)

我们知道响应变量在很多情况下都不是连续变量,而是定性变量。其中以二 元最为常见,此时常用的模型便是logistic回归模型。对于Logistic回归模型建 模型问题,也遭遇线性模型建模同样的问题。因此模型选择也同样重要。
我们以Adaptive-Lasso为例简单说明一下对应的估计的定义: (1)Logistc回归

萨arg.min芝{一y心,p)+log(1+P,9)}+九∑a击,lp。I
p ,=l i=1

(3.2)

(2)Poisson对数线性回归

西=argmin∑{一y,(x,p)+exp(x?p))+九∑岱Ip,I
13
,=l i=1

(3-3)

其他的Lasso方法由前面线性模型的讨论很容易给出,在此就不再重复给出。

3.2实例
由前面的叙述我们不难得到logistic回归模型下各种Lasso及其相关方法的 各种形式。在此我们就不在对其形式做具体说明。在本结我们将主要通过实际数
据来说明其应用,并对各种方法在数据处理的表现做简要说明。为方便计算和比 较我们按Fan(2001)i的实例进行(结果见表3-1)。
27

硕士学位论文

第三章基于广义线性模型的统一处理方法

Best

Best Subset Lasso

Adaptiv—


SCAD a=3.7

Elastic
net

Relaxed Lasso

方法

MLE

Subset

Lasso

(AIC) 常数
5.51 4.81

(BIC)
6.12 3.70 4.52 6.09 4.24 5.29

(0.75)

fO.45)
一6.49

(0.57)
.12.1

(0.25) O(-)

fO.24) O(-)

(0.29)
.12.24

fO.46)
.O.59

(0.50) 0(-)



.8.83

(2.97)
X2
2.30

(1.75) 0(-)

(1.81) O(?) 0(-) O(-)

(0.08) 0(一)

f0.32) 0(一) O(-)

(2.oo)
X3 .2.77

0(-)

.6.93

O(-)

0(?)

-7.00

0(?)

O(-)

f3.34)
xA .1.74 O.30

fO.79)
.O.29 .0.28 -1.16

(0.21) 0(-)
.O.10 .0.28

(1.41)

(O.11)
.1.04

(O.11) 0(?)

(0.09)
-1.7l

(1.10)
?1.85

(O.26) O(-)
.1.89

fO.09)
.1.15

x; Xj

-O.75

(0.61)
-2.70

(O.54)
一4.55

(0.24) O(一)
?2.67

fO.35)
.2.69

(0.36) O(一) 0(-)

fO.50)
一4.25

(2.45)
xIX2 O.03

(0.55) 0(-) O(-)

(0.20) O(一)

(O.23) O(-) O(-) 0(-)

(O.51) O(-)

f0.34)
X LX3 7.46 5.69 9.83 O.36 0.42 9.84 0.57 6.28

(2.34)
XLX


(,1.29) O(-)

(1.63) O(?)

(O.ee) O(-)

(O.15) 0(一)

fO.14) 0(-)

(O.09) 0(-)

fO.38) 0(-)

0.24

(0.32)
X2X3 .2.15

0(一)

O(-)

.O.10

.O.80

0(-)

.0.26

.0.15

(1.61)
X2X4 .0.12

(0.10) 0(-) 0(一) O(一)

fO.26) O(-) O(一)

fO.04) 0(-)

fO.10) 0(一)

(0.16)
X3X4 1.23

O(-)

0(一)

O(-)

O(-)

0(-)

O(-)

O(?)

f1.21) 表3-1

此数据集有981个数据,Y为--5变量,1表示其表示烧伤经治疗后的幸存

者,0则表示对应的死亡者,其中自变量工=年龄,X:=性别,X,=log(烧伤面

硕士学位论文

第三章基于广义线性模型的统一处理方法

积+1),X=l或0(1表是吸氧正常,0则表示不正常),二次项仅考虑五、X,, 考虑所有的交互效应。我们考虑用带常数项的logistic模型来拟和该数据。我们
比较用AIC、BIC、Lasso、Adaptive.Lasso、SCAD、elastic 得到的模型的差异。 由于Logistic回归模型其解的路径不是逐片线性的,所以不能用最小角回 归算法,因此这里用的是局部二次近似算法。
net、Relaxed Lasso.

在前面的模拟研究中我们知道即便是最简单Logistic回归模型其参数路径的 解也不是逐片线性的。也就是是说其解的路径不能直接用最小角回归算法得到。 那么我们是否有一个统一的算法来处理基于广义线性模型的Lasso估计呢? Wang和Leng(2006)以及Park和Hastie(2007)分别对这一问题进行了研
究,现将他们的主要想法介绍如下:

2两个统一的处理方法
3.2.1最,J、--乘近似方法(I east
approx i mat i

squares

on)

Wang对似然函数做二次近似给出了LSA的Adaptive-Lasso。我们假定函数

三。(p)关于卢有连续的二阶导数,当然这个假定只是作为一种启发式的讨论时的

条件。于是我们可以在声附近的Taylor展开式:

疗一1上。(p)≈门~L。(F)+刀一1三。(F)丁(D一声)+去(D—F)r{土z。(F))(p—F)(3-4)
Z ,?

由声使三。(p)取得最小值,因此有三。(芦)=0,于是上式可被简化。由于 E{n一1Z。(p))≈∑~,这启发我们用杰一1作为Z。(F)厶的估计,于是我们可以考虑如下
的近似最dx-乘问题:

(p一萝)7’p(p—F)
于是我们得到基于最,b-乘近似的Adaptive-Lasso:


(3-5)

6=argmin(13一芦)71金。1(p一声)+∑击,Ip,l

t=l

(3?6)

因此很自然的运用最小角回归算法。

根据前面的讨论我们知道这往往只能处理d<n的情形,对于d>n时,这种处理
29

硕士学位论文

第三章基于广义线性模型的统一处理方法

往往效果不理想。于是给出如下的改进:

阽arg.min(13一芦)7’宝一(13一F)+∑西胪,I+ZIpJ2
p i=1 ,=】

(3-7)

注意到宝一般为R软件上标准的输出。因此处理该问题并不需要额外的计算。
需要注意的是这种处理方法不仅可以处理标准的广义线性回归基于

Adaptive.Lasso的模型选择问题,还可以处理广义线性模型框架之外的很多问题。
如最小一乘回归(Wang,2007)、Tukey’Biweight回归,细节见Wang(2007)。

3.2.2 Pred i ctor-cor rector方法

Park和Hastie是直接针对广义线性模型的Lasso估计提出了
Predictor-Corrector

algorithm。并且该方法也可应用于elastic net回归。

L(y;0,巾)=exp{(yO一6(。))/口(巾)+c(y,咖))

其中”=E(y),v=COV(y),T1=g(甜)=po+xrp, 基于广义线性模型的Lasso我们可以表述如下:
坩d

z(p,九)=一∑钞,0(13),一6(e(p)m+九∑…
t=l i=1

(3—8)

注意上式p=(p。,pl,.一,pd)r=(p。,声)7’,也就是说包含常数项。我们定义如下的
函数:

即m丽01__XrW旷甜,鲁‰印㈦
其中X有n彳T(d+I)YU,有一列全部为l,w是对角距阵,其对角元为?V-I(、O.u,V,
dn

p9,

(y叫_OrlOU是n刎眠其元地,叫)(拿gU),


,;

我们现在的目标是当A从0变到九一时求出整个解的路径。我们首先来确定

九。。戤。6。=gff)。贝0:
现将Predictor-Corrector algorithm的想法表述如下:

九一=砖躞djk矿(y—y1)lB。|

硕士学位论文

第三章基于广义线性模型的统一处理方法

(1)确定允的变化大小 给定九。,我们要近似确定下一个最大的A,此时所选的变量子集(或称“active set”)刚好发生变化,记此时的九为k+,; (2)确定随着A的变化,卢近似线性变化。并记作p“;

(3)矫正步:用6“作为初值,找出k+,出精确的解,记作D“1;
(4)检验“active set”:假如“active set”还需要修正,重复第(3)步。 该方法用于d>n的情形,也需要加入二次惩罚项。实际由算法的叙述可以看出, 此处给出的解的路径是近似逐片线性的。这也可以说是基于Lasso方法的广义线

性模型的模型选择问题与一般线性模型的模型选择不同的地方。

硕士学位论文

第四章有待进一步研究的问题

第四章有待进一步研究的问题

Lasso及其相关方法之所以如此广泛的研究,这主要是因为Lasso及其相关

方法的确能克服了传统方法的一些缺陷,并且在这种方法基础上的一些改进的确 能能解决某些d>n情形下的高维特征变量的选择问题。研究还发现Lasso和目前 机器学习领域中最为热门的Boosting有密切的关系。但即便是Lasso及其相关方
法在广义线性模型模型选择中的应用依然有很多问题有待进一步解决:

(1)我们知道“Tunning parameters”的选择有CV、GCV、BIC、quasi-GCV(Fu 2005), 那么这些方法在选择“Tunning

parameters”上各有那些优缺点;

(2)我们知道Efron,B(2004)基于Stein的无偏估计理论提出了模型拟和有效参数 的一个估计,这在Lasso方法模型选择中相当重要。Zou等(2004)指出该估计 的自由度在设计距阵是列满秩的情形下是最终选择模型变量个数的一个无偏 估计,一个很自然的问题就是设计距阵不满足列满秩时该如何处理; (3)我们知道oracle Properties是一个非常不错的性质,但该性质是在大样本的情 形下得到的,Leeb和Potscher(2007)的研究指出“哲人"性质太好以致让人 觉得它有不真实的地方,并通过大量模拟指出了具有“哲人"性质的模型选
择方法的不足,那么该如何有效的克服这一问题;

(4)Rosset和Zhu(2007)研究了损失函数和惩罚函数在满足一定的条件才能使参 数的解是逐片线性的,并在此基础将最小角回归算法进行了扩展到更广的一 类惩罚回归。还给出了稳健的Lasso。这启发我们有必要进一步研究其他的惩
罚回归;

(5)对于Lasso及其相关方法目前的算法有多种,这些算法的优缺点还有待进一步
的研究,比如处理Nonnegative Garotte估计的算法就有LARS算法,还有Yuan

和Lin(2007)提出的算法以及Friedman等(2007)提出的“coordinate.wise descent’’算法,我们怎样评价这些算法的优略。我们是否能把“coordinate.wise
descent”扩展到广义线性模型:

(6)实际上时间序列领域的模型定阶与本文讨论的主题密切相关,而且理论和实
践都表明,单纯的信息准则定阶方法并不能满足实际的需求,比如ARFIMA

模型的定阶问题。因此我们可以试验用Lasso及其相关方法对时间序列模型
定阶;

(7)Lasso和boosting的关系也是一个研究的热点,目前Lasso方法在支持向量机领
域也得到了广泛的应用。

实际上我们已经注意到该领域的想法相对而言是比较简单的,从厶正则化(对应
32

硕士学位论文

第四章有待进一步研究的问题

“Ridge

Regression”)到厶正则化(对应于Lasso)tg许很多人试图做过这样的推

广,但直至Tibshirani,R.(1996)提出其具体应用,这一处理方法才逐步被人。lf]T解。 到Efon等(2004)提出有效的算法,这一方法才在统计界广为流行。这一领域的研
究成果已被S-PLUS收入标准的软件包GLARS,因此在其他领域尤其是生物信息

学领域的应用也会逐步兴盛起来。

硕士学位论文

参考文献

参考文献

[1]Antoniadis,A.,Fan,J.Regularization
Joumal

of

Wavelets Approximations.

of the American Statistical Association,200 1,96(1):939—967. a1.Prediction by supervised principal comp-

[2]Bair,E.,Hastie,T.,Paul,et
onent.Journal of the

American

Statistical

Association.2006,1 0 1

(2):1 19-133. [3]Bunea,E,A.Tsybakov,M.Wegkamp.Sparsity
lasso.Electronic Journal of oracle inequalities for the

Statistics,2006,1(2):1 69—1 94.

[4]Breiman,L..Better

Subset Regression Using the Nonnegative Garrote.

Technometrics,1995,37(3):373—384. [5]Breiman,L..Heuristics
of Instability

and

Stabilization in

Model

Selection.The Annals of Statistics,1 996,24(4):23 5 0—23 83.

【6]Cai…J Fan…J
time

Li,R.,Zhou,H.Variable selection for multivariate failure

data.Biometrika,2005,92(3):303-3 1 6.
Dantzig selector:statistical estimation when P is

[7]Candes,E.,T.Tao..The

much larger than n.The Annals of Statistics,2007,3 5(6):23 1 3—23 5 1.

[8]Chen,S.,Donoho,D.and Saunders,M..Atomic decomposition
basis

by

pursuit.SIAM Journal

on

Scientifc Computing,1

998,20(1):

33.61.

[9]Efron,B..The estimation
cross-validation(with

ofprediction error:Covariance penalties

and

discussion).Journal

of

American

Statistical

硕士学位论文

参考文献

Association,2004,99(3):6 1 9—642.
[1 0]Efron,B.,Hastie,T.,Johnstone,I.et
a1.Least angle regression.

The Annals of Statistics,224,32(2):407—499.

[1 1]Fan,J..Comments on“Wavelets

in statistics:A review’’by A.Antonia—

dis.Jounal Italian Statististcal Assocation.1 997,6(1):1 3 1-1 3 8.

[1 2]Fan,J.and

Li,R.Z.Variable

selection via penalized likelihood.

Journal ofAmerican Statistical

Association,2001,96(4):1348—1360.
for Coxs proptional hazards

[1 3]Fan,J.and

Li,R.Z.Variable

selection

model and frailty model.The Annals of

Statistics,2004,30(1):74—99.


[1 4]Fan,J.and Peng,H..Nonconcave

penalized likelihood with

diver-

ging number of parameters.Annals of

Statistics,2004,32(2):928-96 1.

【1 5]Fan,J.and
Feature

Li,R.Statistical Challenges with High Dimensionality: in Knowledge Discovery.Proceedings of

Selection

the

Intemational

Congress of

Mathematicians,2006.
statistical view of some chemo—

【1 6]Frank,I.E.and Friedman,J.H..A
metrics regression

tools(with

discussion).Technometrics,1 993

35(1):109—148. [1 7]Friedman…J Hastie,T.,Hofing,H.,et
a1..Pathwise coordinate

optimi—

zation.The Annals

ofApplied

Statistics,2007,1(2):302-332.
bridge
VS

[1 8]Fu wenjiang.Penalized regressions:the
of Computational

the lasso.Journal

and

Graphical Statistics,1

998,7(2):397—4 1 6.
models.Journal
of

[1 9]Fu.Nonlinear

GCV

and

quasi-GCV for shrinkage
35

硕士学位论文

参考文献

Statistical Planning and Inference,2005,1 3

1(2):333-347.

[20]Gerhard,T.and Harald,B..Boosting

ridge regression.Computational

Statistics&Data Analysis,2007,5 1(6):6044-6059.

[2 1]Hall,R,Marron,J.S.andNeeman,A.(2005).Geometric

representation of

high dimension low Sample size data.Journal of the Royal Statistical

Society Series

B,67(2):427-444.

[22]Hastie,T.,Tibshirani,R.and Friedman,J.The Elements of Statistical
Learning:Data

Mining,Inference

and Prediction.200 1,Springer Verlag.

[23]Hoerl,A.E.,Kennard,R.W..Ridge

regression:biased

estimation

for

nonorthogonal problems.Technometrics,1 970,1 2(1):55—67.

[24]Hunter,D.and Li,R..Variable

selection

using

rnnq

algrithms.The

Annals ofStatistics,2005,33(4):1617—1642.
[25]Leeb,H.and B.M.Potscher.Model
selection and inference:Facts
an

fiction.Econometric Theory,2005,2 1(1),2 1-59.

[26]Leeb,H.andPotscher,B.M.Sparse estimators
or

and the oracle property, of

the

return

of 1

Hodges

estimator.Journal

Econometrics,

2008,142(1):201—21

[27]Leeb,H.andPotscher,B.M..Performance limits for estimators
risk
or

of the

distribution of shrinkage—type estimators,and some genera

lower risk-bound results.Econometric

Theory,2006,22(1):69-97.
on

[28]Leng,C.,Lin,Y.and Wahba,G.A

note

the

lasso

and

related

procedure in model selection.Statistica Sinica,2006,1 6(4):1 273—1 284.

36

硕士学位论文

参考文献

【29]Li,R.and

Liang,H..Variable

selection

in

semiparamtric regression

modeling.The Annals of

Statistics,2008,32(1):26 1-286.
principal component

[3 0]Jolliffe…I Trendaflov,N.andUddin,M..A modifed
technique based
on

the

LAS SO.Journal

of

Computational and

Graphical Statistics,2005,1

2(2):53 1-547.
sparse

[3 1]Kim,Y,Kim,J.andKim,Y.Blockwise
Sinica,2006,1

regression.Statistica

6(1):3 75-390.
for lasso—type

[32]Knight,K.and Fu,W..Asymptotics
Annals

estimators.The

ofStatistics,2000,28(3):1356?1378.
Linear

[33]McCullagh,P.,and Nelder,J.A..Generalized
ed.London:Chapman and Hall,1 989.

Models.2nd

[34】Meinshausen,N..Relaxed Lasso.Computational
Analysis

Statistics and Data

2007,52(1):374—393.
graphs and variable

【35]Meinshausen,N.,EBuhlmann.High dimensional
Selection

with the

lasso.Annals of

Statistics,2006,34(3):1436—1462.

[36]Osborne,M.R.,Presnell,B.and

Turlach,B.A.On the LASSO and its land

dual.Journal of Computational

Graphical

Statistics,2000,9

(1):3 19—337. [37]Osborne,M.R.,Presnell,B.,andTurlach,B.A..A
variable Selection in leasts quares new approach Journal
to

problems.SIMA

of

Numerical

Analysis,2000,20(2):3 89—404.
Hastie,T.An L1 regularization—path

[3 8]Park,M.一Y.and

algorithm

for

37

硕士学位论文

参考文献

generalized linear models.Journal of the Royal Series

Statistical Society

B,2007,69(2):659—677.
Piecewise linear regularized solution paths.The

[3 9]Rosset,S.and Zhu…J

Annals of Statistics,2007,35(3):1012-1030.

[40]Shen,X.and Ye,J.Adaptie model
Statistical

selection.Journal of the American

Association,2002,97(1):2 1 0-22 1.
selection Series via

[4 1]Tibshirani,R..Regression shrinkage and
Joumal
267.288.

the lasso.

of the

Royal

Statistical

Society

B,1 996,58(1):

【42]Tibshirani,R..The

lasso method for variable selection in the

COX

model.Statistics in Medicine,1 997,1 6(2):385—395.

[43]Tibshirani,R.,Saunders,M.,Rosset,S.,et a1.And
fused lasso.Journal of the Royal Statistical

smoothness

via

the

Society

Series B,2005,

67(1):91-108.

[44]Trendaflov,N.andJoilliffe…I
nant analysis via

Dlass:Variable

selection

in

discrimi-

the lasso.Computational Statistics and Data

Analysis,

2007,5

1(4):37

1 8-3736.

[45]Tsybakov,A.,vandeGeer,S..Square

root

penalty:adaptation

to

the

margin in classication and in edge estimation.The Annals of Statistics

2005,33(3):1203-1224. 【46]Tutz,G.,Binder,H..Boosting
&Data
ridge regression.Computational Statistics

Analysis.2007.5 1(1 2):6044—6059.
38

硕士学位论文

参考文献

[47]van

de Geer,S.,van Houwelingen,H..High dimensional data:p>n in statistics and

mathematical

bio—medical

applications.Bernoulli,

2004,1 0(2),93 9-943.

【48]Wang,H.,Li,G.,and
consistent Variable

Jiang,G..Robust selection via the

regression

shrinkage

and of

LAD.LASSO.Journal

Business and Economics

Statistics,2007,25(3):347—355.
coefficients
and autor-

[49]Wang,H.,Li,G,and
egressive order

Tsai,C.L..Regression

shrinkage

and selection via the lasso.Journal of Royal

Statistical Society,Series

B,2007,69(1):63?78.
estimation via least squares
Statistical Associ—

【50]Wang,H.and

Leng,C..Unifed LASSO of

approximation.Journal ation,2007,1

the

American

02(3):1 039—1 048.
Tsai,C.L..Tuning parameter selector for

[5 1]Wang,H.,Li,R.,and

SCAD.Biometrika.2007,94(2),553-556. [52]Yang,Y.Can the
between model strengths of AIC and BIC be shared?A confict

identifcation and Regression estimation.B iometrika

2005,92(4):973-950. [53]Yuan,M.,Ekici,A.,Lu,Z.,etal.Dimension
cient Estimation in Reduction and

Coeffi—
of the

Multivariate

Linear

Regression,Journal

Royal Statistical Society Series

B,2007,69(1),329—346.
Estimator,Journal

[54]Yuan,M。and

Lin,Y..On the Nonnegative Garrote

of the Royal Statistical Society

SeriesB,2007,69(1),1 43-1 6 1.
39

硕士学位论文

参考文献

[55]Yuan,M.and Y.Lin.Model

selection and estimation in regression with

Grouped variables.Journal of the Royal Statistical Society Series B,

2006,68(1):49—67. [5 6]Zhang,H.andW.Lu.Adaptive-Lasso
for Coxs proportional hazards

model.Biometrika,2007,94(3):691—703. [57]Zhao,P.and
B.Yu.Stagewise

lasso.Journal

of

Machine Learning

Research,2007,8(5):270 1—2726. 【58]Zhao,Eand
Yu,B.On model selection consistency of lasso.Journal of

Machine Learning Research,2006,7(5),:254 1-2567.

[5 9]Zou,H.,Hastie,T.and
the

Tibshirani,R..On the Degrees of Freedom of

Lasso.The Annals of

Statistics,2007,35(5):2 1 73—2 1 92.
and variable selection via the

[60]Zou,H.&Hastie,T..Regularization

elastic net.Journal of the Royal Statistical Society Series B,2005,

67(1),301—320. [6 1]Zou,H.,Hastie,T.and
lysis.Joumal
265.286. Tibshirani,R..Sparse principal component
ana-

of Computational and Graphical Statistics.2006,1

5(1):

[62]Zou,H..The

Adaptive Lasso and its Oracle

Properties.Journal

of the

fi,dTlerican Statistical Association,2006,1 0 1(3):1 4 1 8—1 429.

硕士学位论文

致谢

毁诩寸
很高兴数月的辛苦总算可以结尾。其实想想统计还是一个很不错的方向。而

且读英美一流统计刊物上的那些文章时,也的确让人感觉统计是如此的好玩和有
用,每每读到经典处都会为那些牛气的教授和学生们的想法惊叹不已。

这篇硕士论文的完成首先要感谢喻胜华教授、许青松教授,是他们让我有机 会进入Lasso这个令入兴奋不已的领域。还要感谢王志忠教授这两年多以来对我 在学业上的关心和引导。最后在此要衷心的感谢我的父母,是他们含辛茹苦地供
我读完研究生。 谢谢所有关心我的人,爱护我的人!

路漫漫其修远兮,吾将上下而求索1

龚建朝 2007年10月

41

硕士学位论文

攻读硕士学位期间发表的论文

攻读硕士学位期间发表的论文
[1]龚建朝.局部影响分析中的一个新二阶方法.数学理论与应用,27(2),2007:
95-97.

42

Lasso及其相关方法在广义线性模型模型选择中的应用
作者: 学位授予单位: 龚建朝 中南大学

相似文献(5条) 1.学位论文 宋国栋 线性不等式约束下的变量选择 2007
关于线性模型回归系数的问题,前人已经做了很多工作,回归参数的估计有诸多方法,包括最小二乘估计、岭回归估计、主成分回归等方法.但这 些方法的一个共同缺点就是不能缩小变量集.Robert Tribshiraai和Michael Saunders等先后给出了lasso估计及其改进的fused lasso估计,这两种方 法能够很好的进行变量选择.本文主要考虑在进行变量选择时不仅知道样本信息,而且还知道其它一些先验信息的情况.我们对fused lasso进行改进 ,加入线性不等式约束,使变量选择应用的更广泛,在经济领域等方面发挥更大的作用.我们不仅给出了改进,used lasso的定义,还给出了求解此问 题的一种新算法--Monte Carlo计算方法,这种算法更准确更省时间.同时,在调和参数的选择上,本文引入了“丢弃一个的交叉核实”(leave-oneoutcross-validation.简记为LOO交叉核实)的方法,使选择的调和参数更准确.随后,本文又给出了线性不等式约束下的fused lasso的自由度,并证 明了此估计的渐近性。文章的最后,进行了计算机模拟,得到了很好的结果,验证了线性不等式约束下的fused lasso能很好的进行变量选择.

2.学位论文 杨威 函数型回归模型的成分选取 2009
一般地说,多元数据分析处理的对象是刻画所研究问题的多个统计指标在多次观察中呈现的数据。样本数据具有离散且有限的特征,但是现代的数 据收集技术所收集的信息,不但包括传统统汁方法所处理的数据,还包括具有函数型形式的过程所产生的数据.在处理数据的时候我们就会遇到模型建 立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中(比如线性模型).那么在线性模型中变量的选择问题就很重要了.在分析这种 模型的时候,人们根据问题本身的的专业理论及有关经验常常把各种与因变量有关的自变量引进模型,其结果是把一些对因变量影响很小的,甚至没有 影响的自变量也选入了模型中,这样一来,不但计算量大,而且估计和预测的精度也会下降,此外在一些情况下,某些自变量观测数据的获得代价昂贵 ,如果我们对这些本身对因变量的影响很小或根本没有影响的自变量不加选择的引入到模型当中,势必会造成观测数据收集和模型应用费用的不必要加 大,因此,本文基于函数型数据的普遍特征,在函数型数据分析时,对进入模型的自变量作了精心选择. 本文主要的工作是利用Tibshirani(1996)提出的lasso方法,将函数型回归模型系数进行压缩,并且使某些系数变为0,再利用其他方法将变为0的 系数截去,从而来确定模型的阶数,进而达到变量选择的目的。

3.学位论文 邹长亮 复杂数据统计过程控制的若干研究 2008
统计过程控制(Statistical Process Control)是应用统计方法对过程中的各个阶段进行监控,从而达到改进与保证质量的目的.近些年来,由于高 性能计算机科技的发展,现代统计数据的收集,分析,推断决策方法逐渐体现出两个特点:一是灵活性;二是利用计算机进行复杂计算获取最大化信息 .作为工业统计的重要研究领域的统计过程控制方向更是显著地表现出这两个特点.尽管统计过程控制经过了五十年的发展,形成了一套特有的研究方法 ,技术和评价体系,但是得益于高速计算和大规模数据的储存,一些十几年前不能够实现的模型筛选,自由化建模,模式识别刻画以及变化(异常点)探 查等统计方法如今可以有效快速地实施;随着工业领域自动化的高灵敏度传感器等设备的普及应用,在线大量数据快速收集得以实现,对统计方法的灵 活性和有效性提出了更高的挑战.当今的工业生产中的很多问题都涉及到大规模复杂数据的分析以及由此所带来的质量改进与对生产制造过程的更好的理 解,传统的基于简单正态数据所开发出来的各种技术方法不能够很好地处理当前这些问题,现在的统计过程控制研究趋势正是要与时俱进地适应这些发 展和变化,更好地利用现代的科技资源处理复杂数据问题。<br>   本论文正是在这样的背景下,在如下一些重要的前沿问题上展开研究:profile数据过程的监控和诊断;非参数控制图:相关数据的动态控制图;监测 drift飘移的控制图;多元过程控制;多阶段过程的检测和诊断.本文引入并开发各种新的统计技术,紧密结合计算算法,解决这些当前质量控制领域研 究的重点难点问题。下面我们依次简要介绍,<br>   许多应用中,我们所关心的产品质量已经不是简单的某个或某几个指标的均值或方差(或分布),而是需要用一些自变量和响应之间的某种关系来更好地 刻画或衡量.也就是说,在固定的抽样点上,我们所得到的观测值可以看作是一些变量的回归曲线,这样的问题我们称之为profile数据问题,如何使用 统计过程控制方法对这样的生产过程进行监控,就是profile数据的质量控制问题.该问题是最近统计过程控制中非常重要的热点研究问题.大量的学者和 质量控制专家都在从事该方面的研究,目前几乎所有的profile数据过程控制方法都假设参数模型,其中研究最多的是线性参数模型,文献中有许多成果 ,参见综述文章Woodall etal.(2004).然而,现有的工作存在有两方面的不足:一,它们都依赖于参数已知的假设;二,他们都建立在简单线性模型基 础之上,缺乏统一的一般线性模型的有效且简便的控制方法.由此,我们在第1章中从这两面着手进行研究.对于第一个问题,我们提出了两种不同的解决 方案,一种方法是结合序贯变点方法和似然比检验,另一种方法是使用迭代残差构造自启动指数移动平均(EWMA)控制图.两种方法各有优势:前者有良好 的理论基础和综合的实际效果,但需要的计算量偏大;后者构造实施简单,可控失控平均运行长度均可由马氏链方法快速计算得到,在实际应用中可根 据需要由使用者自行选择,针对第二个问题,我们提出了全新的多元EWMA控制图及相应诊断的统一框架.该方法具有如下优势:首先,由于最终控制图的 统计量是一元的,其操作和实现方便;其次可控和失控的运行长度均可由马尔科夫链方法得到,因此设计简单且很容易推广至可变抽样参数的控制图 ;再次其可同时监控回归系数和profile方差的变化(包括方差增大和减小);最后其具有非常良好的监控效果,<br>   在很多情况下,准确地用参数回归函数描述- profile是相当困难的,尤其当一个profile比较复杂的时候,实际应用中,很多工程师们可能想避免复杂 且费时的建模过程.另外,用参数回归的方法存在另一个缺陷是,即使我们正确地描述了可控状态下的profile,但若在失控情形时profile不是简单地参 数发生变化,而是模型的结构发生了变化,这种情况下使用参数假设检验方法得到的控制图缺乏稳健性,也就是说在很多情况下,它对过程飘移不敏感 ,在第2章中,我们首先针对两回归曲线比较这一重要的统计问题进行研究,综合使用广义似然比(Fan etal.2001)和自适应选取带宽的技术(Guerre and Lavergne2005)提出了一新的检验方法并得到了其原假设和备则假设下的极限分布.该问题的研究为我们后面的序贯检验提供了基础,然后我们在2.2节中 开创性地提出基于非参数回归方法的指数移动平均控制图,对profile过程的在线监控和诊断问题给予了全面的解答,之后在2.3节中我们提出一基于变 点模型的自启动型非参数控制图,该方法采用bootstrap确定控制线,有效地解决了参数未知及误差分布未知时控制图的设计问题.2.4节我们针对非平衡 或随机设计的profile数据这一在线控制的难点问题,提出了将指数移动平均引入局部线性回归中的奇特方法,并对自适应权函数,自适应选取带宽以及 自启动等问题给予了详细的探讨.最后,针对工业生产中大量profile数据都存在的profile数据内观测是相关的问题,我们创新地引入局部线性混合模型 对该类数据进行建模和第一阶段参数估计,并提出了一既有良好理论支撑,又具备快速计算方便实施特点的在线控制方案,通过一个粒状薄板生产线的 实际例子说明我们的方法是非常有效的。<br>   传统上,无论是一元或是多元控制图,我们一般假设过程观测服从正态分布,在这样的假设下,我们一般通过似然方法来构造检验统计量再用过程控制 图来进行序贯检验,但是,在很多生产过程中,产品指标的分布不服从正态分布且是未知的,这时若用针对正态分布时的控制图及设计会导致两方面严 重的不良结果。一是可控时控制图的运行长度会严重偏离我们想要达到的值,从而使得我们对过程失控与否的判断失去根据;二是,由正态分布所得到 的检验统计量不一定对非正态过程的飘移敏感,因此在过程失控时,通常很难快速地给出警报.第3章基于两样本的秩检验和动态变点模型,提出一全新 的非参数控制图,该控制图结合自启动和非参数两个特点,对各种数据分布具有可控状态稳健性及失控状态的灵敏性的特点,<br>   大量的工业生产过程都存在有数据相关的问题,直接使用在独立假设下开发出的方法通常都会导致非常不良的效果,即便是在相关性不太大的情形下有 时亦会如此.我们在第4章中将可变抽样参数控制图的思想推广到自相关数据过程的监控,提出了一在固定时间点抽样的可变抽样区间和样本容量的用于 监控自相关数据的控制图,并给出了一综合马氏链和积分方程方法的计算平均运行时间的方法,通过适当选取设计参数,该控制图能够在保证可控平均 抽样成本和抽样频率与非可变抽样参数控制图一致的情况下,在过程发生失控时更快速地检查出来,也就是失控平均运行时间最少。<br>   Drift飘移是工业生产中除跳跃飘移外的另一种常见形式,该飘移通常是由于设备的逐渐老化,催化剂的失效,废物的累积以及一些人为因素所造成的 .在文献中,已有不少学者针对这种类型的飘移提出了各种控制方法,但是,由于该类型飘移是随时间变化不断变动的飘移,理论研究存在一定的困难 ,因此文献中这方面的理论结果非常缺乏,在第5章中,我们研究了各种目前最有效的监控该类飘移的控制图的理论性质,并给出了大样本和有限样本的 比较结果。<br>   多元数据的监控和诊断在最近二十年来一直是SPC研究领域的重点问题.文献中称该类问题为多元统计过程控制(MSPC).大量的学者开发研究出了许多不

同的方法,这些方法不仅在一般的多元数据的监控诊断中使用,并且一些其它类型的问题亦被最终归纳为多元问题而予以采用.在这些方法中,对于监控 问题,以采用T2形式或回归调整方法的多元CUSUM或EWMA控制图最为流行.而这些方法本身不能够作为诊断工具,一般仍需采用step-down检验的方法来判 断到底哪个或哪几个变量发生变化,尽管T2统计量对于探查一般多元向量的飘移具有一些最优的性质,但它对于结构化的飘移,比如仅有一些变量发生 飘移这种情况不是最优的.而另一方面,被设计用于探查最多仅有一个变量发生飘移的回归调整统计量在多个变量同时发生飘移的情形下有时会表现非常 糟糕.实际应用中,生产过程中的大多数飘移都具有这样的一个性质:它们仅发生在少数一部分的变量中.我们称这种性质叫做稀疏性.一个很好的控制方 法应该利用这一性质并且应该对各种飘移具有稳健性,第6章中我们利用现代变量选择理论的最新发展,使用现在颇为流行的工具LASSO,提出了一全新 的多元检验并将其与指数移动平均结合起来建立控制图.该方法能够对这种飘移形式具有良好的稳健性,并且相比于传统方法其对于具有稀疏性的多元过 程有更好的监控效果.此外,由于LASSO估计方法所具有的精确稀疏性质,该方法同时还提供了一有效简便的诊断工具。<br>   现代许多的生产过程中不是仅有一个生产阶段,而是由多个相互联系的阶段共同组成的.这就是所谓的多阶段过程.该过程是当今工业工程领域研究的热 点问题,可参见专著Shi(2006).如何有效地利用多阶段过程的信息并充分地使用统计方法是统计过程控制研究领域的难点问题.我们在第7章中利用线性 state-space模型和方向性多元检验提出了第一阶段和第二阶段的变点探查,监控和诊断方法,并研究了一定的理论性质,数值结果显示该方法具有非常 好的效果,明显优于现有的传统方法,<br>   第8章总结了本文,并提出了一些今后的工作设想,

4.学位论文 沈琪斌 支持向量机与高维统计判别分析 2007
随着技术革新的深入,大量知识和数据的获取变得越来越容易。由此带来的数据分析问题的复杂性对传统统计学构成了极大的挑战。高维数据,或 称横向数据挖掘问题便是其中一类,它存在于科学研究和商业应用的许多领域,如疾病研究、计算生物学、金融工程和风险管理等等。其典型的数据特 征是“low sample size and high-dimensional”,即自变量个数p远远大于样本量n,且在实际应用中,不仅要求精确预测,往往还要求自动的变量选 择和特征压缩。传统的回归或判别分析等方法已无法胜任这项极具挑战的工作。 本文主要考虑生物统计学中的基因数据分析问题。现代医疗成像技术的进步,使得一次同时测绘大量基因组表达水平成为可能。常用的 microarray基因数据是典型的高维度低样本量数据,一条记录表示一个细胞样本(病例)的mRNA基因表达水平,往往高达数千维,而由于测量成本等考虑 ,样本量一般只有数十条。一个基本的任务就是要利用这些基因数据构造一个良好的分类判别器,对病例诊断起指导作用,同时又能对成千上万的基因 进行有效地筛选,为病理的深入研究节省大量时间和精力。转化为统计学问题,就是要在p》n时有效地判别,并能够快速有效地选出最显著的变量。传 统的主成分或是偏最小二乘回归将输入空间进行某种旋转来压缩维度消除共线性。这些有偏估计虽然能获得更高的预测精度,但是在p特别大时,计算效 率欠佳,而且无法实现变量的自动选择。 支持向量机(SVM)由Vapnik提出后,逐渐成为流行的机器学习方法。不同于神经网络,Vapnik的统计学习理论为SVM等学习方法建立了良好的数学基 础,VC维和SRM理论能很好地保证SVM的泛化性能。由于采用了特殊的“hinge”损失函数,即使在高维度低样本量下,支持向量机也能很好实现判别。同 时,SVM不像线性模型那样对样本分布有要求,而且由于天然地有一个二次罚,所以可避免过拟合,共线性等情形也可不受影响。虽然标准形式的支持向 量机能够很好地实现高维数据分析,但却无法自动地进行变量选择,要使其能够很好地完成基因筛选任务,需要对标准的SVM作改进。 变量选择问题在统计学领域由来已久。线性模型下常常是拟合多个模型,然后利用如AIC、BIC或Cp等统计量来选择最经济的模型。对于基因数据 ,这种策略的计算代价往往十分昂贵。加罚/正则化方法为变量选择和系数收缩提供了一个整体的工作框架,正受到越来越多的关注。最佳子集选择、基 于二次罚的岭回归和基于L1罚的LASSO等工作都可被纳入其工作范围。基于线性模型族,Fan(2001)系统讨论了变量选择问题的加罚方法,并在此基础上 提出了数学性质更加优良的SCAD罚,实现了变量选择过程的光滑进行。在此基础上,加罚的思想很自然地被运用于SVM。L1-SVM和SCAD-SVM相继被提出和 讨论。研究发现,和线性模型中一样,这些正则化形式的支持向量机能产生非常稀疏的解,从而使得变量选择自动进行。 不同于以前的这些模型,本文提出了基于二次和SCAD混合加罚的正则化支持向量分类机:MP-SVM。二次罚虽然能够很好地收缩系数避免共线性,但 却无法自动地将系数罚为零;L1-SVM对小系数依然予以“惩罚”,从而能够实现变量选择,但其罚函过于刚性,模型估计可能变得不太稳定;SCAD罚利 用二次样条实现了变量选择过程的光滑进行,却由于追求无偏性而放弃了对大系数的加罚,因而大系数上的共线性可能依然存在。而MP-SVM综合了二次 罚和SCAD的优势,将小系数快速地罚为零从而实现变量选择,同时又在大系数上进行收缩,避免共线性,使得到的模型估计更加稳健。而且,借助 LQA,MP-SVM能得到很好的求解。 结合相关文献,我们在第一章里阐述了问题的背景和意义。在第二章,我们对SVM进行了具体描述,包括其几何背景、等价的统计学形式以及求解时 采用的一般策略等等。而各种加罚模型的讨论安排在第三章。第四章则给出了MP-SVM和求解方法,而第五章则展示了MP-SVM在基因数据上的实际表现。 第六章回顾了全文的讨论,并给出了我们的结论。

5.学位论文 吴雯雯 基于水稻汕优63重组自交系群体的数量性状遗传构成剖析方法及应用 2008
水稻汕优63(珍汕97A/明恢63)是我国一个良好的强优势籼籼型杂交组合。目前,已有很多学者对这个组合的多个衍生群体进行了各种农艺性状以及 杂种优势的遗传分析。然而,这些研究大多数是基于经典的QTL分析方法,如单标记分析法、区间作图法、基于混合线性模型的复合区间作图法等。本研 究以该组合衍生的241个重组自交系(RIL)为供试材料,采用包括上位性效应的统计遗传模型,对株高、抽穗期、单株产量等16个农艺性状进行QTL分析 ,以深入解析该杂交组合的遗传结构。试验涉及12条染色体的221个标记,覆盖基因组全长2070.9cM。统计分析策略主要分以下两步进行:第一步为模拟 数据分析,以选择适应该群体分析的最优统计方法。模拟分析策略是直接基于该群体的标记基因型数据进行,通过构建同时包括221个主效应以及两两标 记间的221×(221-1)/2=24310个上位性效应在内的超饱和统计遗传模型,分别采用E-BAYES、Stepwise、PENAL、LASSO和SSVS五种超饱和模型分析方法对 该群体进行模拟研究。模拟设置如下:随机设定9个主效应和5对互作效应,QTL的总遗传力分80%和60%两个水平,每一个处理重复100次。考察指标包 括:QTL的统计功效以及QTL效应估计的准确度和精确度。第二步为实际数据分析。基于上述模拟研究选择的结果,采用最优的分析方法,对该群体的 16个农艺性状进行分析,以阐明该强优势籼籼型杂交组合的遗传构成。模拟及实际数据分析结果如下: (1)模拟研究结果表明,在QTL的被发现能力上,E-BAYES的检测能力最强,在总遗传力率80%和60%两个水平下,平均统计功效分别高达97.9%和 88.14%。其余4种方法对QTL的检测能力较E-BAYES方法要差,即使是平均统计功效最高的SSVS方法,在总遗传率80%和60%两种遗传力水平下平均统计 功效也仅分别为25.78%和24.71%。同样地,在QTL效应的估计上,无论是精确度还是准确度,E-BAYES方法较其余4种方法也有着明显的优越性。此外 ,E-BAYES方法仅检测到一个假阳性QTL,而其它4种方法均有不同程度假阳性QTL被检出。 (2)根据以上结果,本文仅选用了E-BAYES方法分析该群体的 16个农艺性状,结果共检测到了115个QTLs,分布于水稻的整个12条染色体上,其中27个QTI。具有主效应,单个QTL解释表型变异介于 1.51%~22.36%;检测到的46个上位性效应,包括两个主效应位点间的互作1个,一个主效应位点和一个非主效位点间的互作15个,以及两个非主效位 点间的互作30个,单个互作可解释的表型变异介于1.10%~7.08%。此外,不同性状检测到的QTL数目差异较大,最少只发现1个QTL,最多可发现15个 QTL,各性状的相关QTL总遗传力介于5.73%~36.45%,其中主效应的累计贡献率介于1.68%~25.66%,平均为11.66%;上位性的累计贡献率介于 3.9%~22.86%,平均为11.70%。此结果表明,上位性是该组合杂种优势的重要遗传基础之一。

本文链接:http://d.g.wanfangdata.com.cn/Thesis_Y1327770.aspx 授权使用:吕先竟(wfxhdx),授权号:ed69bc2f-90ef-4bb8-9e3f-9ea700fde74a 下载时间:2011年3月15日


推荐相关:

Lasso及其相关方法在广义线性模型模型选择中的应用_图文.pdf

Lasso及其相关方法在广义线性模型模型选择中的应用 - 中南大学 硕士学位论文 Lasso及其相关方法在广义线性模型模型选择中的应用 姓名:龚建朝 申请学位级别:硕士 专业:...


Lasso在广义线性模型中的应用基于Logistic回归方法的财....pdf

Lasso在广义线性模型中的应用基于Logistic回归方法的财务预警模型 - 中图分类号: UDC: 学校代码: 密级: 10055 公开 硕士专业学位论文 Lasso在广义线性模型...


Lasso及其相关方法在多元线性回归模型中的应用.pdf

本文比较了一 元线性回归模型中变量选择的Lasso方法及其相关方法的优良性,并提出了一个 新的求解Lasso估计的算法一一随机模拟算法,该算法可以得到与最小角回归算 法...


Lasso及其相关方法在多元线性回归模型中的应用_图文.pdf

线性回归| 模型| Lasso及其相关方法在多元线性回归模型中的应用_数学_自然科学_专业资料。 您的评论 发布评论 用户评价 这是我最近看到的关于线性回归最好的文章...


基于Lasso类方法在时间序列变量选择中的应用.pdf

Lasso方法在时间序列变量选择中的应用杨丽娟, 马云艳( 鲁东大学 数学统计...模型选择的相合性和参数估计达到 故提出了线性模型的 Adaptive Lasso 方法....


广义线性模型组LASSO路径算法_马景义.pdf

广义线性模型LASSO路径算法_马景义_数学_自然科学_专业资料。lasso算法的应用,...在高维问题 中, LASSO方法的一个重要作用即变量选择 [11] , 上述性质尤...


基于Lasso特征选择的方法比.pdf

断普及使得线性模型在各个领域的应用的越来越广 泛...lasso 回 归能同时进行模型选择和参数估计,可适度压缩...Lasso及其相关方法在广义... 48页 2下载券 2016...


基于Lasso类方法在时间序列变量选择中的应用_杨丽娟.pdf

Lasso方法在时间序列变量选择中的应用杨丽娟, 马云艳( 鲁东大学 数学统计...模型选择的相合性和参数估计达到 故提出了线性模型的 Adaptive Lasso 方法....


从理论到应用浅谈lasso模型.doc

应用浅谈 lasso 模型 【摘要】回归模型是我们...实现变量的选择(可以解决回归分析中的多重共线性问题...Lasso及其相关方法在广义... 48页 2下载券 浅谈...


高维数据回归分析中基于LASSO的自变量选择.pdf

( 4 ): 565569. 的性质. 西北大学学报, 26. 龚建朝. Lasso 及其相关方法在广义线性模型模型选择中的应用 .概 2008 : 147. 率论与数理统计, 湖南长沙: ...


lasso.doc

回归收缩以及通过 LASSO 选择变量 ROBERT TIBSHIRANI 加拿大多伦多大学 (1994.1 接收。 1995.1 修订) 摘 要 在线性模型预测中,我们再次提出一个新的方法LASSO...


Scikit-learn 使用手册中文版_图文.pdf

广义线性模型英文原文 以下介绍的方法均是用于求解...例子 Lasso模型选择:交叉验证/AIC/BIC 1.1.4. ...为了理解LDA在维度缩减中的应用,这里有必要从几何的...


通过LASSO回归压缩和选择.doc

q 是一个大于等于 0 数;LASSO 方法中 q ? 1...(1992)进行了描述,并可能造成不一致的模型选择,除非...这里有线性模型函数,广义线性模型函数和比例风险模型...


基于Lasso方法与Logistic回归的上市公司财务预警分析.pdf

574 秦璐 等 由于 Lasso 不仅适用于线性模型, 也适用于广义线性模型和半参数...LASSO 和 A-LASSO 方法在财务预警模型变量选择中的应用[J]. 中国证券期货, ...


scikit-learn-user-guide-chinese-version.pdf

chinese-version_计算机软件及应用_IT/计算机_专业...广义线性模型英文原文 以下介绍的方法均是用于求解...例子 Lasso模型选择:交叉验证/AIC/BIC 1.1.4. ...


大数据分析与应用.doc

应用统计学系列教材 大数据分析: 方法与应用》...变量选择 6.1 线性回归模型 6.2 模型选择 6....6.4.1LASSO 6.4.3Shooting 算法 6.4.4 路径算法 ...


从线性模型到广义线性模型-Part1:回归问题.pdf

从线性模型到广义线性模型-Part1:回归问题_信息...(特征选择等)什么天马行空的方法,这个矩阵能求逆,...1 2.5.2 LASSO LASSO是指我在目标函数里面加上...


Logistic回归的双层变量选择研究_王小燕.pdf

广义线性模型的组变量 ( 71471152 ); 国家社会...选择及其在信用评分中的应用 ” “大数据与统计学...提出了组变量选择惩罚方法 Group Lasso( GL ), Meier...


数据分析--分析方法_图文.doc

数据分析--分析方法_互联网_IT/计算机_专业资料。...Logistic 回归主要在流行病学中应用较多, 比较常用...LASSO 回归的特点是在拟合广义线性模型的同时进行变量...


通过Lasso进行回归压缩和选择.doc

通过Lasso进行回归压缩和选择_数学_自然科学_专业资料...1 月修订 摘要我们提出了一个估计线性模型的方法...中: 本文简要介绍了广义的回归模型和基于树的模型的...

网站首页 | 网站地图
All rights reserved Powered by 学霸学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com