生存分析的概念_第1頁
生存分析的概念_第2頁
生存分析的概念_第3頁
生存分析的概念_第4頁
生存分析的概念_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生存分析的概念

一、生存分析的概念:

將事件的結果和出現此結果所經歷的時間結合起來分析的統計分析方法。

研究生存現象和響應時間數據及其統計規律的一門學科。

對一個或多個非負隨機變量(生存時間)進行統計分析研究。

對生存時間進行分析和推斷,研究生存時間和結局與眾多影響因素間關系及其程度的統

計分析方法。

在綜合考慮相關因素(內因和外因)的基礎上,對涉及生物學、醫學(臨床、流行

病)、工程(可靠性)、保險精算學、公共衛生學、社會學和人口學(老齡問題、犯罪、

婚姻)、經濟學(市場學)等領域中,與事件(死亡,疾病發生、發展和緩解,失效,狀

態持續)發生的時間(也叫壽命、存活時間或失效時間,統稱生存時間)有關的問題提供

相關的統計規律的分析與推斷方法的學科。

二、”生存時間"(SurvivalTime)的概念

生存時間也叫壽命、存活時間、失效時間等等。

醫學:疾病發生時間、治療后疾病復發時間

可靠性工程系:元件或系統失效時間

犯罪學:重罪犯人的假釋時間

社會學:首次婚姻持續時間

人口學:母乳喂養新生兒斷奶時間

經濟學:經濟危機爆發時間、發行債券的違約時間

保險精算學:保險人的索賠時間、保險公司某一索賠中所付保費

汽車工業:汽車車輪轉數

市場學中:報紙和雜志的篇幅和訂閱費

三、生存分析的應用領域:社會學,保險學,醫學,生物學,人口學,醫學,經濟學,

可靠性工程學等

六、生存分析研究的目的

1、描述生存過程:估計不同時間的總體生存率,計算中位生存期,繪制生存函數曲

線。統計方法包括Kaplan-Meier(K-M)法、壽命表法。

2、比較:比較不同處理組的生存率,如比較不同療法治療腦瘤的生存率,以了解哪種

治療生存分析課程總結

方案較優。統計方法log-rank檢驗等。

3、影響因素分析:研究某個或某些因素對生存率或生存時間的影響作用。如為改善腦

瘤病人的預后,應了解影響病人預后的主要因素,包括病人的年齡、性別、病程、腫瘤分

期、治療方案等。統計方法Cox比例風險回歸模型等。

4、預測:建立Cox回歸預測模型。

主要研究內容

描述生存過程:研究人群生存狀態的規律,研究生存率曲線的變動趨勢,是人壽保險業

的基礎。

生存過程影響因素分析及結局預測:識別與反應、生存及疾病等相關風險因素,預測生

存結局,在臨床中應用的非常廣泛。

七、主要分析方法

1、參數法方法:首先要求觀察的生存時間t服從某一特定的分布,采用估計分布中參

數的方法獲得生存率的估計值。生存時間的分布可能為指數分布、Weibull分布、對數正

態分布等,這些分布曲線都有相應的生存率函數形式。只需求得相應參數的估計值,即可

獲得生存率的估計值和生存曲線。

2、非參數方法:實際工作中,多數生存時間的分布不符合上述所指的分布,就不宜用

參數法進行分析,應當用非參數法。這類方法的檢驗假設與以往所學的非參數法一樣,假

設兩組或多組的總體生存率曲線分布相同,而不論總體的分布形式和參數如何。非參數法

是隨訪資料的常用分析方法。

3、半參數方法:只規定了影響因素和生存狀況間的關系,但是沒有對時間(和風險函

數)的分布情況加以限定。這種方法主要用于分析生存率的影響因素,屬多因素分析方

法,其典型方法是Cox比例風險模型。

4、幾種常用的統計軟件:SAS,SPSS,Stata,Excel,R

第二章數據類型

一、完全數據(Completedata)

每個個體確切的生產時間都是知道的。這樣的數據稱為完全數據(Completedata)。

但在實際的生存分析中,數據在很多情況下是很難完全觀察到的。

二、刪失(Censoring)

09統計學【經濟分析】2班呂嘉琦320091213042生存分析課程總結

生存數據一個重要的特點是:在研究結束時,無法獲得某些個體確切的生存時間。例

如:失去聯系(病人搬走,電話號碼改變),無法觀察到結局(死于其他原因),研究截

止,個體仍然存活……在這些情況下獲得的數據就是刪失數據(Censoreddata)?對存

在刪失的個體,只知道刪失時間(Censoringtime)?

刪失分為右刪失(Rightcensoring)>左刪失(Leftcensoring)和區間刪失

(Intervalcensoring)

1、右刪失(Rightcensoring)?

在進行觀察或調查時,一個個體的確切生存時間不知道,而只知道其生存時間大于時間

L,則稱該個體的生存時間在L上是右刪失的,并稱L為右刪失數據(Right-censored

data)?右刪失有三種類型(按結束時間差別):I型刪失(TypeIcensoring),H型

刪失(TypeIIcensoring)和III型刪失(Type111censoring)。

(1)1型刪失(TypeIcensoring):對所有個體的觀察停止在一個固定的時間,這種

刪失即為I型刪失(或定時刪失)。例如:動物研究通常是以有固定數目的動物接受一種

或多種處理開始,由于時間和費用的限制,研究者常常不能等到所有動物死亡。一種選擇

就是在一個固定時間周期內觀察,在截止時間之后仍可能有些動物活著,但不繼續觀察

了。這些動物的生存時間是不知道的,只知其不小于研究周期時間。I型刪失的刪失時間

是固定的。

圖表1I型刪失示例

(2)II型刪失(TypeIIcensoring):同時對n個個體進行觀察,一直到有一固定數

目(r<n)的個體死亡(失效)為止,這種刪失即為II型刪失。H型刪失的刪失時間是

隨機的。

09統計學【經濟分析】2班呂嘉琦320091213043生存分析課程總結

圖表2II型刪失示例

(3)III型刪失(TypeIIIcensoring):所有個體在不同時間進入研究,某些個體在

研究結束之前死亡,他們的確切生存時間是知道的,其他個體在研究結束之前退出研究而

不被跟蹤觀察或在研究結束時仍然活著。進入研究的時間可能不同,刪失時間也可能不

同,這種刪失叫做HI型刪失,又稱為隨機刪失(Randomcensoring)?

?起點事件

△終點事件

x失由

觀察起點觀察終點

圖表3nl型刪失示例

2、左刪失(Leftcensoring)

研究對象在時刻Cl開始接受觀察,而在此之前我們感興趣的時間已經發生,這就是左

刪失。例如:“您初次吸食大麻是在什么時候?”有一種回答:“我吸食過,但我不記

得吸食的具體時間了。”這些回答的吸食時間數據就是左刪失。

通過測試確定兒童學會完成特定任務的年齡,有些兒童在進入研究前就已經可以完成某

項特定任務,這些兒童的事件發生時間也是左刪失。

出現左刪失同時,也可能出現右刪失,稱為雙刪失(Doublecensoring)?例如:對吸食

大麻的

09統計學【經濟分析】2班呂嘉琦32009121304

4

生存分析課程總結

問卷還有一種回答:“我從來沒有吸食過”,這樣的數據就是右刪失。

3、區間刪失(Intervalcensoring):若個體的確切生存時間不知道,只知道其生存

時間在兩個觀察時間L和R之間(L<R),則稱該個體的生存時間在[L,R]上是區間刪失

的。實際工作中,凡是不能或者不愿作連續監測時就會遇到這樣的區間刪失。

區間刪失分兩種:第一類區間刪失(CaseIIntervalcensoring)和第二類區間刪失

(CaseIIIntervalcensoring)。

當對個體只進行一次觀察,且個體的確切生存時間不知道,只知道其生存時間是否大于

觀察時間(即L0或R),這種刪失稱為第一類區間刪失,也稱為現實狀況數據

(Currentdata)(,當對個體進行次觀察,其觀察時間L和R滿足0LR時,這種

刪失稱為第二類區間刪失,也稱為一般區間刪失。

如果初始時間(如艾滋病感染時間)和發生時間均為區間刪失,則稱生存時間為雙重區

間刪失(Doubleintervalcensoring)。

三、截斷(Truncation)

在研究或者觀測中,淘汰了一些對象(樣本),使得研究者“意識不到他們的存在”。

對截斷數據的分析構造似然采用條件分布。

截斷包括兩種:左截斷(Lefttruncation)和右截斷(Righttruncation),

1、左截斷(LeftTruncation):只有個體經歷某種初始事件以后才能觀察到其生存時

間,稱為左截斷(Lefttruncation),此時獲得的數據稱為左截斷數據(Left-

truncateddata)

例如:暴露于某疾病、發生死亡前的中間事件等。退休中心老年居民死亡時間(沒到年

齡沒有進入觀測)

左截斷與左刪失的區別:在左截斷的研究中,根本沒有考慮那些在進入研究之前已經經

歷了感興趣時間的個體,而在左刪失的研究中,我們能獲得這些個體的部分信息。

即有左截斷又存在右刪失的情況,稱為左截斷右刪失(Left-truncationandright-

censoring)

2、右截斷(RightTruncation)

只有經歷了某種終止事件才能觀察到生存時間(將要經歷該事件的個體不包含在實驗樣

本中),稱為右截斷(Righttruncation),此時獲得的數據稱為右截斷數據(Right-

truncateddata)?例如:對艾滋病感染和發病時間觀測數據,有些個體感染病毒但尚

未發病,這樣的個體不在樣本范圍之內。

3、截斷的數學表示

設Y是一個非負的表示生存時間的隨機變量;T是另外一個表示截斷時間的隨機變量。

09統計學【經濟分析】2班呂嘉琦320091213045生存分析課程總結

在左截斷下,只有當YT時,才能觀察到T和Y;在左截斷下,只有當YT時,才能

觀察到T和Y。

第三章基本函數和模型

一、生存函數(SurvivalFunction)

描述生存時間統計特征的基本函數,也叫生存率(SurvivalRate):設T表示生存時

間,F(t)為T分布函數,生存函數定義為:S(t)P(Tt)1F(t),0T

生存函數性質:非增函數。

滿足S(0)limS(x)lx0

S()limS(x)Ox

當生存時間為連續型隨機變量時:

S(t)P(Tt)1F(t)f(u)du

t

f(t)S'(t)dS(t)

dt

生存函數S(t)的圖像叫做生存曲線(SurvivalCurve),如下圖:

陡峭的生存曲線表示較低的生產率或較短的生存時間;平緩的生存曲線表示較高的生存

率或較長的生存時間。

離散生存時間產生于舍入操作將失效(或死亡)時間分組從區間和壽命用整數計量等。

離散時間生存函數是非增的階梯函數,當T取值為ala2,且f(ai)P(Tai),

i1,2,,S(t)P(Tai)f(ai),i1,2,

aitait

09統計學【經濟分析】2班呂嘉琦320091213046生存分析課程總結

離散時間生存函數是非增的階梯函數

二、危險率函數(HazardFunction):

危險率函數:描述觀察個體在某時刻存活條件下,在以后的單位時間內死亡的(條件)

概率:(t)limP(TthTt

hh0

當T連續(t)f(t)dln[S(t)];S(t)dt

當T離散,取值為ala2,f(ai)P(Tai),i1,2,,則ai處的危險率為

iPTaiaif(ai)S(ai1)S(ai)S(ai)1,i1,2,S(ail)S(ai1

)S(ai1)

S(ai)S(t)(1i)S(a)aitaiti1

危險率函數在工程上叫做失效率函數或損壞函數,在生存分析和醫學統計中又稱為風險

率函數

或瞬時死亡率(Simultaneousdeathrate)>或死亡強度(Deathintensity)或條件死

亡率(Conditionaldeathrate)或年齡死亡率(Agedeathrate)等。

常見風險函數曲線

09統計學【經濟分析】2班呂嘉琦32009121304

7

生存分析課程總結

三、累積風險函數(CumulativeHazardFunction)

累積危險率函數:tudut

tStexptexpudu當T連續,0

tInSt

當T離散時,危險率函數有兩種定義形式:

t

tiaiti

iaitin1i

如果i的值很小,兩種定義形式的值接近

四、平均剩余壽命函數(Expectedresiduallife)

平均剩余壽命函數定義為:

rtETttstfsdst

St

r0為平均壽命。

五、常用的參數模型

生存時間的分布一般不呈正態分布。常用的分布有:指數分布、威布爾(Weibull)分

布、伽瑪(Gamma)分布、對數羅吉斯蒂(logistic)分布、對數正態分布。

09統計學【經濟分析】2班呂嘉琦32009121304

遞增遞熠:自然老化、

\一.、.駝峨狀

磨損

遞減:較少見;死

1亡發生較早時

「一常值臉盆:最常見;人

/吊但口死亡率

?駝嵯:手術成功后

生存建模

、________________一遞咸

浴盆狀

8

生存分析課程總結

1、指數分布

生存函數形式為:stexpt,0,t0

密度函數為:ftexpt

危險率函數為:t

指數分布的一個重要性質:無記憶性(某事件的發生時間與歷史記錄無關),即

PTthtPTt

2、威布爾(Weibull)分布

生存函數形式為:stexpt,0,0

其中是尺度參數,是形狀參數,1時為指數分布。

危險率函數為:tt1

適用于危險率遞增(取1)、遞減(取1)和為常數(取1)等各種情形。

3、伽瑪(Gamma)分布

1t

ulexpu

生存函數:stdu

0

,0,0

其中ulexpudu稱為伽瑪函數。

第四章生存數據基本特征的非參數估計

一、生存函數的估計

假設事件發生在D個嚴格區分的時間點上:tt2tD

在無刪失條件下:St生存時間t的個數

個體總數

二、右刪失生存函數的估計:

StStiSti1St2

iStStlStO

iISti2StlStO

StiPTtiTtiPTtiITti1PT12t2PTtlTtl

09統計學【經濟分析】2班呂嘉琦320091213049生存分析課程總結

存在右刪失下:PTtiTtiYidi,i1,2,,DYi

Yi:時刻ti面臨危險的個體數;di:時亥ijti失效個體數

三、乘積限(product-limit)估計

乘積限估計又稱Kaplan-Meier估計

1,ttlS(ti)di(1)ttlYitit

階梯函數,在觀察時間點上發生跳躍;

跳躍的高度ti與上發生的事件數和ti前刪失數有關;超出觀測上限的時間沒有給出很

好的估計。

四、乘積限估計尾部修正

Efron(1967)建議最大觀察時間點以后的生存函數等于0,即等價于假定最大時間點上

的生存者馬上就會死亡。(負偏估計)

tmax,即假設最大時間點上的生StSGill(1980)建議最大觀察時間點

以后的生存函數

存者永遠不會死。(正偏估計)

Brown>Hollander和Kowar(1974)建議尾部估計為一條指數曲線,即

StexptlnStmax/tmax

五、乘積限估計的方差

2diGreenwood估計式:tVarStSttitYiYidi2s

六、生存函數點估計的置信區間

利用漸進正態性的線性置信區間:

StZ1St,Stz

21

2St

其他變換形式的非線性置信區間

對數變換反正弦平方根

七、累積死亡率的估計

無刪失條件下危險率函數的估計:

09統計學【經濟分析】2班呂嘉琦3200912130410生存分析課程總結

t

在時間t開始的區間中死亡的個數在時間t存活著的個體數區間寬度

有刪失條件下累計死亡率估計:

1.直接利用累積死亡率與生存函數的關系:tInSt

2.Nelson-Aalen估計為方差為:Ht2diYtiti

0,

"(t)Hdi

titYittittl

具有更好的小樣本性質

Nelson-Aalen彳占計的應用

1)用于選擇事件發生時間的參數模型

2)為危險率提供粗估計(對估計進行核平滑后計算斜率)

八、累積死亡力函數的置信區間

-tZ線性置信區間:1

2,tZtHt,Hl2

其他變換形式的非線性置信區間

對數變換區間反正弦平方根變化區間

注:

1、乘積限估計和Nelson-Aalen估計都是建立在非信息刪失(non-informative

censoring)假設下

2、乘積限估計的尾部估計:a)取0;b)取最大觀測點的值;c)構造指數曲線

StexptlnStmax/tmax

3、無刪失時,乘積限估計即為經驗生存函數

九、生命時間均值的估計

平均生存時間:Stdt

0

AtdtS估計式為:

0

09統計學【經濟分析】2班呂嘉琦3200912130411生存分析課程總結

D"tdt,S方差為:var

i1YYddi

iii2

十、左截斷右刪失數據生存函數的估計

只有生存到某時刻之后才能進入觀察

乘積限估計(獨立截斷下是最大似然估計)

d、St1i(為條件估計)Yitit

Yi:在時刻ti之前進入區研究,且至少被研究到ti的個體數;

di:在時刻ti時死亡的個體數。

Lai和Ying(1991)修正乘積限估計:(當風險集較小時忽略此處的死亡)

d~St1iYicnI為指數函數;n為樣本大小;c0,01為常

數。Yitit

十、左刪失數據生存函數估計

利用“時間倒轉法”:

即不是從原點處測量時間,而是從很大的一個時間倒著從相反的方向測量,用時間

減去原始時間,得到右刪失數據結構,利用乘積限估計式估計

PXtPXt

純粹左刪失情況很少見。

十二、同時存在左、右刪失情況

設0tlt2tm為觀察時間點,dj表示tj時的死亡數,門表示tj時的右刪失

數,cj表示tj時的左刪失數,則生存函數的迭代估計步驟為:

步驟0:忽略左刪失獲得乘積限估計作為SOtj的初始估計;

SKtj1SKtj

1SKtjji

步驟(K+l)1:使用S的當前估計值通過估計pijPtj1XtjXti

'dcp步驟(K+l)2:使用上一步驟的結果,估計在tj時發生的事件數為diijjj

ijm

步驟(K+l)3:使用上一步修正后的右刪失數據,仍然忽略左刪失計算乘積限估計。

如果

09統計學【經濟分析】2班呂嘉琦3200912130412生存分析課程總結

這一估計在所有tj處都有SK1t接近SKt,則停止迭代,否則繼續步驟1。

十三、右截斷數據生成函數的估計

傳染病的研究中比較常見。設Ti代表第i個個體被傳染的時間,Xi是從感染到發病的

時間。研究樣本包含從0到期間病人的觀測值Ti,Xi.(只有在時間之前發病的人

才進入研究)。

利用顛倒時間軸法:令RiXi則變為Ri左截斷的,便可構造

PRtR0PXtX的乘積限估計式。

十四、生命表中生存函數的估計

生命表(也稱壽命表,lifetable)方法是測定死亡率和描述群體生存現象的最古老的

技術之一。主要用于保險精算、人口學、醫學等方面。

一組(大規模)個體在整個考察時間上被連續觀察,它們的事件發生時間或刪失時間被

記入k1個相鄰但不重疊的區間內ajl,ajj1,,k1

根據生命表方法應用的范圍不同,可分為人口生命表和臨床生命表,分析方法相似。

生命表方法數據假設

(1)獨立刪失:假定刪失的事件時間(包括損失和退出)與它們如果一直被觀察到事

件發生所得到的死亡時間是獨立的。

(2)假定刪失時間和死亡時間是均勻分布在每個區間上的。

(3)假定死亡力在區間內是常數。

生命表的構造方法

1.第一列給出相鄰但不重疊的固定區間

liajl,ajj1,,k1,aO0,ak1事件發生時間和刪失時間將落入且

只落入其中的一個區間。

2.第二列給出進入第j個區間的對象數Yj,這些個體還沒有經歷觀察事件的發生。

3.第三列給出在第j個區間中失去蹤跡(死亡)或活著退出觀察(遷出)的個體數Wj

4.第四列給出在第j個區間中,面臨觀察事件風險的暴露數Yj的一個估計值,假設刪

失時間在區間上是均勻分布的,則YjYiWj/2

09統計學【經濟分析】2班呂嘉琦3200912130413''生存分析課程總結

5.第五列是在第j個區間中發生觀察事件(如死亡)的個體數dj

6.第六列給出在第j個區間起點處的生存函數的估計Saj1對于第一個區間

Sa01,且

aS,a1d/YS1dj/YjjjIjj

i1j

'a,基本思想:乘積限方法。生命表分析的主要任務就是估計Sj

,a,其中aaa/2它7.第七列給出估計的第j個區間中點處的概率密度函數

fmjmjjj1

表示在第j個區間上單位時間內發生觀察事件的概率,即

aSaSa/aafmjjIjjj1

"a,由tft/St8.第八列給出在第j個區間中點處估計的危險率mj

Aa/S'a區a/S'af'afAaS'aS'a/22Fa

S'amjmjmjmjjj1jmjjIj

Aad/aaYd/2也可以定義為每個個體單位時間的時間發生率mjjjjIjj

注:最后一個區間在理論上是無限的,所以沒有任何危險或概率密度函數的估計。

9.第九列是第j個區間起點生存函數標準差的估計值,Greenwood(1976)將其定義為:

'aSj1d/YYd,j2,,k1iiii

i1J1

*a1的估計的標準差為0其中SO

其形式與乘積限估計式的標準差估計一樣。

10.第十列給出在第j個區間中點處概率密度函數標注差的估計值,它近似等于

'j=dj/Yj,p,j1qAj.其中q

11.生命表的最后一列給出了第j個區間中點處危險率函數的標準差的估計,它近似等

于"(a)(aa)/2]2}l[mjjj109

S(a..)q.叵

,廠;\Z0/(3)]+3

以6)『

陽■析】

2班呂嘉琦3200912130414生存分析課程總結

第五章相對風險回歸模型

一、Cox相對風險模型

設t;xhlimOPtTthTt,x/h0trt,xt0

rt,x成為相對風險。0t為基準風險函數。x為協變量。

二、相對風險回歸模型(Cox模型)取rt,xexpZt'即得Coxmodel

t;x0texpZt,其中:ZtZ1t,,Zpt'為協

變量x和t的函數0ttx0,,0'

1,,p為未知的回歸參數Relativeriskmodel(Coxmodel)

expZt'為參數部分,'

1,p為未知參數

0t為非參數部分,未知基準函數,因此,相對風險模型為半參數模型。在Cox

模型下:生存時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論