A regressziós egyenes egyenlete • Y= alpha + beta 1 .X 1 + beta 2 .X 2 + beta 3 .X 3 +..... + epszilon a használt egyenlet a minta alapján: • Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 + b 4 X 4 .. TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag) ahol az X 1 az első független változó és a b 1 a hozzátartozó regressziós koefficiens, az X 2 a második független változó és a b 2 a hozzá tartozó regressziós koefficiens, stb.
A regressziós egyenes egyenlete. Y= alpha + beta 1 .X 1 + beta 2 .X 2 + beta 3 .X 3 +..... + epszilon a használt egyenlet a minta alapján: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 + b 4 X 4 .. TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag) - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag)
ahol az X1 az első független változó és a b1 a hozzátartozó regressziós koefficiens, az X2 a második független változó és a b2 a hozzá tartozó regressziós koefficiens, stb.
A regressziós egyenes egyenlete (folyt.)
• A számítás hasonló az egyszerű lineáris regresszióhoz, a legkisebb átlagos négyzetes távolság kiszámításán alapul.
• Két független változó esetén egy síktól való távolságot minimalizálunk, több független változónál ez már nem szemléltethető
2. feladat: Feher et al. Beta blockers, lipoproteins and a non-insulin dependent diabetes (Postgrad. Med. 64, 927,
1988)
• Y (H): HDL2 szubfrakció, mmol/l
• X1 (B): beta blokkolót szedett 1: igen, 2: nem
• X2 (D).drink 1: alkoholt fogyasztott, 2: nem
• X3 (S) smoking 1: dohányzik, 0: nem
• X4 (A): életkor, év
• X5 (W) testsúly
• X6 (T) trigliceridek
• X7 (C) C-peptide
• X8 (G) vércukor
H = 0.711 -0.0824 B - 0.0173 D - 0.0399 S - 0.00455 A - 0.00214 W - 0.0444 T + 0.00463 C - 0.00391 G. R2:59.5%, adj.R2:54.3%
Kérdés: mit jelentenek a piros számok?
Válaszok az 2. feladatra
• 0.0824 B: ha béta-blokkolót szed valaki, akkor a HDL2 (védő) frakció szérumszint 0.0824 mmol/l-el nagyobb lesz, azaz a nem szedők 0.711 mmol/l-ével szemben 0.711+0.082=0.793 mmol/l.
• - 0.00455 A: az öregedéssel párhuzamosan évente 0.00455 mmol/l-el csökken a HDL2-frakció szérumszintje,
• - 0.0444 T: 1 mmol/l triglicerid szint csökkenés 0.044 mmol/l HDL-csökkenéssel jár együtt. Tehát ha valakinek 2 mmol/l-el csökkentjük a triglicerid koncentrációját, ez 0.7110-2.0.0444=0.7110-0.0888=0.6222 mmol/l HDL koncentrációt eredményez, ha az összes többi tényező változatlan marad.
• Ha nem férfi, hanem nő a beteg, akkor 9.877-el több, tehát 49.774% a várható restenosis
A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson,
Trapp, 2001)
Független változó Függő változó Statis ztikaimóds zer
Nominális (dis zkrét,kategórikus , egés zs zám)
Nominális Log-lineáris
Nominális vagyfolyamatos
Nominális (kétlehets éges érték)
Logis ztikusregres s zió
Nominális vagyfolyamatos
Nominális (két vagytöbb érték)
Dis zkriminánsanalízis
Nominális Folyamatos ANOVA
Nominális Folyamatos Többs zöröslimeáris regres s zió
Nominális vagyfolyamatos
Folyamatos(kicenzurázottadatok
Cox regres s zió
Nominális zavarófaktorokkal
FolyamatosNominális
ANCOVAMantel-Haens zel
Cs ak numerikus - Faktor analízis ésc lus ter analízis
A többszörös elemzés a klinikai
orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease,
Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001
620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin
3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
IL-6 szint,pg/ml
<1.78 1.79-3.10 >3.10
Meghalt(%)
17 (8) 24 (12) 54 (27)
Túlé lt 197 180 148
Össze-sen
214 204 202
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
IL-6 s zint,pg/ml
<1.78 1.79-3.10 >3.10 p (trend)
>20000 USDévi jöv., %
25.2 17.6 18.3 <0.05
dohányzik, % 12.3 29.7 33.8 <0.001
BMI kg/m2 27.6 0.4 29.1 + 0.5 29.8 + 0.5 <0.001
CHD, % 23.4 38.7 39.6 <0.001
Diabetes , % 10.3 17.7 23.8 <0.001
atheros c l.index
1.04 + 0.02 0.99 + 0.01 0.94 + 0.02 <0.001
Kérdés• Mennyivel nagyobb kockázatuk (relatív rizikó) a
magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható.
• A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre
• Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
• A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban.
• A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
KÉRDÉSEK
• 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat)2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat)
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus:
igen/nem, folyamatos: 1 SD növekedés
Változó Sorrend(s tepwis eregres s ion)
OR (95% CI) p érték
Krónikusinfekció
1. 4.10 (2.37-7.10)
<0.0001
Ferritin 2. 1.45 (1.13-1.87)
0.005
Magasvérnyomás
3. 2.01 (1.19-3.42)
0.011
LDLkoles zterin
4. 1.51 (1.18-1.93)
<0.001
Életkor 5. 1.39 (1.08-1.78)
0.010
Alkohol (1-50 g /nap vsabs ztinens )
6. 0.55 (0.32-0.99
0.042
Hypo-thyreos is
7. 2.31 (1.00-5.45
0.050
Micro-albuminuria
8. 1.25 (0.99-1.60)
0.075
HDLkoles zterin
9. 0.81 (0.64-1.02)
0.081
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001.
• Kérdés: befolyásolja-e a zöldtea fogyasztás a gyrmorrák kifejlődésének az esélyét?
• Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
Változó Zöldtea fogyas ztás , c s és ze /nap P fortrend
<1 1 vagy 2 3 vagy 4 >5
Gyomor-rák
41 49 55 151
Köv. idős zemély-év
36572 34129 43748 85299
Életkoradj. RR
1.0 1.1 (0.8-1.6))
1.0 (0.7-1.4)
1.3 (1.0-1.7)
0.05
Többvál-tozósRR1(mindenes et)
1.0 1.1 (0.8-1.6))
1.0 (0.7-1.4)
1.2 (0.8-1.6)
0.13
Többvál-tozósRR2(e ls ő 3 évki-hagyva)
1.0 1.2 (0.8-1.8))
1.0 (0.7-1.4)
1.4 (1.0-1.9)
0.07
Többszörös logisztikus regresszió
• Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
• Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
AIDS igen AIDS nem Ös s zes en
Ritonavir 119 (A) 424 (B) 543 (A+B)
Placebo 205 (C 342 (D) 547 (C+D)
Ös s zes en 324 (A+C) 766 (B+D) 1090(A+B+C+D)
Relatív rizikó
• Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR)• Először mindkét csoportban kiszámítjuk az esélyét
annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn.
• EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
• Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód
• A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete
• odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII
• Ha ezt az egyes független változók szerint részeire bontjuk, akkorln (odds) = ßo + X1ß1 + X2ß2....
• A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.)
• A 0 hiptézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-áraln (OR) = X1(lnOR1) + X2(lnOR2)....
• Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Modell felépítés a logisztikus regresszióban
• Hasonló a lineáris regresszióhozmanuálisautomatikus: forward selection backward elimination stepwise selection
• A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések
• Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó)
• A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni.
• Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!)
• Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)
Súlyos ISZB(n=248)
Kontroll be-tegek (n=53)
p
HDL chol,mmol/l
1.22 (0.67-2.05)
1.29 (1.14-1.37)
0.006
trig licerid,mmol/l
2.5 (0.3-16.6)
1.96 (0.9-6.3)
0.016
anti-hs p60,AU/ml
102 (0-2410) 57 (0-722) 0.0001
Chl.pneumpoz., %
79.4 64.2 0.021
Kérdés
• A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll-csoportba tartozik?
• Számítás többszörös logisztikus regressziófüggetlen változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz)Függő változó: csoport 0: kontroll, 1: ISZB
Model: Logistic regression (logit) N of 0's:48 1's:241Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1)Final loss: 115,14789192 Chi˛(4)=29,591 p=,00001
Variable(s) entered on step 1: LOGHSP60, CHLPNEU, HDLCHOL, TRIG.a.
Milyen jó a modell? (Goodness of fit) SPSS
Hosmer and Lemeshow Test
7,977 8 ,436Step1
Chi-square df Sig.
A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT?
• Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.).
• Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység pl. 1 SD változás mit jelent. Megoldások:értelmes kategóriákat állítok fel: pl. életkorban 10 év,binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT?
A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja)
Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő
Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
Anti-hsp60 legfelső kvartilis vs. többi
• Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml.
• Ezután átkódoljuk a változót, úgy, hogy 0: <193.24, 1: >183.24.
• Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van.
• HSP60KV HSP60KV Row alacsony magas Totals
KO 51 3 54 PS 175 73 248All Grps 226 76 302Végül elvégezzük a logisztikus analízist a folyamatos változót a
binárissal helyettesítve
STATISTICA OUTPUT
Const.B0 HDL_CHOL TRIGLICE HSP60_M_ CHL_PNEU
Estimate 2,06560 -,79768 ,1339 2,00283 -,92184
SE ,54187 ,34038 ,1409 ,62255 ,36728
t(287) 3,81201 -2,34351 ,9505 3,21714 -2,50987
p-level ,00017 ,01979 ,3426 ,00144 ,01263
-95%CL ,99906 -1,46764 -,1434 ,77749 -1,64475
+95%CL 3,13214 -,12773 ,4112 3,22817 -,19892
Wald's khi214,531405,49206 ,9035 10,35002 6,29946
p-level ,00014 ,01911 ,3419 ,00130 ,01208
OR(u.ch) 7,89002 ,45037 1,1433 7,40998 2.34
-95%CL 2,71574 ,23047 ,8664 2,17600 1.18
+95%CL 22,92288 ,88009 1,5086 25,23339 4.66
SPSS output
Variables in the Equation
-,004 ,005 ,644 1 ,422 ,996 ,986 1,006
,004 ,014 ,067 1 ,795 1,004 ,977 1,031
-,931 ,417 4,984 1 ,026 ,394 ,174 ,893
2,248 ,754 8,887 1 ,003 9,470 2,160 41,523
1,720 ,717 5,760 1 ,016 5,585
HDLCHOL
TRIG
CHLPNEU
HSPHILOW
Constant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper
95,0% C.I.for EXP(B)
Variable(s) entered on step 1: HDLCHOL, TRIG, CHLPNEU, HSPHILOW.a.
A logisztikus regressziós számítással megoldható problémák
• Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában
• Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect)
• A a két változó egymástól független, de befolyásolják egymás hatását, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók
• Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66).
• A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91)
• Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
• Kérdés: a nagymértékű korai VEGF emelkedés előre jelzi-e a klinikailag szignifikáns (>50%) restenosist?
• Mi az, hogy nagymértékű korai VEGF emelkedés? Pl. legfelsőbb kvintilisban, kvartilisban, tertilisban, stb.
• Legyen a tertililis, >90 pg/ml
Variables in the Equation
1,905 ,972 3,839 1 ,050 6,722 ,999 45,216
,032 ,057 ,327 1 ,567 1,033 ,924 1,154
,152 ,132 1,331 1 ,249 1,164 ,899 1,506
2,949 1,227 5,781 1 ,016 19,094 1,725 211,350
-12,407 6,394 3,765 1 ,052 ,000
GENDER
AGE
BMI_E0
VEGDD90
Constant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper
95,0% C.I.for EXP(B)
Variable(s) entered on step 1: GENDER, AGE, BMI_E0, VEGDD90.a.
Az esélyarányok
• Azoknak, akikben legalább 90 pg/ml-el megemelkedik a szérum VEGF szintje a műtétet követő 4 nap alatt, 19,1-szer (CI:1,7-211,4) nagyobb az esélyük arra, hogy náluk 7 hónap alatt klinikailag szignifikáns restenosis fejlődjön ki, akkor is, ha a restenosis igen/nem csoportokban ugyanannyi lenne a férfi, mint a nő, ha a két csoport betegeinek átlag életkora és BMI-je is ugyanakkora lenne.
• A nőknek 6.7-szer (CI:1.00-45.2)-szer nagyobb az esélyük a klinikailag szignifikáns restenosisra, még akkor is, ha ha a restenosis igen/nem csoportok betegeinek átlag életkora és BMI-je is ugyanakkora lenne, és ugyanolyan mértékű lenne náluk a korai VEGF emelkedés.