Page 1
MASARYKOVA UNIVERZITA BRNO
Prírodovedecká fakulta
Katedra genetiky a molekulárnej biológie
Využitie štatistických metód pri molekulárnecytogenetických analýzach genetických
patologických stavov
Diplomová práca
Brno 2004 Eva Budinská
Page 3
Poďakovanie
Rada by som sa na tomto mieste poďakovala všetkým ktorí mi pomáhali pri
vypracovaní diplomovej práce, a to či už praktickými radami, alebo psychickou podporou.
Konkrétne môjmu diplomovému vedúcemu doc.RNDr. Petrovi Kuglíkovi, CSc. z
Katedry molekulárnej biológie a genetiky za nepostrádateľnú podporu, odbornú pomoc a
praktické rady, RNDr. Marii Budíkovej, Dr. z Katedry aplikovanej matematiky za ochotu a
trpezlivosť s akou mi poskytovala nielen matematické konzultácie, doc. RNDr. Ladislavovi
Duškovi, Dr. z Centra bioštatistiky a analýz (CBA) za cenné pripomienky k metodike a Mgr.
Eve Gelnarovej z CBA za rady v oblasti logistickej regresie. Ďalej pani primárke OLG FN
Brno MUDr. Renate Gaillyovej, MUDr. Hane Jičínskej z Kardiologickej ambulancie FN Brno
a Mgr. Jitke Pacholíkovej PhD. z Laboratória molekulárnej biológie Internej
hematoonkologickej kliniky FN Brno za nepostrádateľné odborné konzultácie, a v
neposlednom rade celému kolektívu Molekulárne cytogenetického laboratória OLG, hlavne
pracovníčkam Ive Slámovej, Mgr. Hanke Filkovej, Mgr. Dite Žežulkovej a Mgr. Martine
Pešákovej.
Nakoniec by som rada poďakovala svojim rodičom a bratovi, ktorí mi svojou
finančnou a psychickou podporou pomohli úspešne doštudovať.
Page 4
OBSAH
I. ÚVOD A PROBLEMATIKA......................................................................5
1. Úloha cytogenetiky v modernej medicíne ….............................................................5
2. Fluorescenčná in-situ hybridizácia (FISH)...............................................................6
2.1. Princíp (fluorescenčnej in-situ hybridizácie).........................................................7
2.2..Typy DNA sond a ich značenie.............................................................................8
2.3. Príprava preparátov pre metódu FISH a ich hodnotenie.......................................9
2.3.1 Používaný materiál..........................................................................................9
2.3.2. Príprava cytogenetických preparátov.............................................................9
2.3.3. Hodnotenie cytogenetických preparátov......................................................10
3. Molekulárne cytogenetické laboratórium OLG FN Brno....................................10
4. Časť I. Optimalizácia hodnotenia mikroskopických preparátov.........................12
4.1. Chronická myeloidná leukémia (CML)...............................................................13
4.1.1. Definícia a epidemiológia............................................................................13
4.1.2. Molekulárna cytogenetika CML...................................................................13
4.1.2.1. Ph chromozóm...................................................................................13
4.1.2.2. Iné chromozómové aberácie...............................................................15
4.1.3. Priebeh ochorenia a liečba............................................................................15
4.1.4.. Diagnostika a monitorovanie priebehu choroby..........................................16
4.1.5. Využitie FISH pre detekciu Ph chromozómu...............................................16
4.2. Optimalizácia spôsobu hodnotenia mikroskopických preparátov.......................17
4.2.1. Postup počítania a stanovenie n...................................................................19
4.2.2. Štatistický test pre overenie presnosti hodnotenia cytogenetických
preparátov medzi jednotlivými pracovníkmi..............................................20
4.2.3. Výpočet deliacej hranice pre ES-FISH aplikovanú na detekciu
Ph chromozómu u pacientov s očakávanou CML.....................................21
5. Časť II. Prediktívna analýza pacientov s klinickými príznakmi del22q11.2....23
5.1. Mikrodelecie........................................................................................................23
5.1.1. Syndróm CATCH22....................................................................................24
5.1.1.1. Klinické prejavy..................................................................................24
5.1.1.2. Genetický základ a embryonálny vývoj..............................................27
5.1.1.3. Dedičnosť...........................................................................................28
Page 5
5.1.1.4. Genetická a klinická diagnostika....................................................... 28
5.1.1.5. Klinická liečba príznakov...................................................................
29
5.2. Úvod do regresnej analýzy..................................................................................30
II. CIELE DIPLOMOVEJ PRÁCE.......................................................................33
III. METODIKA.............................................................................................................34
1. Časť I.(Optimalizácia hodnotenia molekulárne cytogenetických preparátov).........34
1.1. Binomický test...................................................................................................34
1.2. Párový test.........................................................................................................34
1.2.1. Znamienkový test a Wilcoxonov párový test.............................................35
1.2.2. Friedmanov test..........................................................................................36
1.2.3. Software použitý pre testovanie.................................................................37
1.3. ROC analýza.................................................................................................... 37
1.3.1. Diagnostická presnosť................................................................................37
1.3.2. História.......................................................................................................38
1.3.3. Princíp........................................................................................................38
1.3.4. Senzitivita a špecificita..............................................................................39
1.3.5. Deliaca hranica (cut-off level)...................................................................40
1.3.6. ROC krivka................................................................................................42
1.3.7. Význam plochy pod ROC krivkou.............................................................44
1.3.8. Porovnávanie ROC kriviek........................................................................46
1.3.9. Interval spoľahlivosti pre plochu pod ROC krivkou..................................47
1.3.10. Veľkosť vzorky........................................................................................47
2. Časť 2.(Prediktívna analýza pacientov s klinickými príznakmi del22q11).............48
2.1. Logistická regresia............................................................................................48
2.1.1. Výstavba regresného modelu.....................................................................49
2.1.2. Odhad regresných parametrov...................................................................50
2.1.3. Metóda maximálnej vierohodnosti............................................................50
2.1.4. Testovanie hypotéz o vhodnosti modelu...................................................52
2.1.5. Interpretácia parametrov logistického regesného modelu.........................55
2.1.6. Validácia modelu......................................................................................56
2.1.6.1. Štatistiky prediktívnej schopnosti modelu.......................................56
2.2. Chýbajúce hodnoty..........................................................................................57
2.3. R plus...............................................................................................................58
Page 6
IV. VÝSLEDKY.............................................................................................................63
1. Optimalizácia spôsobu vyhodnocovania mikroskopických preparátov.............63
1.1. Štatistický test pre overenie presnosti hodnotenia cytogenetických preparátov
medzi jednotlivými pracovníkmi.......................................................................63
1.1.1. Dátový súbor pre test pracovníkov............................................................. 63
1.1.2. Popisná štatistika........................................................................................64
1.1.3. Výsledky testovania ..................................................................................65
1.1.4. Odporúčaný postup pre testovanie pracovníkov ........................................66
1.2. Výpočet deliacej hranice pre ES-FISH aplikovanú na detekciu Ph chromozómu
u pacientov s očakávanou CML........................................................................67
1.2.1. Dátový súbor pre výpočet deliacej hranice..................................................67
1.2.2. Popisná štatistika.........................................................................................69
1.2.3. Stanovenie deliacej hranice pomocou ROC analýzy...................................70
2. Predikcia pacientov s del22q11.2 pomocou logistickej regresie..........................72
2.1. Dátový súbor.....................................................................................................72
2.2. Popisná štatistika...............................................................................................72
2.3. Výsledky...........................................................................................................72
V. DISKUSIA.................................................................................................................88
VI. ZÁVER.......................................................................................................................94
VII. SUMMARY...............................................................................................................96
VIII. ZOZNAM LITERATÚRY..................................................................................98
IX. PRÍLOHY...............................................................................................................105
Page 7
I. ÚVOD A PROBLEMATIKA
1. Úloha cytogenetiky v modernej medicíne
S objavením štruktúry DNA v päťdesiatych rokoch minulého storočia začal významný
rozvoj metód skúmajúcich genetickú informáciu ľudskej bunky.
Stále väčší počet ochorení je spájaný so zmenami v karyotype a teda chromozómovej
výbave ľudskej bunky. Tieto zmeny sú príčinou nielen napríklad dedičných porúch či
vrodených vývojových vád, ale často i príčinou, či sprievodným prejavom nádorových
ochorení, ktorých frekvencia v dnešnej dobe stále stúpa. Dotýkajú sa i párov s poruchami
reprodukcie, pretože chromozómové aberácie môžu podmieňovať primárnu sterilitu, a majú
na svedomí asi 50% prípadov spontánnych potratov (Kuglík & Oltová, 2003). Cytogenetické
vyšetrenia, ktoré slúžia predovšetkým pre stanovenie karyotypu, sú preto v dnešnej dobe
nepostrádateľnou súčasťou modernej medicíny, hlavne klinickej genetiky.
Cytogenetické vyšetrenia prebiehajú na rôznej úrovni a slúžia predovšetkým pre
stanovenie karyotypu pacientov s vrodenými vývojovými vadami, pre upresnenie diagnózy
a prognózy niektorých nádorových ochorení a v prenatálnej diagnostike pre určenie
chromozómovej výbavy plodu.
Cytogenetika sa podľa používaných metód rozdeľuje na klasickú a molekulárnu.
Klasická cytogenetika používa klasické metódy farbenia cytogenetických preparátov, a to
najmä pruhovanie chromozómov pomocou tzv. Giemsovho farbiva, alebo orceínu. Jej
počiatky môžeme hľadať v roku 1956, kedy Tjio a Leven prvýkrát stanovili presný počet
chromozómov v karyotype človeka.
Molekulárna cytogenetika prináša nové metodiky, ktorých základom je in-situ hybridizácia,
ktorá vznikla koncom šesťdesiatych rokov. Patrí sem napríklad Fluorescenčná in-situ
hybridizácia (FISH), Komparatívna genómová hybridizácia (CGH) (Kallioniemi a kol., 1992),
Spektrálne karyotypovanie (SKY) (Schröck a kol., 1997), ale aj mnoho ďalších. Kedže veľká
väčšina metód je odvodená od fluorescenčnej in situ hybridizácie, jej presnejší princíp je
popísaný v nasledujúcej kapitole.
5
Page 8
ÚVOD A PROBLEMATIKA
2. Fluorescenčná in-situ hybridizácia
(FISH)
Metóda fluorescenčnej in-situ hybridizácie je v súčasnosti jednou z najpoužívanejších
molekulárne cytogenetických techník pre zviditeľňovanie žiadaných sekvencií nukleových
kyselín priamo na cytologických preparátoch.
In-situ hybridizácia ako taká bola prvý krát popísaná v roku 1969, a to Parduovou
a Gallom, v práci, v ktorej použili metódu hybridizácie in situ repetitívnych sekvencií DNA,
značených tríciom (3H) (Pardue & Gall, 1969), a nezávisle Johnom a kol. (1969).
Rádioaktívne izotopy boli vtedy jedinou možnosťou značenia nukleových kyselín, s následnou
autorádiografickou metódou detekcie. Vzhľadom k dlhej dobe hybridizácie a nebezpečnosti
použitia rádioizotopov bolo vyvinutie FISH významným medzníkom v histórii in situ
hybridizácie. Neskorším vývojom sa metódy značenia postupne menili, takisto ako spôsoby
detekcie.
Metóda FISH bola vyvinutá v 80-tych rokoch minulého storočia, kedy rádioaktivitu
nahradilo značenie pomocou fluorescencie (Landegend a kol, 1984; Pinkel a kol., 1986).
K hlavným výhodám fluorescenčného značenia v porovnaní s rádioaktívne značenými
sondami patrí: bezpečnosť, vysoká citlivosť, krátka doba hybridizácie, rýchle vyhodnocovanie
pomocou mikroskopu, dostatočná stabilita a možnosť použitia väčšieho počtu rôzne
značených sond (Eastmond a kol., 1995)
Pomocou FISH možno zviditeľniť jednokópiové gény, repetitívne sekvencie, určité
chromozómové oblasti, celé chromozómy, alebo aj celý genóm. Výhodou tejto techniky je, že
na rozdiel od klasických cytogenetických metód, je použiteľná aj na chromozómy
v interfáznom stave buniek. Cytologické preparáty pre FISH technológiu môžu obsahovať
morfologicky zachované chromozómy, bunkové jadrá alebo tkanivové rezy (Hopman a kol.,
1988). Podľa toho, v akom stave bunkového cyklu je možné robiť cytogenetické vyšetrenie,
rozlišujeme:
a) interfáznu (vyšetrenie na interfáznych jadrách, I-FISH)
b) a metafáznu (vyšetrenie na mitózach) techniku FISH (M-FISH).
Síce sa metódy značenia sond a ich detekcie od popísania in-situ hybridizácie podstatne
zmenili, jej základný princíp je dodnes rovnaký a popisuje ho nasledujúca kapitola.
6
Page 9
ÚVOD A PROBLEMATIKA
2.1. Princíp (fluorescenčnej) in-situ hybridizácie
In-situ hybridizácia využíva snahu jednoreťazcovej DNA párovať sa
s komplementárnou sekvenciou a vytvoriť tak pôvodnú štruktúru dvojzávitnice. Na základe
sekvencie, ktorú sa snažíme zviditeľniť je preto pripravený komplementárny doplnok,
nazývaný sonda. Pôvodná cieľová DNA a sonda sa zahriatím na 100°C denaturujú, čo
znamená, že ich dvojzávitnicové vlákna sa od seba oddelia. Po spätnej renaturácii sa vlákna
znovu spárujú, za vzniku 4 možných duplexov (Swiger a Tucker, 1996):
1. cieľová sekvencia – cieľová sekvencia
2. sonda – sonda,
3. sonda – cieľová sekvencia ako stabilný (špecifický) hybrid a
4. nestabilný (nešpecifický) hybird.
Pri FISH je sonda je označená fluorescenčným farbivom a vzniknutý duplex sonda-cieľová
sekvencia, nazývaný stabilný hybrid, je potom detekovateľný pomocou fluorescencie pod
fluorescenčným mikroskopom. Nešpecifické hybridy sa pôsobením stringentných podmienok
rozpadajú, duplexy sonda-sonda nie sú viazané na sklíčko, takže počas posthybridizačného
odmývania sú odstránené a duplexy cieľová sekvencia – cieľová sekvencia zas nie sú
označené, takže nie sú detekovateľné.
Princíp fluorescenčnej in-situ hybridizácie znázorňuje nasledujúci obrázok:
Obrázok 1. Princíp techniky fluorescenčnej in-situ hybridizácie
7
Page 10
ÚVOD A PROBLEMATIKA
2.1. Typy DNA sond pre techniku FISH a ich
značenie
Podľa cieľového miesta, na ktoré sa sondy viažu rozdeľujeme sondy na:
1. sondy pre špecifické chromozómové štruktúry
Viažu sa na dlhé repetitívne sekvencie charakteristické pre určitý chromozóm. Patria sem
sondy centromérové a telomérové.
2. sondy pre jedinečné sekvencie DNA
Tieto typy sond sú pripravené pre špecifickú sekvenciu v genóme. Identifikujú sa nimi
jednotlivé gény a to ako na metafáznych chromozómoch, tak aj v interfáznych jadrách.
3. celochromozómové sondy
Predstavujú súbor niekoľkých sond, ktoré hybridizujú s jedinečnými sekvenciami určitého
cieľového chromozómu a zviditeľňujú tak celý chromozóm (chromozómové maľovanie).
Párujú sa s metafáznymi chromozómami. Slúžia pre detekciu translokácií a stanovenie
pôvodu markerových chromozómov.
4. genómové sondy
Genómové sondy sú z celkovej genómovej DNA, ktorá slúži napríklad pre identifikáciu
chromozómov určitého druhu v hybridných somatických bunkách.
Značenie pomocou fluorescencie je nerádioaktívna metóda značenia. Sondy pre techniku
FISH môžu byť značené dvoma spôsobmi, priamo a nepriamo. Priame značenie znamená, že
molekula farbiva je priamo spojená so sondou, naproti tomu nepriame využíva označené
špecifické protilátky, alebo označený proteín na detekciu molekuly, ktorá je spojená so
sondou. Pre priame značenie sa využíva fluoresceín a rhodamín, pre nepriame značenie biotín
a digoxigenín (Michalová, 1999).
8
Page 11
ÚVOD A PROBLEMATIKA
2.3. Príprava preparátov pre metódu FISH a ich
hodnotenie
2.3.1. Používaný materiálAko už bolo uvedené, cytologické preparáty pre FISH technológiu môžu obsahovať
morfologicky zachované chromozómy, bunkové jadrá alebo tkanivové rezy (Hopman a spol.,
1988).
Pre prenatálne vyšetrenia plodu slúži plodová voda, ktorá sa získava amniocentézou
(transabdominálny odber plodovej vody punkčnou ihlou pod kontrolou UZ - ultrazvuku),
prípadne fetálna krv (T-lymfocyty) odobraná pomocou kordocentézy (abdominálny odber
fetálnej krvi z pupočníku, takisto pod kontrolou UZ). Pre postnatálne vyšetrenia slúžia bunky
periférnej krvi, konkrétne T-lymfocyty. Nádorová cytogenetika zas vyšetruje kostnú dreň
a odtlačky nádorov.
2.3.2. Príprava cytogenetických preparátov
V závislosti od typu materiálu sa líšia aj techniky jeho spracovania.
Základný postup spracovania materiálu je nasledujúci (Michalová, 1999):
1. kultivácia buniek – krátkodobá (24-72 h.) alebo dlhodobá. Tento bod sa môže vynechať,
obzvlášť v prípade nádorových buniek, prípadne sa používa len krátkodobá kultivácia
(pri dlhodobej kultivácii by mohol získať výhodu klon s väčšou schopnosťou proliferovať
in vitro, a tým by bol skreslený výsledok zastúpenia klonov v nádore). V prípade potreby
buniek v stave mitózy sa do kultivačného média pridáva kolchicín.
2. hypotonizácia – bunky sa po prvotnej fixácii rôznymi fixačnými činidlami ponechávajú
istú dobu v hypotonickom roztoku, (najčastejšie 0.075 M KCl)
3. fixácia – opakovaná fixácia (najčastejšie roztok metanol:kyselina octová, v pomere 3:1)
4. kvapkanie pripravenej suspenzie buniek na podložné sklíčko - cytogenetické preparáty
sa pripravujú z fixovaných, predošlým spôsobom pripravených bunkových suspenzií,
kvapkaním na špeciálne pripravené podložné sklíčka .
Výhodou metódy FISH je, že sa môže aplikovať aj na bunky nekultivované a bunky
9
Page 12
ÚVOD A PROBLEMATIKA
v interfáznom stave. Základný postup prípravy FISH preparátu je stručne popísaný
v nasledujúcich bodoch (Michalová, 1999):
1. denaturácia – denaturácia sondy a cieľovej DNA krátkou inkubáciou vo formamidovom
roztoku (organické rozpúšťadlo, ktoré redukuje teplotu renaturácie) pri teplote cca 70°C
2. renaturácia (vlastná hybridizácia) – znížením teploty na 37°- 42°C dochádza k väzbe
komplementárnych úsekov DNA fixovanej na preparátoch s označenou DNA sondy
3. vymývanie nešpecificky naviazanej sondy a príprava skla pre mikroskopickú analýzu
4. mikroskopická analýza
2.3.3. Hodnotenie cytogenetických preparátovPripravený cytogenetický preparát sa hodnotí pod fluorescenčným mikroskopom.
V prípade interfáznej FISH sa na každom preparáte počíta 100-500 buniek a hodnotí sa
prítomnosť a typ daných fluorescenčných signálov, v závislosti od druhu vyšetrovanej
aberácie. Nakoniec sa vyjadrí podiel pozitívnych buniek v percentách, pričom ako pozitívna
bunka sa berie bunka s prítomnou vyšetrovanou aberáciou. V prípade metafáznej FISH sa
hodnotí okolo 25 metafáz, v každej z nich prítomnosť a počet daných signálov. Vyjadruje sa
počet pozitívnych metafáz (pozitívna metafáza – metafáza s prítomnou vyšetrovanou
aberáciou).
3. Molekulárne cytogenetické laboratórium
Oddelenia lekárskej genetiky FN Brno.
Cytogenetické vyšetrenia prebiehajú vo vysoko špecializovaných laboratóriách.
V Českej republike sú cytogenetické laboratóriá súčasťou Oddelení lekárskej genetiky, ktoré
sa zaoberajú genetickým poradenstvom. Jedným z takýchto laboratórií je i molekulárne
cytogenetické laboratórium Oddelenia lekárskej genetiky Fakultnej nemocnice Brno.
Činnosť Laboratória molekulárnej cytogenetiky, ktoré je spoločným pracoviskom
Katedry genetiky a molekulárnej biológie Prírodovedeckej fakulty MU v Brne a Oddelenia
lekárskej genetiky Fakultnej nemocnice Brno (OLG FN Brno)-pracovisko Detská nemocnica,
v ktorom som pracovala na svojej diplomovej práci, je zameraná na vyšetrovanie
10
Page 13
ÚVOD A PROBLEMATIKA
štruktúrnych a početných zmien chromozómov pomocou molekulárne cytogenetických metód.
V prenatálnej a preimplantačnej diagnostike, v rámci odhaľovania početných
chromozómových zmien u embryí alebo u plodov s podozrením na možnosť geneticky
podmieneného ochorenia, sa z plodovej vody, fetálnej krvi či embryonálnych buniek vyšetrujú
najčastejšie
➢ trizómia chromozómov 8, 13, 21,
➢ počet a zostava gonozómov X a Y
➢ prípadne chromozomálne mikrodelecie (del 22q11)
Pri postnatálnom vyšetrení sa používajú prevažne bunky periférnej krvi (lymfocyty).
Okrem detekcie mikrodelečných syndrómov (kam patrí napr. DiGeorgeov, Prader-
Williho/Angelmanov a Williams-Beurenov syndróm) sa analyzuje pôvod markerových
chromozómov, identifikujú a upresňujú sa štruktúrne chromozómové aberácie (delecie,
translokácie....) a podobne.
V spolupráci s onkologickými pracoviskami sa robia onkocytogenetické vyšetrenia,
zamerané na detekciu významných chromozómových zmien u niektorých hematologických
malígnych ochorení a u solídnych nádorov. Spracovávaným materiálom bývajú kultivované
bunky kostnej drene, odtlačky nádorov a nádorové tkanivá. U hematologických malignít sa
vyšetruje napríklad prítomnosť translokácie t(9;22) BCR/ABL u chronickej myeloidnej
leukémie, translokácie t(8;21) u akútnej lymfatickej leukémie, alebo delecií del(5)(q31),
del(5)(q33), del(7)(q31) vyskytujúcich sa u myelodysplastického syndrómu. Zo solídnych
nádorov sa vyšetrujú chromozómové aberácie neuroblastomu, meduloblastomu, karcinómu
prsníka, retinoblastomu a multiformného glioblastomu.
Najčastejšie používané molekulárne cytogenetické metódy v tomto laboratóriu, ktoré
sú zároveň aj hlavnými oblasťami jeho vedeckej činnosti sú
➢ fluorescenčná in-situ hybridizácia (FISH), interfázna aj metafázna,
➢ komparatívna genómová hybridizácia (CGH) a
➢ spektrálne karyotypovanie (SKY)
11
Page 14
ÚVOD A PROBLEMATIKA
4. ČASŤ I.
Optimalizácia hodnotenia molekulárne
cytogenetických preparátov
Hodnotenie cytogenetických preparátov na chromozómoch v interfáznych jadrách je
založené na vizuálnej analýze fluorescenčných signálov jednotlivými pracovníkmi. Podľa
typu vyšetrenia a typu DNA sondy sa hodnotí počet signálov a poloha signálu. Toto
hodnotenie môže byť sťažené rôznymi faktormi, ktoré sú nakoniec príčinou možných
odchýlok. Patria sem napríklad tie, ktoré vznikajú pri samotnej príprave preparátu. V prípade
nedokonalej hybridizácie môžu niektoré bunky postrádať fluorescenčný signál, naopak
nedostatočné vymytie sondy môže spôsobiť prítomnosť prebytočného fluorescenčného
signálu. Ďalším faktorom je poloha chromozómov v bunke, ktorých náhodné prekrytie môže
spôsobiť prítomnosť falošného pozitívneho signálu, a podobne.
Záber vyšetrovaných aberácií a používaných metód v cytogenetickom laboratóriu je
široký. Ako som už spomínala, v cytogenetickej praxi sa pri vyhodnocovaní mikroskopických
preparátov stretávame s rôznymi problémami a otázkami. Mnohé závisia od typu použitej
metódy a vyšetrovanej odchýlky. Napríklad, aký by mal byť optimálny počet hodnotených
buniek na preparátoch, aby bola zosúladená časová náročnosť s čo najväčšou presnosťou.
S tým súvisí určenie chyby, s akou pracovníci počítajú, a nemenej dôležité stanovenie deliacej
hranice (cut-off levelu) pre diskrimináciu medzi pozitívnymi a negatívnymi preparátmi.
Z vyššie uvedeného tiež vyplýva potreba štatistického testu, ktorý by sa dal použiť na overenie
presnosti hodnotenia cytogenetických preparátov jednotlivými pracovníkmi. Takýto test by sa
dal použiť na otestovanie, či sa nový pracovník svojimi výsledkami hodnotenia preparátu
významne odlišuje od skúsených pracovníkov, a teda či je už dostatočne skúsený na to, aby
mohol nastúpiť hodnotenie pre klinickú prax. Z matematického hľadiska to znamená nájsť
vhodný štatistický test, ktorý by testoval hypotézu o zhode výsledkov. V prípade jej
nezamietnutia by nový pracovník mohol používať deliacu hranicu stanovenú pre danú metódu
a danú chromozómovú odchýlku.
Zodpovedať na niektoré z vyššie uvedených otázok, teda načrtnúť spôsob a nájsť
štatistické metódy, ktoré sa dajú použiť pre optimalizáciu vyhodnocovania cytogenetických
preparátov v cytogenetickom laboratóriu som sa snažila v prvej časti mojej diplomovej práce.
12
Page 15
ÚVOD A PROBLEMATIKA
Pretože záber vyšetrovaných chormozómových aberácií cytogenetického laboratória OLG je
veľmi veľký a používané techniky značne odlišné, zamerala som sa na optimalizáciu
cytogenetického vyšetrovania genetickej zmeny jedného ochorenia pomocou jednej metódy.
Konkrétne na optimalizáciu hodnotenia prítomnosti Ph chromozómu u pacientov
s očakávanou chronickou myeloidnou leukémiou (CML) pomocou extrasignálovej in-situ
hybridizácie (ES-FISH). CML je venovaná nasledujúca kapitola.
4.1. Chronická myeloidná leukémia
4.1.1. Definícia a epidemiológia
Chronická myeloidná leukémia (CML) je klonálne myeloproliferatívne ochorenie,
ktoré vzniká malígnou transformáciou primitívnych hematopoetických kmeňových buniek
(Faderl a kol., 1999). Jedná sa teda nádorové ochorenie krvotvorby.
Zahŕňa myeloidné, monocytárne, erytroidné, megakaryotické, B-lymfocytické
a niekedy aj T-lymfocytické línie buniek. Dôsledkom tejto malígnej premeny je ohromné
zmnoženie nezrelých i zrelých krvných buniek v kostnej dreni, krvi i v množstve tkanív. CML
nie je vzácna, zahŕňa asi 15-20% všetkých leukémií a najčastejšie sa vyskytuje u osôb
stredného a vyššieho veku (25 – 60 rokov), častejšie u mužov, ale v posledných rokoch sa
rozdiel medzi mužmi a ženami stiera.
4.1.2. Molekulárna cytogenetika CML
4.1.2.1. Ph chromozóm
CML je ochorenie charakterizované špecifickou zmenou karyotypu –
tzv. Filadelfským (Ph) chromozómom, ktorý bol objavený v roku 1960 (Nowell &
Hungerford, 1960). Vtedy bol považovaný za deletovaný chromozóm skupiny G, ale v roku
1973 zistila Rowleyová, že sa jedná o recipročnú translokáciu medzi chromozómami 22 a 9,
konkrétne medzi ich dlhými ramienkami a pozíciách 9q34 a 22q11(viď obr. 2).
Touto translokáciou sa k sebe dostáva Abelson (abl) onkogén na chromozóme 9
a tzv. “breakpoint cluster región” (bcr) – región na chromozóme 22. Tým vzniká fúzny
13
Page 16
ÚVOD A PROBLEMATIKA
bcr-abl gén, ktorý produkuje abnormálny bcr/abl proteín. Jeho hmotnosť sa odlišuje
v závislosti od miest zlomu, ktoré sú typické pre jednotlivé formy leukémie u ktorých sa
vyskytuje. Bcr a abl sú normálne gény, ktorých funkcie zatiaľ nie sú úplne známe. Vie sa ale,
že abl kóduje tyrozínkinázu, ktorej aktivita v bunke je prísne regulovaná. Naproti tomu
produktom bcr/abl génu je abnormálny tyrozín-kinázový proteín.
zdroj: http://www.medical.philips.com/main/news/assets/docs/medicamundi/mm_vol47_no1/07_cornelisse.pdf
Tento proteín je možné nájsť takmer u všetkých pacientov s CML a je považovaný
za bezprostredne priamu príčinu vzniku CML (www 1) a zdá sa byť zodpovedný
za pravdepodobne všetky fenotypové prejavy buniek CML (Mayer & Starý, 2002).
Uvádza sa, že Ph chromozóm sa vyskytuje u viac ako 90% chorých s CML (Kurzrock
a kol., 1988). Ďalších 5% pacientov s CML má Ph chromozóm odvodený od komplexných
variánt translokácie t(9;22)(q34;q11.2), ktoré zahŕňajú 3 a viac chromozómov. U ostatných
5% pacientov s typickou CML sa vyskytuje maskovaný Ph chromozóm, ktorý nie je
detekovateľný pomocou konvenčných cytogenetických techník, iba pomocou molekulárnych
techník (Dewald, 2002; Mayer & Starý, 2002). U CML, u ktorej sa nevyskytuje gén
BCR/ABL, sa podľa Mayera a Starého (2002) jedná buď o zlé diagnózy (iné typy
myeloproliferatívneho alebo myelodysplastického syndrómu s myeloproliferáciou) alebo
o tzv. atypické CML, ktoré majú iný priebeh ochorenia a sú prognosticky podstatne horšie.
Okrem CML je možné Ph chromozóm detekovať aj u špeciálnej formy akútnej
lymfatickej leukémie (ALL) u asi 3% detí a 20% dospelých. Táto translokácia je takisto
pozorovaná u 1% pacientov s de novo akútnou myeloidnou leukémiou (AML). Úplne
14
Obrázok 2.:Znázornenie vzniku tzv. Filadelfského(Ph) chromozómu reciprokoutranslokáciou medzi dlhými ramienkamichromozómov 9 a 22 .
Page 17
ÚVOD A PROBLEMATIKA
výnimočne sa vyskytuje u myelodysplastického syndrómu (MDS), kde vzniká sekundárne.
Dôležité je, že Ph chromozóm je pozorovaný takmer v 100% mitóz v dobe diagnózy
a je prítomný aj v priebehu ochorenia, pokiaľ nie je chorý vyliečený alogénnou
transplantáciou kostnej drene.
4.1.2.2. Iné chromozómové aberácie
V dobe akcelerácie a blastického zvratu sa objavujú okrem Ph chromozómu aj iné
charakteristické chromozómové aberácie, ktorých prítomnosť zhoršuje prognózu ochorenia.
Patria sem
- zdvojenie Ph chromozómu
- trizómia chromozómu 8 (+8) a 19 (+19)
- izochromozóm dlhých ramien chromozómu 17 (i17q)
- -Y, -7,-17,+17,+21 (Mayer, Starý a kol., 2002)
4.1.3. Priebeh ochorenia a liečba
Priebeh CML má 3 základné fázy:
1. chronická fáza – trvá niekoľko mesiacov až rokov a dochádza pri nej k postupnému
zvyšovaniu počtu stredne zrelých leukocytov v obvodovej krvi a v kostnej dreni
2. akcelerovaná fáza – je obdobie, v ktorom ochorenie ešte nesplňuje kvantitatívne kritériá
blastického zvratu, ale jeho klinický priebeh už neodpovedá chronickej fáze. V tejto fáze sa
postupne do krvi vyplavujú aj najmladšie formy leukocytov a ich množstvo narastá v krvi
postupne, behom týždňov až mesiacov. Je charakterizované zvýšenou aktivitou ochorenia
a zhoršenou odpoveďou na liečbu.
3. blastický zvrat – je akútna transformácia chronickej fázy, prebieha veľmi rýchlo,
v priebehu dní či niekoľkých málo týždňov
15
Page 18
ÚVOD A PROBLEMATIKA
Až do preukázania, že CML je možné vyliečiť tzv. alogénnou transplantáciou kostnej
drene, bolo cieľom liečby oddialiť blastický zvrat ochorenia a predĺžiť tak prežitie chorých.
Táto stratégia je doposiaľ uplatňovaná u tých jedincov, ktorí nemôžu z rôznych dôvodov
alogénnu transplantáciu podstúpiť. V chronickej fáze pripadá do úvahy hlavne Interferón alfa
a perorálna chemoterapia. Najnovším objavom je STI 571 (Signal-transduction inhibitor),
látka, ktorá selektívne inhibuje tyrozínkinázovú aktivitu ABL. V klinickej praxi je od roku
1998 a doterajšie skúsenosti ukazujú, že ide o najúčinnejší liek, ktorý bol kedy u CML
použitý. Viac o jednotlivých terapiách viď. Mayer a Starý (2002).
4.1.4. Diagnostika a monitorovanie priebehu choroby
Okrem vyšetrenia krvného obrazu, v ktorom dominuje leukocytóza a relatívne nízke
zastúpenie lymfocytov sa vyšetruje aj kostná dreň (tu zmnožené eozinofily, hlavne bazofily)
a biochemické markery (charakteristická je vyššia hladina kyseliny močovej, u niektorých
pacientov aj LDH a hladina vitamínu B12).
Štandardnou metódou pre potvrdenie diagnózy CML ostáva konvenčné cytogenetické
vyšetrenie, vyšetrenie pomocou FISH, alebo polymerázovou reťazovou reakciou (PCR)
s využitím reverznej transkriptázy (RT-PCR) (Mayer & Starý, 2002). Pre detekciu reziduálnej
choroby sa používa omnoho citlivejšia metóda Real Time PCR (Velden a kol., 2003).
4.1.5. Využitie FISH pre detekciu Ph chromozómu
Základom všetkých FISH metód používaných pre detekciu Ph chromozómu sú sondy,
ktoré sú v rôznom rozsahu (v závislosti od typu metódy) komplementárne k špecifickým
oblastiam zlomov na obidvoch zúčastnených chromozómoch. Oblasť chromozómu 22 je
väčšinou značená zelenou fluorescenčnou farbou a oblasť chromozómu 9 zas červenou.
V prípade fúzie sa vedľa seba dostáva teda červený a zelený signál, čo sa prejaví buď ako
tesne spojený zelený a červený signál, alebo ako žltá fluorescencia.
ES-FISH (extrasignálová FISH) spolu s S-FISH (single fusion FISH) a D-FISH
(double fusion FISH) sú tri v súčastnosti najznámejšie metódy FISH používané pre detekciu
Ph chromozómu (Dewald, 2002). Líšia sa navzájom nielen typom kombinácie a počtov
signálov (teda typom sondy) ale aj citlivosťou.
S-FISH je prvou FISH metódou, ktorá bola vyvinutá pre účel diagnostiky
16
Page 19
ÚVOD A PROBLEMATIKA
Ph chromozómu. Využíva abl sondu, ktorá hybridizuje s telomerickou stranou bodu zlomu na
chromozóme 9 a bcr sondu, ktorá hybridizuje s centromerickou stranou fúzneho miesta
Ph chromozómu (viď. obr. 3.).
Obrázok 3: Väzobné miesta jednotlivých typov sond FISH metódy pre detekciu Ph chromozómu.
V prípade prítomnosti brc/abl fúzie je teda okrem jedného červeného a jedného
zeleného signálu jej produktom len jediný bcr/abl (fúzny) signál. D-FISH naproti tomu
využíva abl a bcr sondy zložené zo sekvencií, ktoré sú komplementárne k regiónom
prekrývajúcim body zlomu na obidvoch chromozómoch z obidvoch strán. Výsledkom tejto
metódy je v prípade Ph pozitívnej bunky jeden červený, jeden zelený a dva fúzne (žlté)
signály (viď obr. 3.).
ES-FISH (ktorá je používaná aj v cytogenetickom laboratóriu OLG) využíva abl
sondu, ktorá hybridizuje k regiónu prekrývajúcemu bod zlomu na chromozóme 9 a bcr sondu,
ktorá hybridizuje na centromerickej strane bcr chromozómu 22. Pri pozorovaní pozitívnej
bunky teda môžeme vidieť jeden zelený signál, jeden červený signál, jeden fúzny (žltý) signál
a ešte jeden menší červený signál (zbytkový na chromozóme 9), ktorý ukazuje, že sa nejedná
len o náhodné prekrytie chromozómov 22 a 9 v priestore (obr.3). ES-FISH patrí medzi
najefektívnejšie FISH metódy pre odhad odpovede na terapiu, pretože má vysokú analytickú
senzitivitu Bu n o a kol. , 1998 .
Ako už bolo spomínané, všetky tieto metódy sa líšia svojou citlivosťou, alebo inak
povedané, mierou falošnej pozitivity. S-FISH má vďaka možnosti náhodného prekrytia
signálov v bunke, ktorá je samozrejme trojrozmerná, najvyššiu falošnú pozitivitu, ktorá je
17
Chromozómový zlom
t(9;22) typ signálu
Signál viditeľný v interfáznej bunke
S-FISH
D-FISH
ES-FISH
Page 20
ÚVOD A PROBLEMATIKA
odhadovaná na cca 10%. ES-FISH a D-FISH majú oproti tomu omnoho nižšiu falošnú
pozitivitu, 3% a 1% v uvedenom poradí. (Dewald, 2002; Dewald a kol, 1998)
4.2. Optimalizácia spôsobu hodnotenia
mikroskopických preparátov
Pozitivita u CML pacientov sa stanovuje na základe hodnotenia prítomných vyššie
uvedených fluorescenčných signálov. V cytogenetickom laboratóriu OLG Detskej nemocnice
v Brne sa na potvrdenie diagnózy CML a monitorovanie odpovede na terapiu používa
ES-FISH, za použitia sondy Vysis LSI bcr SpectrumGreen/ abl SpectrumOrange ES probe.
Na mikroskopickom FISH preparáte bunkami kostnej drene (KD) sa počíta n (100-
500) buniek, a z tohoto počtu sa určuje percento pozitívnych buniek, teda buniek s bcr-abl
fúznym signálom. Fotografie získané z fluorescečného mikroskopu znázorňujúce pozitívny
a negatívny prípad prítomnosti Ph chormozómu viď Obr.5. Príloha 1.
Jedná sa teda o náhodnú veličinu s binomickými rozdelením Bi n , . Kde n je počet
hodnotených buniek, a p je pravdepodobnosť „úspechu“ (v našom prípade pravdepodobnosť
nájdenia pozitívnej bunky) (pre viac informácií o binomickom rozdelení viz. napr. Zvára
(2001)
Dôležitým kritériom pri vyhodnocovaní fluorescenčných signálov je, aby počítané
bunky boli hodnotiteľné, čo znamená, že sú to:
1) bunky samostatné, ktoré sa neprekrývajú s inými, nedotýkajú sa navzájom bunkovými
stenami, ani netvoria zhluky a
2) bunky s dobre viditeľným signálom.
18
Page 21
ÚVOD A PROBLEMATIKA
4.2.1.Postup počítania a stanovenie n
Ak vychádzame z predpokladu, že bunky na preparáte, obzvlášť ak je horšej kvality,
nemusia byť rovnomerne rozložené, dospejeme k záveru, že je lepšie bunky vyberať
z viacerých sektorov mikroskopického sklíčka.
Odpoveď na otázku optimálneho počtu hodnotených buniek, súvisí s faktom, že
deliaca hranica sa stanovuje pre určité n počítaných buniek a pre určitú danú metódu
a chromozomálnu aberáciu. To znamená, že môže byť aplikovaná len na preparát rovnakého
druhu, s rovnakým počtom spočítaných buniek. V prípade že na testovanom preparáte by bolo
spočítaných k < n buniek, napríklad 100 namiesto 200, mohlo by sa stať, že ak použijeme
deliacu hranicu spočítanú na 200 buniek, zaradíme negatívneho pacienta ako pozitívneho
a naopak. S narastajúcim n totiž pre ten istý počet pozitívnych buniek hodnota cutoff levelu
klesá, a my nemôžeme jednoducho predpokladať, že ak sme mali 2% pozitívnych buniek
zo 100, bude to tak, aj keď prípadne dopočítame tých ďalších 100 buniek do 200 (teda, že
napočítame ďalšie dve pozitívne bunky, a percentá sa nám nezmenia).
Deliaca hranica stanovená pre n buniek sa tak nedá použiť pre k≠n . Je teda veľmi
dôležité stanoviť n nielen tak, aby bola chyba odhadnutých percent čo najmenšia, ale aj
v súlade s časovými možnosťami (spočítať 6000 buniek je určite veľmi presný spôsob, ale pre
bežné hodnotenie zbytočne časovo náročný).
Riešenie problému počtu buniek n je vlastne analogické s plánovaním experimentu
a veľkosťou vzorky. Pri plánovaní veľkosti vzorky sa vychádza z predpokladov o rozdelení
skúmanej náhodnej veličiny, a zo známeho rozptylu v populácii. Ak chceme v testovaní
hypotézy preukázať štatisticky významný rozdiel, potom nám stačí dosadiť do príslušnej
štatistiky pre to používanej všetky hodnoty okrem n a toto vypočítať.
V dnešnej dobe je problém počtu analyzovaných buniek v literatúre pomerne dobre
obsiahnutý. Početné štúdie ukazujúce z rôznych hľadísk počty buniek, sily testov
a experimentálne skúsenosti rôznych laboratórií riešia tento problém celkom efektívne.
Dewald, Stallard a kol. (1998) odvodzujú, že množstvo buniek, ktoré by mali byť
analyzované pre dosiahnutie očakávanej sily tesovej citlivosti závisí na stupni spoľahlivosti,
ktorý je vyžadovaný, na hladine mozaicizmu, ktorá má byť vylúčená a na analytickej
senzitivite sondy. Dewald (2002) tiež tvrdí, že vysoká senzitivita nových testov FISH je
efektívna pri spočítaní 500 a viac buniek. Iná štúdia ukázala, že spočítanie 500 interfáznych
buniek pomocou FISH má senzitivitu spočítania 25 metafáznych jadier klasickými
19
Page 22
ÚVOD A PROBLEMATIKA
cytogenetickými metódami Bu n o a kol. , 1998 .
Thall, Jacoby & Zimmerman (1996) simuláciami silových funkcií na základe 0.025
Likelihood ratio testu ukázali, že pri hodnotení Ph preparátov pomocu S-FISH je potrebné
spočítať aspoň 200 buniek, aby sme mali dostatočnú pravdepodobnosť detekcie pozitívnych
buniek už pod 5%.
Dewald (2002) odporúča 200 buniek tiež ako najmenšiu hodnotu, pretože táto chyba je pre
interpretáciu výsledku prijateľná. Pre nájdenie reziduálnej choroby u CML odporúča spočítať
6000 buniek.
4.2.2. Štatistický test pre overenie presnosti hodnotenia
cytogenetických preparátov medzi jednotlivými
pracovníkmi
V laboratóriu pracujú momentálne traja vysokoškolskí pracovníci, ktorí po zaškolení
hodnotia mikroskopické preparáty CML. Potreba štatistického testu pre overenie presnosti
hodnotenia cytogenetických preparátov medzi jednotlivými pracovníkmi vyvstala z potreby
otestovania či pracovníci nemajú odlišné kritériá hodnotenia. Takýmto testom by sa mohla
testovať spôsobilosť nového pracovníka pre nastúpenie hodnotenia pre klinickú prax.
Všeobecne sa predpokladá, že pracovníci by sa nemali navzájom odlišovať o viac ako 5%.
Z matematického hľadiska je však lepšie mať hypotézu o zhode podloženú štatistickým
testom.
Pri jeho hľadaní vychádzame z faktu, že náhodná veličina X predstavujúca percentá
pozitívnych buniek z n počítaných (teda počet „úspechov“ z n pokusov) má binomické
rozdelenie, X~Bi n ,. Akékoľvek testy predpokladajúce normalitu dát sú teda
neaplikovateľné. Ak chceme porovnávať náhodné výbery z takéhoto rozloženia, musíme sa
zamerať na testy neparametrické. Výnimkou je binomický test, ktorý testuje hypotézu, že dva
náhodné výbery pochádzajú z binomického rozdelenia s rovnakou pravdepodobnosťou
úspechu.
Neparametrickou alternatívou t-testu pre 2 závislé vzorky je Wilcoxonov párový test
a znamienkový test. Pre porovnávanie viacerých závislých výberov slúži Friedmanova
ANOVA. O jednotlivých testoch bude podrobnejšie pojednávané v metodickej časti.
20
Page 23
ÚVOD A PROBLEMATIKA
4.2.3. Výpočet deliacej hranice pre ES-FISH aplikovanú
na detekciu Ph chormozómu v bunkách kostnej drene u
pacientov s očakávanou CML
Stanovenie deliacej hranice (cutpointu, cutoff levelu) je v cytogenetickej klinickej
praxi azda najdôležitejšou otázkou. Deliaca hranica je experimentálne a umelo stanovená
hranica, ktorá oddeľuje preparáty (jednotlivé prípady, pacientov) na pozitívne a negatívne.
Väčšinou priamo súvisí s falošnou pozitivitou danej metódy. Teda s prípadmi, ktoré sú reálne
negatívne, ale daná metóda ich označila za pozitívne. Správne určenie diagnózy pacienta je
veľmi dôležité, a bráni ďalším prípadným zbytočným vyšetreniam, alebo chirurgickým
zákrokom. Na OLG Detskej fakultnej nemocnice v Brne sa pre detekciu Ph chromozómu
používa ES-FISH, konkrétne sonda Vysis LSI BCR/ABL ES Dual Color Translocation Probe.
Výrobca tejto sondy stanovil jej analytickú senzitivitu na 98%, teda falošná pozitivita je 2%.
Hranica falošnej pozitivity však nezávisí len od senzitivity použitej sondy, aj keď je to
samozrejme podstatný faktor. Závisí od kvality preparátu, a v neposlednom rade
od pracovníka, ktorý preparát hodnotí.
Thall, Jacoby & Zimmerman (1996) používajú pre odhadnutie pravdepodobnosti
misklasifikácie metódu maximálnej vierohodnosti, pričom vierohodnostná funkcia vychádza
z multinomického rozdelenia:
L/Z ×∏i=1
N
L i ,/W i=L /Z ×∏i=1
N
∏k=1
K
ikW ik (1.1)
kde L/Z =∏k=1
K
k2Z k je multinomiálny vzťah založený na vektore Z = ( Z1, ..., Zk )
počtov genomických kategórií z m normálnych buniek (kontrolné vzorky) a
L ,/W =∏k=1
K
kW k ,=∏
k=1
K {∑j=1
K
kj j}W k
je vierohodnosť založená na počtoch
genomických kategórií pacientov W = ( W1, ..., Wk ). Wk a Zk sú počet buniek z n a m
hodnotených, ktoré boli pozorované ako typ k, v uvedenom poradí. Typ k znamená, že
v bunke bolo pozorovaných k rôznych signálov (teda ak k=2, znamená to červený a zelený typ
signálu, a teda sa jedná o normálnu bunku; pri k=3 je to jeden zelený, jeden červený a jeden
žltý, a tak sa jedná o bunku s bcr/abl fúziou). Riešia rôzne typy modelov, v závislosti od toho,
21
Page 24
ÚVOD A PROBLEMATIKA
či sa pripúšta existencia k=1 a k=4 vzorov alebo nie.
Tento spôsob je istotne matematicky veľmi zaujímavý, ale príliš zložitý aby sa dal odporučiť
ako metóda pre biológov v laboratórnej praxi.
Naproti tomu Dewald (2002) odporúča spočítať 20 a viac normálnych preparátov a pre
jednoduchosť vziať ako odhad cutoff levelu hornú hranicu jednostranného intervalu
spoľahlivosti (IS) pre parameter binomického rozloženia. Náhodná veličina X, vyjadrujúca
počet pozitívnych buniek z n počítaných, sa, ako už bolo spomínané, riadi binomickým
rozdelením. Keďže pri stanovovaní cutoff levelu sa jedná o falošnú pozitivitu, a teda
vychádzame zo vzoriek normálnych, p je veľmi malé, okolo 0,01-0,03. Preto Dewald (2002)
používa IS bez aproximácie na normálne rozdelenie (vzťah 1.2) (IS s aproximáciou
na normálne rozdelenie sa používa len v prípade, že p je približne rovné 0,5).
L2 =r1⋅F 1−a /2v1, v2
n−rr1⋅F 1−a /2v1, v2, (1.2)
kde v1=2(r+1); v2=2(n-r) a r je počet pozitívnych buniek z n hodnotených.
V medicínskej literatúre sa často uvádza pre výpočet cutoff levelu klasická aplikácia
Čebyševovej nerovnosti, teda X±3 , kde X predstavuje priemer. Je potrebné si
uvedomiť, že takéto pojatie cutoff levelu je v tomto prípade nevhodné, pretože vyššie uvedený
vzťah platí pre rozloženie ktoré je symetrické, a má teda tzv. zvonový tvar. Navyše v tomto
prípade priemer nie je reprezentatívnym odhadom strednej hodnoty. Ako odhad je vhodnejší
medián.
V svojej práci som pre odhad deliacej hranice použila ROC analýzu, ktorá bude
podrobnejšie opísaná v kapitole o metodike.
22
Page 25
ÚVOD A PROBLEMATIKA
5. ČASŤ II. Prediktívna analýza pacientov s klinickými
príznakmi del22q11
Ďalším zaujímavým vstupom matematiky do biológie je nesporne predikčná analýza
nejakého stavu pacienta na základe rôznych vstupných parametrov. Napríklad nás zaujíma
pravdepodobnosť prežitia pacienta po operácii, ktorú odhadujeme na základe výšky krvného
tlaku, stavu zhojenia rán, prípadne prítomnosti infekcie. Môžeme tiež odhadovať
pravdepodobnosť prítomnosti zhubného nádoru na základe rtg. snímok, hodnôt
biochemických markerov, alebo pravdepodobnosť prítomnosti mikrodelecie v závislosti
od fenotypových prejavov pacienta. Takýmto prípadom je aj mikrodelecia 22q11.2, o ktorej
pojednáva nasledujúca kapitola. Všetky vyššie uvedené prípady sa dajú riešiť pomocou
regresnej analýzy, ktorej základné princípy popisuje kapitola 5.2.
5.1. Mikrodelecie
Vďaka metóde Fluorescenčnej in-situ hybridizácie, ktorá v dnešnej dobe patrí medzi
najdôležitejšie genetické vyšetrovacie metódy, sa stalo vyšetrovanie tzv. mikrodelečných
syndrómov otázkou bežnej cytogenetickej praxe. Ako mikrodelečný syndróm označujeme
fenotypový prejav drobnej delecie, alebo súboru delecií na chromozóme, ktoré spôsobujú
stratu alebo poškodenie funkcie viac či menej dôležitých génov. To zapríčiňuje vznik určitých
fenotypových prejavov, ktoré môžu byť u rôznych pacientov značne odlišné. Táto variabilita
je podmienená rôznym rozsahom delecií, a teda rôznym počtom a kombináciou zasiahnutých
génov.
Medzi najznámejšie mikrodelečné syndrómy patria:
1. PraderWili/Angelmanov syndróm – mikrodelecia na dlhom ramienku chromozómu 15
(del 15q11-q13), podľa toho, či sa jedná o chromozóm zdedený od otca alebo od matky sa
rozlišujú samostatné 2 syndrómy (Prader-Wili a Angelmanov), každý s inými klinickými
prejavmi
2. Wiliamsov syndróm- jedná sa o deleciu na dlhom ramienku chromozómu 7 (del 7q11)
23
Page 26
ÚVOD A PROBLEMATIKA
3. Syndróm Cornelia De Lange – mikrodelecia na chromozóme 3 (del 3q21)
4. Syndróm CATCH22 – medzi mikrodelečné syndrómy patrí aj tzv. syndróm CATCH 22,
v ktorom sa jedná o mikrodeleciu v časti dlhého ramienka chromozómu 22, konkrétne
v oblasti 11.2 (del 22q11.2) Jeho charakteristike je venovaná nasledujúca kapitola.
5.1.1. Syndróm CATCH22
5.1.1.1. Klinické prejavy
Diagnózu del22q11.2 väčšinou očakávame u pacientov s charakteristickými
fenotypovými prejavmi, ktoré môžu byť u rôznych jedincov veľmi variabilné, a zahŕňajú:
vrodené srdcové vady (najmä konotrunkálne malformácie), palatálne abnormality (špeciálne
veropharyngeálna insuficiencia, (submukózny) rázštep podnebia), charakteristické črty tváre
(prítomné vo väčšine prípadov), a ťažkosti s učením. 77% pacientov má imunodeficienciu,
nezávisle na jej prejave. Ďaľšie nálezy zahŕňajú: hypokalcémiu, významné problémy
s kŕmením, obličkové abnormality, stratu sluchu, laryngotracheosophageálne anomálie,
deficienciu rastového hormónu.(McDonald – McGinn, 2003).
Jednotlivé kombinácie týchto prejavov tvoria aj samostatne sa vyskytujúce fenotypy,
ktoré boli preto odlišne pomenované. Patrí sem tzv. DiGeorgov syndróm (DGS)– zahŕňa
palatálne abnormality, apláziu alebo hypopláziu thymusu a príštitných teliesok,
a konotrunkálne srdcové anomálie a Velokardiofaciálny syndróm (VCFS, Sprintzenov
syndróm) – sem patria vrodené srdečné vady (VSV), rozštepové vady, dyzmorfia
tváre, oneskorenie vývoja a problémy s učením. Mikrodelecia 22q11 bola detekovaná aj
u pacientov iba s konotrunkálnymi malformáciami a dyzmorfiou tváre, nazývanými spoločne
conotruncal anomaly face syndrome (CAFT) (Burn a kol, 1993; Matsuoka a kol, 1994), alebo
u pacientov s tzv. “Opitz” G/BBB syndrómom (McDonald-McGinn, 1995).
Najčastejšie je to však kombinácia DGS a VCFS syndrómu, a tak sa toto ochorenie
označuje aj ako DGS/VCFS syndróm. Názov CATCH22 bol navrhnutý ako súhrnný akronym
pre zjednodušenie (Wulfsberg a kol., 1996). Je to skratka od : Cardiac abnormality,
Abnormal facies, T-cell deficit/Thymic hypoplasia, Cleft palate,
Hypocalcemia/hypoparathyroidism, 22q11 microdeletion.
To, že pacient má daný syndróm nemusí znamenať prítomnosť delecie 22q11. Rôzne
zdroje uvádzajú viac či menej odlišné percentá pacientov s jednotlivými syndrómami,
u ktorých bola zároveň zistená aj delecia 22q11. Earing (2002) uvádza, že delecia 22q11 je
24
Page 27
ÚVOD A PROBLEMATIKA
diagnostikovaná u 88% pacientov s DGS, 76% pacientov s VCFS, a 80% pacientov s CAFS.
V nasledujúcich odsekoch je podrobnejšie popísaný každý z vyššie uvedených fenotypových
prejavov.
1. Vrodené srdcové vady (VSV)
Vzhľadom k veľmi variabilnému fenotypu dyzmorfie tváre a často aj veľmi obmedzenej
mimosrdcovej symptomatickej manifestácii je postihnutie kardiovaskulárneho systému
s klinickým nálezom odpovedajúcim príslušnej špecifickej vrodenej srdečnej vade často
hlavným prejavom mikrodelecie 22q11.2 (Jičínská a kol., 1998). Uvádza sa, že incidencia
VSV u pacientov s del22q11.2 je až 75 – 85 %. (McDonald-McGinn,2003; Earing, 2002),
teda VSV sú najpočetnejším fenotypovým prejavom. Zároveň mikrodelecia 22q11 je hneď
po trizómii 21. chromozómu druhou najčastejšou chromozomálnou príčinou významných
vrodených srdcových anomálií (Goodship a kol., 1998).
Medzi najčastejšie VSV asociované s del22q11 sú tzv. konotrunkálne malformácie,
ktoré postihujú výstupy z aorty a pľúcnice:
Fallotova tetralógia (TOF), Interupcia aortálneho oblúka (IAA), Transpozícia
veľkých ciev s defektom komorového septa (TVC+DKS), Spoločný arteriálny trunkus (TAC)
a Pulmonárna atrézia s defektom komorového septa (PA + VSD) (Jičínská a kol., 1998;
Earing a kol., 2002; McDonald-McGinn, 2003).
Ako menej časté konotrunkálne malformácie sa uvádzajú: Dvojvýtoková pravá
komora (DPK), Transpozícia veľkých ciev (TVC), Defekt sieňového septa (DSS) a Aortálna
stenóza (SA).
Ďaľšie vrodené srdcové vady, ktoré sa vyskytujú u syndrómu CATCH 22 sú: syndróm
hypoplastického ľavého srdca, defekt atrio-ventrikulárneho septa, otvorená tepenná dučaj,
koarktácia aorty, dvojitý aortálny oblúk a trikuspidálna atrézia.(Earing, 2002)
Podrobnejšie informácie o jednotlivých vrodených srdcových vadách viď. Hučín
(2002)
2. Imunodeficiencia a hypokalcémia
Pacienti s del22q11 mávajú často problémy s imunitou, spôsobené nevyvinutím
(apláziou), alebo nedostatočným vyvinutím (hypopláziou) štítnej žľazy. V dôsledku toho
T-lymfocyty nedozrievajú, prípadne je ich počet viac či menej znížený, čo má v prvom
prípade za následok riziko život ohrozujúcich vážnych infekcií. Úplná aplázia thymusu je
však relatívne málo frekventovaná, a tak najčastejším prípadom je menšia imunodeficiencia,
25
Page 28
ÚVOD A PROBLEMATIKA
ktorá sa prejavuje hlavne ako zvýšená náchylnosť k infekciám, najčastejšie infekciám horných
dýchacích ciest a stredného ucha. Vo väčšine prípadov sa táto zvýšená citlivosť k infekciám
redukuje a upravuje sa počas predškolskej a školskej dochádzky (www 2).
V štúdii imunitnej funkcie 60 pacientov vo veku do 6 mesiacov sa uvádza že až 77%
pacientov malo v prvom roku života imunodeficienciu (Smith a kol., 1998, Sullivan a kol.,
1998)
Okolo 48% pacientov (McDonald – McGinn, 2003) so syndrómom 22q11 má
diagnostikovanú poruchu metabolizmu vápnika – novorodeneckú hypokalcémiu, ktorá je
spôsobená hypopláziou parathyroidných žliaz, spôsobujúcou zníženú koncentráciu
parathormónu regulujúceho metabolizmus kalcia a tým aj vápenatých iónov v sére. Vzhľadom
k zníženej potrebe vápnika sa v neskoršom veku tento stav väčšinou spontánne upraví.
3. Palatálne abnormality a problémy s kŕmením
Uvádza sa že asi 67% pacientov má nejakú z palatálnych abnormalít, medzi ktoré
patria hlavne velofaryngeálna insuficiencia (VPI) a rázštep podnebia (McDonald-McGinn,
2003). Pri VPI podnebie dostatočne neoddeľuje ústnu dutinu od nosnej, a to sa prejaví nielen
v tzv. nosovej reči, ale v prípade kojenca aj problémami s nasávaním mlieka, ktoré im zvykne
vytekať nosom.
4. Charakteristické črty tváre a stigmatizácia
Súčasťou syndróm CATCH22 je tiež stigmatizácia. K typickej stigmatizácii tváre
patria abnormality uší, hlavne nízko posadené a dysplastické ušné boltce; u očí nachádzame
najčastejšie úzke očné štrbiny a hypertelorizmus; ústa sú charakterisitcké malou ústnou
dutinou, malou dolnou čeľusťou alebo vysoko vyklenutým podnebím. Dolná čeľusť býva
zmenšená, čo sa označuje ako micrognathia (malá brada).
Stigmatá nachádzame i na končatinách, konkrétne to môžu byť anomálne ryhy
na ploskách alebo zrastené prsty. Na krku to býva špeciálna kožná riasa nazývaná pterygium
coli.
5. Psychologický a motorický vývoj
Veľa detí so syndrómom 22q11 má problémy s psychologickým a motorickým
vývojom. Mnoho z nich začne rozprávať až vo veku 2-3 roky, niektoré aj neskôr. Majú
problémy s hrubou (balancovanie, beh...) aj jemnou motorikou (zručnosť prstov...). To všetko
sa prejavuje ako psychomotorická retardácia, rôzneho stupňa. V neskoršom veku, keď začnú
povinnú školskú dochádzku, prejavujú sa u nich problémy s učením.
26
Page 29
ÚVOD A PROBLEMATIKA
Pacienti s normálnym mentálnym vývinom tvoria podľa Ryana a kol. (1997) málo
početnú skupinu.
6. Ostatné abnormality
Ďalšími abnormalitami vyskytujúcimi sa u syndrómu CATCH22 sú
- renálne abnormality (napr. multicystické dysplastické obličky, chýbajúca oblička; u 37%
pacientov (Devriendt a kol., 1996))
- rastové abnormality (nízke hladiny rastových hormónov; 41% (Weinzimer a kol., 1998))
- muskuloskeletálne abnormality (skolióza, polydaktília, syndaktília, ...)
- hematologické abnormality(idiopatická trombocytopénia), hypospádia a nezostúpené
semeníky, trieslová kýla a iné.
5.1.1.2. Genetický základ a embryonálny vývoj
Väčšina pacientov má aj napriek značnej variabilite fenotypu v oblasti 22q11.2
rovnaký rozsah delecie. Podrobné molekulárne analýzy deletovaného regiónu umožnili
asociovať jednotlivé gény so špecifickými fenotypovými prejavmi. Najbežnejší deletovaný
región 22q11 sa nazýva DiGeorge kritický región (DGCR).Je to región medzi
22q11.21 – q11.23 (Driscoll a kol., 1992). Obsahuje gény, o ktorých sa predpokladá, že
ovplyvňujú vývin oblastí, ktoré sú pri tomto syndróme fenotypovo zasiahnuté. Približne 90%
pacientov má deleciu v typickom deletovanom regióne (TDR, veľkosti asi 3Mb), zatiaľčo
zvyšných asi 10% má rôzne menšie alebo bodové delecie vnútri tohoto regiónu. Vedľa delecie
typického regiónu môžu mať pacienti deleciu aj v submikroskopickej oblasti, o veľkosti asi
250 kilobáz, ktorá je jeho súčasťou. Syndróm CATCH22 môže byť zapríčinený nielen
priamou mikrodeleciou v regióne 22q11, ale aj balancovanou translokáciou (Budarf a kol.,
1995). V kritickej oblasti DGRC existuje niekoľko translokačných bodov zlomu, pričom
môže dochádzať ku translokácii na chromozómy 2, 10, 11, 15.
Fenotypické prejavy syndrómu CATCH22 však môžu byť spôsobené aj deleciami
mimo chromozóm 22. Takýmto prípadom je monozómia 10p14.
Podstatou vzniku syndrómu CATCH22 je porucha migrácie buniek krčných
segmentov neurálnej lišty, v dôsledku delecie génov, ktoré ju kontrolujú. Bunky krčných
segmentov normálne migrujú do derivátov faryngeálnych oblúkov a vakov. Chybná migrácia
ovplyvňuje ďalší vývoj týchto tkanív.
27
Page 30
ÚVOD A PROBLEMATIKA
Napríklad gén UFD1 je deletovaný u väčšiny pacientov s klasickým DGS/VCFS
fenotypom (Yamagishi a kol., 1999). Proteín, zapojený do vnútrobunkovej degradácie
proteínov, je exprimovaný v treťom a štvrtom faryngeálnom vaku, z ktorých sa vyvíjajú
tkanivá formujúce posledné dva segmenty primárnej srdcovej trubice, thymus a príštitné
telieska. V dôsledku jeho delecie dochádza k hypoplázii alebo aplázii thymusu, príštitných
teliesok a konotrunkálnych malformácií.
Prvý a druhý faryngeálny vak zodpovedajú za vznik sluchového aparátu, niektorých častí
tváre a svalov tváre. Tak potom vznikajú charakteristické črty tváre, prípadne poruchy sluchu.
Je dôležité si uvedomiť, že k poruche tohoto mechanizmu môže dôjsť aj po vystavení
embrya pôsobeniu teratogénnych látok. Z toho vyplýva, že syndróm CATCH22 môže byť
dôsledkom nielen genetických ale aj negenetických zmien.
5.1.1.3. Dedičnosť
Delecia 22q11 vzniká vo viac ako 90% prípadov “de novo”. U niektorých pacientov je
to následok autozomálne dominantnej dipozície, kde del22q11 má jeden z rodičov.
Výskyt v populácii sa udáva okolo 1:3000-4000 novonarodených detí.
5.1.1.4. Genetická a klinická diagnostika syndrómu CATCH22
V dnešnej dobe je pre detekciu tohoto syndrómu najpoužívanejšiou metódou
fluorescenčná in-situ hybridizácia. Na Oddelení lekárskej genetiky v Detskej nemocnici Brno
sa pre diagnostiku delecie 22q11 používa komerčne získaná sonda firmy Vysis a to LSI
DiGeorge/VCFS Region Dual Color Probe (Vysis LSI N25(22q11.2) SpectrumRed/LSI
ARSA(22q13) SpectrumGreen DNA Probe), ktorá je mixom dvoch sond. Prvá Spectrum
Orange TUPLE1 sonda sa viaže na miesto v oblasti regiónu TUPLE1. Druhá sonda
(SpectrumGreen LSI ARSA) je kontrolná, a viaže sa v oblasti teloméry. Viď obr. 4.
Obr. 6 a) a b) v Prílohe 1 ukazuje fluorescenčné signály tejto sondy na metafáznych
chromozómoch.
Materiálom pre prenatálnu cytogenetickú diagnostiku je plodová voda získaná
amniocentézou, alebo fetálna krv získaná kordocentézou. Postnatálne sa stanovuje z periférnej
krvi.
28
Page 31
ÚVOD A PROBLEMATIKA
Obrázok 4: Znázorňuje väzbu testovacej a kontrolnej sondy na chromozóm 22.
Jednotlivé klinické príznaky sa u syndrómu CATCH22 diagnostikujú rôznymi
spôsobmi v závislosti od toho, či je vyšetrovaný plod, alebo už narodené dieťa.
Prenatálne je možné identifikovať len srdečnú vadu, a to pomocou dvojrozmernej
echokardiografie (Jičínská a kol.,1998), nie však prípadnú poruchu imunitného systému alebo
stigmatizáciu. Ultrazvukové vyšetrenie sa na oddelení kardiológie robí rizikovým graviditám
medzi 20 a 22 týždňom gravidity. Pretože sa tomuto vyšetreniu sa nepodrobujú všetky
tehotné ženy, je prenatálny záchyt vrodených srdečných vád len asi 25%. Po prerušení
tehotenstva je možné pitvou zistiť prípadnú stigmatizáciu, alebo iné fyzické abnormality.
U narodených detí sa dajú VSV diagnostikovať nielen echokardiograficky, ale aj RTG,
klinickým a EKG vyšetrením. Funkcia príštitných teliesok sa dá sledovať laboratórnym
biochemickým vyšetrením hodnôt vápnika v sére a hladín parathormónu v sére. T-lymfocyty
sa stanovujú pomocou monoklonálnych protilátok a bunková zložka imunity zas prietokovou
cytometriou (Jičínská a kol., 1998). U narodených detí je tiež možné sledovať stigmatizáciu
tváre.
Mentálna alebo motorická retardácia sa prejavuje už v prvých rokoch života, problémy
s učením až v neskoršom veku.
5.1.1.5. Klinická liečba príznakov
Deti s vrodenými srdečnými vadami sú pod stálym dohľadom kardiológa. Operabilné
prípady sú riešené chirurgicky, vďaka moderným technológiám už veľmi skoro po narodení.
Ak je prenatálne diagnostikovaná vysoko riziková komplikovaná srdečná vada, dochádza
do 24. t.g vačšinou k prerušeniu tehotenstva.
Čo sa týka palatálnych abnormalít, rázštep podnebia sa odstraňuje chirurgicky.
29
22q11
22q13 LSI ARSA (arylsulfatase A) SpectrumGreen control
LSI TUPLE 1 (3’ TUPLE 1, D22S553, D22S609, a D22S942) SpectrumOrange
Page 32
ÚVOD A PROBLEMATIKA
V prípade imunodeficiencie a s ňou spojenou náchylnosťou k infekciám niektoré deti
môžu preventívne dostávať antibiotickú liečbu, alebo, v ojedinelých prípadoch, prídatné
gammaglobulínové protilátky. Deťom a dospelým so závažnejšiou imunodeficienciou, by sa
mala venovať špeciálna pozornosť pri niektorých medicínskych zákrokoch. Napríklad by
nemali byť očkovaní živými vakcínami, prípadne ak sa podrobujú operačnému zákroku
s nutnou transfúziou krvi, mala by byť ožiarená, aby sa zabránilo možnej reakcii proti
hostiteľskému štepu (www 2).
5.2. Úvod do regresnej analýzy
Vo všeobecnosti sa dá povedať, že regresia študuje, ako sa mení veličina, ktorú
sledujeme v závislosti na zmenách veličín, ktoré ju podmieňujú. Napríklad nás môže zaujímať
závislosť krvného tlaku na veku, závislosť klíčivosti semien na vlhkosti a podobne.
Veličina, ktorej zmeny študujeme sa nazýva závislá (alebo vysvetľovaná) premenná
a veličiny, ktoré ju podmieňujú nazývame nezávisle premenné (tiež kovariáty, alebo popisné
či vysvetľujúce premenné).
Označme Y závislú náhodnú veličinu a X =X0,X1, X2, ..., Xp vektor kovariát. Ďalej nech
01p je vektor regresných koeficientov (parametrov), ktorý potrebujeme odhadnúť.
0 je nepovinný parameter, nazývaný tiež absolútny člen a 1p sú váhy regresných
koeficientov príslušné k X1, X2, ..., Xp. X0 je v prípade zaradenia absolútneho členu do modelu
rovný 1, v prípade modelu bez absolútneho členu je rovný 0.
Regresná funkcia by sa dala definovať ako funkcia, ktorá sa snaží popísať vzťah
závislej premennej Y na vektore X nezávislých premenných určujúcich vlastnosti Y.
Matematicky zapísané:
C Y / X =g X (1.3)
Vzťah (1.3) nazývame tzv. zobecnený lineárny regresný model. Regresný model nazývame
lineárny vtedy, keď platí vzťah:
C Y / X =X =0 X 0, 1 X 1, ... ,p X p (1.4)
Napríklad pre ordinárny lineárny regresný model by sa vzťah (1.3) dal zapísať takto:
C Y /X =E Y /X =X , (1.5)
30
Page 33
ÚVOD A PROBLEMATIKA
kde E Y /X je tzv. očakávaná stredná hodnota náhodnej veličiny Y za podmienky X.
Vo všeobecnosti, model nemusí byť lineárny v X , čo znamená, že matematicky
vo vzťahu (1.3) je funkcia g(u) nelineárna v u.
Pomocou transformácie C(Y / X) funkciou h, ktorá je inverznou funkciou k funkcii g môžeme
v prípade nelinearity získať lineárnu závislosť na pravej strane rovnice (1.3).
hC Y /X =C ’ Y /X =X (1.6)
Transformáciu hC Y /X nazývame linkovacia funkcia.
V praxi vychádzame vždy z niekoľkých pozorovaní veličiny Y a veličín X, preto sa
používa aj označenie y namiesto Y, ktoré predstavuje vektor jednotlivých pozorovaní
náhodnej veličiny Y a namiesto vektoru kovariát X sa používa matica kovariát x=(xij), kde xij
je hodnota kovariáty Xi v j-tom pozorovaní. Pre regresné modely je typické, že nezavádzajú
nadbytočné vysvetľujúce premenné, teda sa požaduje, aby matica x mala stĺpce lineárne
nezávislé.
Pri stanovovaní regresného modelu sa používa nasledujúci postup:
1. Výber modelu – na základe distribúcie dát určíme, aký typ modelu je pre náš problém
najvhodnejší (lineárny, nelineárny, kvadratický, logistický...)
2. Odhad regresných koeficientov . - ak máme stanovený model, ktorý sa nám pre daný
problém hodí najviac, a keď vieme, pomocou ktorých parametrov chceme danú veličinu
odhadovať, nastupuje odhad regresných koeficientov . V lineárnom regresnom modeli
sa používa metóda najmenších štvorcov (MNŠ) a v prípade nelinearity zas metóda
maximálnej vierohodnosti (MMV). Obidve metódy popisujem podrobnejšie v metodickej
časti.
3. Testovanie prítomnosti jednotlivých kovariát v modeli - po odhadnutí regresných
koeficientov nastáva časť analýzy, kedy uvažujeme, či je odhadnutý model vhodný, a či
zvolené vysvetľujúce premenné dobre odhadujú závislú premennú Y. Je dobré postupným
pridávaním, či odoberaním a kombináciou jednotlivých kovariát získavať nové modely
a navzájom ich porovnávať. Kladieme si pritom otázku, či nový model bez premennej
(alebo s novou premennou) má v porovnaní s pôvodným štatisticky odlišnú
výpovednú hodnotu, alebo nie.
4. Testovanie diskriminačnej schopnosti modelu - nakoniec sa testuje diskriminačná
31
Page 34
ÚVOD A PROBLEMATIKA
schopnosť navrhnutého modelu. Model nikdy netestujeme na dátach, z ktorých sme ho
odvodili! Je zaujímavé sledovať, ako sa náš nový model správa na nových dátach. Aj keď
nám model dobre sedí na dátach, z ktorých sme ho vytvorili, nemusí to platiť o dátach
testovacích.
Posledné dva body sa v analýze môžu prelínať. Najprv odhadneme diskriminačné
schopnosti rôznych modelov, a potom ich navzájom porovnávame. Alebo otestujeme
diskriminačnú schopnosť základného modelu, a ak je neuspokojivá, snažíme sa nájsť model
iný.
32
Page 35
ÚVOD A PROBLEMATIKA
II. CIELE DIPLOMOVEJ PRÁCE
1. Cieľom prvej časti mojej diplomovej práce bolo napomôcť k optimalizácii
vyhodnocovania molekulárne cytogenetických preparátov a to hlavne
1. navrhnutím štatistického testu pre overenie presnosti hodnotenia chromozómových
abnormalít metódou interfáznej FISH
2. navrhnutím vhodnej metódy a stanovením deliacej hranice pre hodnotenie
cytogenetických preparátov
na príklade ES-FISH aplikovanej na detekciu Ph chromozómu u pacientov s očakávanou
CML.
2. Cieľom druhej časti bola tzv. prediktívna analýza pacientov s klinickými príznakmi
syndrómu del22q11, na základe fenotypových prejavov pre tento syndróm
charakteristických. Mojou úlohou teda bolo pomocou vhodného regresného modelu určiť
tie klinické príznaky, na základe ktorých by sa dala s najvyššou presnosťou predpovedať
pravdepodobnosť prítomnosti danej mikrodelecie, a tak napomôcť k zvýšeniu účinnosti
molekulárne cytogenetických vyšetrení.
33
Page 37
III. METODIKA
1. ČASŤ I. (Optimalizácia hodnotenia
molekulárne cytogenetických preparátov)
1.1. Binomický test
Majme X a Y nezávislé náhodné veličiny s binomickými rozdeleniami Bi(nX, pX) a Bi
(nY, pY), pričom poznáme hodnoty nX a nY. Ak chceme porovnať pravdepodobnosti zdaru
v obidvoch pokusoch, testujeme nulovú hypotézu H0: pX = pY. Zaveďme odhady
pravdepodobností pX a pY: pX=XnX
, pY=YnY
, za platnosti H0 bude spoločná
pravdepodobnosť p= XYnXnY
.Normovaním rozdielu pX – pY dostávame štatistiku
Z=
pX− pY
p 1− p 1 nX 1
nY
(2.1)
Nulovú hypotézu zamietame na hladine významnosti a ak ∣Z∣≥z /2.
1.2. Párový testPredstavme si, že máme experiment, v ktorom sledujeme skupinu pacientov
s hypertenziou pred podaním nejakého lieku na zníženie tlaku, a tú istú skupinu po terapii.
Zaujíma nás, či sa podanie toho lieku na znížení krvného tlaku u danej skupiny prejavilo.
Chceme teda nejakou hypotézou rozhodnúť o zmene krvného tlaku.
Z matematického hľadiska teda uvažujme náhodný výber dvojíc náhodných
veličín (U1, V1),...,( Un, Vn ). Kedže sa jedná o náhodný výber, znamená to okrem iného aj
požiadavku, že takéto dvojice sú navzájom nezávislé. Naopak, vnútri dvojíc je závislosť
žiadaná (v našom prípade je to fakt, že každá dvojica predstavuje jedného pacienta).
Pomocou párového testu v takomto prípade testujeme hypotézu že nejaká miery polohy
(stredná hodnota, medián) náhodnej veličiny U-V je nulová. Za predpokladu, že sa tento
34
Page 38
METODIKA
rozdiel riadi normálnym rozložením, sa daný problém rieši párovým t-testom (viď Anděl,
1985). Požiadavka na normálne rozdelenie je však často príliš silná, niekedy aj kvôli malému
rozsahu výberu. V tomto prípade sa používajú neparametrické obdoby párového t-testu ako
napríkad tzv. znamienkový test, ktorému stačí aby náhodná veličina X=U-V mala nejaké
spojité rozdelenie, alebo párový Wilcoxonov test, ktorý navyše predpokladá symetrické
rozdelenie distribučnej funkcie X okolo mediánu. Osobitným typom testu je Friedmanov test
(Friedmanova ANOVA), ktorý sa dá použiť na porovnávanie k≥2 výberov. O týchto
testoch podrobnejšie pojednávajú nasledujúce kapitoly.
Predtým, než sa pustíme do ich popisu, definujeme si ešte jeden pojem.
Majme rôzne reálne čísla x1,x2,...,xN. Poradím Ri čísla xi nazývame počet tých čísiel x1,x2,...,xN,
ktoré sú menšie alebo rovné číslu xi. Číslam, ktoré sú si rovné, sa priraďuje priemerné poradie
odpovedajúce tejto skupine. Teda napríklad v rade 6 6 7 8 9 10 10 majú čísla šesť poradie
(1+2)/2 = 1,5, čísla 7 8 9 majú poradia 3 4 5 a čísla desať poradie (6+7)/2 = 6,5.
1.2.1. Znamienkový test a Wilcoxonov párový test
Znamienkový testZnamienkový test má veľmi slabé predpoklady, ako sme už spomenuli, stačí mu aby
náhodná veličina X=U-V mala nejaké spojité rozdelenie, pričom ku vlastnému prevedeniu
testu stačí informácia, ktorá z možností Ui<Vi Ui=Vi Ui>Vi v tom ktorom opakovanom pokuse
nastala (Zvára, 2001). Testujeme nulovú hypotézu, že medián rozdielov Xi=Ui-Vi je rovný
nule proti obojstrannej alternatívnej hypotéze, že medián je nenulový. V prípade, že tento test
aplikujeme na dáta, ktoré nie sú spojité, vyradíme pozorovania, kedy rozdiel vychádza 0 (teda
Ui=Vi), a o tieto pozorovania zmenšíme n (Anděl, 1985).
Motivácia tohoto testu je taká, že ak platí nulová hypotéza, tak náhodný jav Ui>Vi má
pravdepodobnosť ½ (takisto ako náhodný jav Ui<Vi). Keďže sa predpokladá spojité
rozdelenie, jav Ui=Vi nastáva s nulovou pravdepodobnosťou. Náhodná veličina Y má
za platnosti nulovej hypotézy binomické rozdelenie Bi (n, 0,5), so strednou hodnotou
E(Y) = n/2 a =n /4 .
Vypočíta sa teda štatistika Z=∣Y− n
2∣−1 2
n4
, (2.2)
ktorá má pri dostatočne veľkom n za platnosti hypotézy H0 asymptoticky rozdelenie N(0,1)
35
Page 39
METODIKA
a nulová hypotéza sa zamieta na hladine významnosti a ak ∣Z∣≥z /2
Párový Wilcoxonov testTento test tiež predpokladá spojité rozdelenie rozdielov Xi=Ui-Vi , ale navyše sa ešte
predpokladá, že toto rozloženie je symetrické okolo mediánu. Nulová hypotéza tvrdí, že
medián je rovný nule.
Test je podobný ako znamienkový. Najprv sa spočítajú rozdiely Xi=Ui-V. Nulové sa
vylúčia a n sa zmenší. Xi zoradíme podľa absolútnych hodnôt. Spočítame poradie tých veličín
Xi, ktoré sú kladné . Tento súčet nám dá štatistiku, ktorú označíme S+. Súčat poradí veličín,
ktoré sú záporné označíme S-. Testovou štatostikou je min(S+, S-), ktorú porovnávame
s kritickou hodnotou. Tá je tabelovaná pre n≤20. Ak min(S^+, S^-)<= kritická hodnota,
nulovú hypotézu zamietame na hladine významnosti a
Pre dostatočne veľké n možno využiť fakt, že za platnosti nulovej hypotézy má
štatistika
Z=S¿−1
4n n1
1 24
nn12 n1 (2.3)
asymptoticky rozdelenie N(0,1). V prípade že ∣Z∣≥z /2 , hypotézu zamietame
na hladine a
1.2.2. Friedmanov test
Predpokladom Friedmanovho testu je, aby premenné boli najmenej ordinálne..
Friedmanov test je obdobou analýzy rozptylu dvojitého triedenia s jedným
pozorovaním v každej podtriede.
Nech Xij sú nezávislé náhodné veličiny so spojitými distribučnými funkciami. Chceme
testovať hypotézu, že distribučné funkcie veličín Xi1, ..., Xik sú totožné (t.j. distribučná funkcia
Fi náhodnej veličiny Xij môže závisieť na i, ale nezávisí na j).
Ide o tzv. model náhodných blokov. Skúma sa vplyv k ošetrení, ktoré sú aplikované na
n blokoch. To znamená, že na každom bloku bolo vedľa seba uplatnených zmienených k
ošetrení, a na základe zistených výsledkov je treba rozhodnúť, či všetky ošetrenia prinášajú
rovnaký efekt alebo nie. Ak nemajú rovnaký efekt, treba ďalej určiť, ktoré ošetrenia sa
navzájom líšia.
36
Page 40
METODIKA
V našom prípade k ošetrení je k testovaných laborantov, ktorí počítali n blokov – vzoriek.
Friedmanov test spočíva v tom, že sa pozorovania v každom bloku usporiadajú zvlášť a určí
sa poradie Rij náhodnej veličiny Xij v rámci i-tého bloku. Vypočíta sa potom štatistika
Q= 12n k k1∑j=1
k
∑i=1
n
Rij2−3 nk1 (2.4)
Za platnosti hypotézy má Q pri n∞ asymptoticky rozdelenie k−12 . Ak je
Q≥k−12 , hypotéza sa na hladine významnosti a zamieta.
1.2.3. Software použitý pre testovanie
Pre Friedmanov a Wilcoxonov test som použila štatistický software STATISTICA
verzia 6.1, modul „Nonparametric statistics“ (StatSoft, Inc., 2003). Binomický test som
počítala pomocou programu R plus (R Developement Core Team, 2003).
1.3. ROC analýza
1.3.1. Diagnostická presnosť
Vykonávanie laboratórnych testov v klinickej praxi sa dá matematicky popísať
v termínoch diagnostickej presnosti, či, inak povedané, schopnosti testu korektne klasifikovať
subjekty do klinicky relevantných skupín. Diagnostická presnosť totiž vypovedá o kvalite
testom stanovenej informácie. Každý diagnostický systém väčšinou „hľadá“ nejaký konkrétny
predom definovaný signál, a snaží sa ignorovať alebo zamietnuť ostatné „udalosti“, nazývané
šum. Diskriminácia (teda správne zaradenie pacienta do jednej z diagnostických skupín)
nebýva perfektná, pretože šum sa môže rôznym spôsobom signálu podobať.
A tak, s neustálym rozvojom nových technológií v medicíne, stúpala
v sedemdesiatych rokoch minulého storočia potreba zmysluplne a efektívne merať kvalitu
diagnostickej informácie či rozhodnutí s ňou spojených.
V súčastnosti všeobecne uznávananou metódou pre tento účel, a to vo všetkých
37
Page 41
METODIKA
vedných odboroch, ktoré diagnostické systémy využívajú, je ROC analýza, ktorá pre
stanovenie tejto presnosti využíva tzv. ROC krivku. Plocha pod ňou totiž poskytuje
jednoduchý index presnosti popisom limitov schopnosti testu diskriminovať medzi dvoma
alternatívami. .
1.3.2. História
Koncom druhej svetovej vojny a začiatkom 50-tych rokov bola v súvislosti
s výskumom rádiových signálov kontaminovaných šumom a problémami s ich interpretáciou
na radare vyvinutá tzv. „teória detekcie signálu“ (signal detection theory). Z nej vyplývajúca
ROC analýza postupne nachádzala uplatnenie vo všetkých oboroch ľudskej činnosti, v ktorých
sa v akejkoľvek forme využívalo diagnostické testovanie (Egan, 1975). ROC analýza sa tak
pre svoju zrozumiteľnosť stala neoddeliteľnou súčasťou aj medicíny.
1.3.3. Princíp
Ak sa chceme zaoberať kvalitou diagnostického testu, najzákladnejšia charakteristika,
ktorou sa táto kvalita dá merať, je jeho „presnosť“. Presnosť je mierou schopnosti testu
korektne klasifikovať subjekty do klinicky relevantných skupín. Hoci niektoré diagnózy sú
komplexnejšie, diagnostické systémy majú väčšinou za úlohu rozlišovať medzi dvoma
alternatívami - zdravý & chorý, benígny & malígny nádor či odpovedajúci & neodpovedajúci
na terapiu a pod. Ak test nie je schopný odhaliť významný rozdiel (inak povedané má slabú
diskriminačnú schopnosť), pre diagnostiku a pacienta viacmenej nemá význam.
Najjednoduchší spôsob ako definovať presnosť, je vziať počet prípadov, ktoré boli
testom správne zaradené, a podeliť ho počtom všetkých hodnotených prípadov. Pozrime sa
však na prípad, keď máme diagnostikovať chorobu, ktorá má v populácii veľmi nízku
prevalenciu, napr. 5%. Diagnostik, ktorý určí všetkých vyšetrovaných za zdravých bude
presný až na 95%! Vidíme, že takáto definícia nie je vyhovujúca. Ani v prípade porovnávania
rôznych diagnostických testov u známej a ustálenej prevalencie choroby v populácii nie je
tento prístup vhodný. Dva testy s rovnakou a takto definovanou presnosťou môžu mať úplne
odlišnú kvalitu v závislosti na type správnych a nesprávnych rozhodnutí, ktoré dávajú. Jeden
test môže byť presnejší pre pozitívne prípady, druhý zas pre negatívne. V odhadovaní
presnosti diagnostického testu je teda treba oddeliť vplyv prevalencie choroby, a rozlišovať
38
Page 42
METODIKA
rôzne typy správnych a nesprávnych diagnostických odpovedí.
1.3.4. Senzitivita a špecificita
Začnime popisom tzv. fundamentálneho detekčného problému. Pri vyhodnocovaní
výsledkov, či už v medicíne alebo v iných odboroch, sa stretávame s tým istým problémom:
výsledky sú viac či menej obtiažne interpertovateľné. Hodnotenie obrazu si vyžaduje často
dlhý tréning, a tak aj napriek bohatým skúsenostiam existuje stále neistota v tom, čo tam
pozorovateľ vidí a čo nie.
V každom prípade sa musí rozhodnúť, a tak má len dve možnosti: odpovedať áno
alebo nie na diagnostickú otázku. Tieto odpovede pritom samozrejme buď zodpovedajú alebo
nezodpovedajú skutočnosti. Udalosť, ktorá v skutočnosti nastáva i rozhodnutie urobené
testom môžu nadobúdať dve hodnoty. Väčšinou sa hovorí o pozitivite a negativite. V praxi
teda nakoniec nastávajú 4 možné výsledky:
– pozitívna udalosť je testom označená za pozitívnu (PP-pravdivá pozitivita; TP – true
positive),
– pozitívna udalosť je testom označená za negatívnu (FN - falošná negativita; false negative),
– negatívna udalosť je označená za pozitívnu (FP- falošná pozitivita; false positive) a
– negatívna udalosť je označená za negatívnu (PN - pravdivá negativita; TN – true negative).
Vďaka dvom alternatívam udalosti, ktorá môže nastať a dvom korešpondujúcim
diagnostickým rozhodnutiam môžeme tieto výsledky zapísať do 2 x 2 kontingenčnej tabuľky
(Tab.1), kde a, b, c, d označujú aktuálne jednotlivé počty možných výsledkov. 2 x 2
kontingenčná tabuľka je v ROC analýze najpoužívanejšiou metódou zápisu týchto vzťahov.
Tabuľka 1: Kontingenčná tabuľka vyjadrujúca vzťahy medzi diagnostickým rozhodnutím a skutočnosťou
(udalosťou), a, b, c, d sú počty jednotlivých výsledkov, ktoré nastali.
DIAGNÓZA
U D A L O S Ť
pozitívna negatívna
pozitívnaa
Pravdivo pozitívneb
Falošne pozitívne a+b
negatívnac
Falošne negatívned
Pravdivo negatívne b+d a+c b+d
39
Page 43
METODIKA
Kedykoľvek nastane pozitívna udalosť, diagnóza je buď pozitívna alebo negatívna,
a tak falošne negatívna proporcia (FNP; anglicky FNF-false negative fraction) cac je
komplementom k pravdivo pozitívnej proporcii aac (PPP; TPF – true positive fraction).
Podobne kedykoľvek nastane negatívna udalosť, diagnóza je tiež buď pozitívna alebo
negatívna a tak falošne pozitívny podiel (FPP; FPF - false positive fraction) bbd
a pravdivo negatívny podiel (PNP; TNF – true negative fraction ) dbd sú komplementy.
Platí teda
i) FNF + TPF = 1 => TPF=1-FNF
ii)TNF + FPF = 1 => FPF=1-TNF
TPF sa tiež nazýva senzitivita, a TNF zas špecificita. V literatúre sa stretávame aj
s označením vyššie uvedených proporcií pomocou pravdepodobností. Ak označíme D udalosť
„choroba“ a T výsledok „testu“, pomocou pravdepodobnosti dostávame:
FPF ~ P(T+/D-) TPF ~ P(T+/D+)
FNF ~ P(T-/D+) TNF ~ P(T-/D-)
Prehľad jednotlivých vzťahov a označení poskytuje Tabuľka 2.
Tabuľka 2:
Označenia VzťahySenzitivita = TPF = P(T+/D+) TPF = a/a+c
Špecificita = TNF = P(T-/D-) TNF = d/b+d
1-Senzitivita=FNF= P(T+/D-) FNF = c/a+c TPF+FNF = 1
1-Špecificita=FPF=P(T+/D-) FPF = b/b+d TNF+FPF = 1
1.3.5. Deliaca hranica (cutoff level)
Väčšina testov v praxi neodlišuje pozitívne a negatívne prípady so 100% presnosťou.
To sa prejavuje v prekrytí distribúcií reálne pozitívnych a reálne negatívnych prípadov
(Graf 1).
40
Page 44
METODIKA
Prekrývajúca sa plocha indikuje, kde test nie je schopný rozlíšiť normálny prípad
od pozitívneho.
Z tohoto dôvodu sa používa nejaká konkrétna deliaca hranica, nazývaná tiež cutpoint,
alebo cutoff level. Je to hranica, pomocou ktorej sa diagnostik rozhoduje, ktoré hodnoty
označí za pozitívne a ktoré za negatívne. Väčšinou všetky hodnoty ktoré padnú pod cutoff
level sú označované za negatívne a naopak. Pozícia cutoff levelu podmieňuje počet falošne
pozitívnych a falošne negatívnych výsledkov. Posunutím deliacej hranice doprava sa síce
zníži frekvencia falošne pozitívnych a zvýši sa frekvencia pravdivo negatívnych výsledkov,
zároveň sa však zvýši frekvencia falošne negatívnych a zníži frekvencia pravdivo pozitívnych
výsledkov. Je teda jasné, že s posúvaním cutoff levelu sa nám jednotlivé podiely menia,
a zvýšenie ktorejkoľvek pravdivej proporcie zároveň prináša zníženie tej druhej. Zároveň
zníženie ktorejkoľvek falošnej proporcie logicky vyústi do zvýšenia frekvencie druhej.
Pri stanovovaní cutpointu by sme sa mali mať dopredu upresnené, ktorá proporcia je
najdôležitejšia, a ktorú chybu chceme eliminovať. Diagnostik by sa mal riadiť hlavne
klinickou situáciou a následkami jednotlivých rozhodnutí. Ak má byť v prípade pozitivity
prevedený riskantný operačný zákrok, prípadne ďalšie náročné vyšetrenia, je potrebné držať
FPF na čo najnižšej úrovni, čo znamená striktnejší cutpoint v ľavej časti grafu. Swets (1988)
naznačuje, že rozhodovacie kritérium by malo byť vybrané v závislosti od prevalencií
(primárnych pravdepodobností) obidvoch udalostí. Ak je prevalencia choroby nízka, FPF by
mala byť takisto nízka, pretože by sa mohlo stať, že prevažná väčšina pozitívnych rozhodnutí
41
Graf 1 : Ukážka prekrytia distribúcií pozitívnycha negatívnych prípadov. Na osi x je hodnota testu,na osi y frekvencie prípadov
Page 45
METODIKA
bude falošná. Naopak v prípade vysokej prevalencie choroby v populácii je lepšie
identifikovať čo najväčšie množstvo chorých, teda zvýšiť TPF a to aj na úkor zopár falošne
pozitívnych jedincov. Dôležité je, aby boli pozitívne prípady čo najúčinnejšie odhalené.
V takomto prípade je rozhodovacie kritérium miernejšie, a diagnostik sa pohybuje na pravej
strane grafu. Graf 2 znázorňuje závislosť TPF a FPF na zvolenej deliacej hranici.
1.3.6. ROC krivka
Ako už bolo spomínané, s posúvaním cutoff levelu sa mení senzitivita a špecificita
v opačnom smere. S nárastom jednej klesá druhá a naopak. Ak vezmeme namiesto špecificity
FPF, bude nám nová dvojica TPF a FPF narastať a klesať spoločne. Pre každé rozhodovacie
kritérium teda exituje príslušná dvojica (FPF;TPF). Keďže vieme, že tieto dve proporcie
určujú všetky štyri rozhodujúce podiely, stačí nám poznať len tie.
Ak zmeníme niekoľkokrát deliacu hranicu, zaznamenáme niekoľko dvojíc FPF a TPF.
Keď ich vykreslíme do grafu, v ktorom os x predstavuje FPF a os y TPF, dostávame ROC
krivku. Egan, (1975) definuje ROC (Receiver Operating Characteristic) funkciu ako funkciu,
ktorá sumarizuje možné správanie sa pozorovateľa, ktorý stojí tvárou v tvár úlohe detekovať
signál v šume. Graf tejto funkcie sa nazýva ROC krivka (Graf 3).
42
Graf 2 : Závislosť FPF a TPF na pozícii deliacejhranice (zvislá čiara) .
Page 46
METODIKA
Pre ROC krivku platí nasledovné:
i. Obidve osy grafu majú rozpätie od 0 do 1
ii. ROC ukazuje vzťah medzi senzitivitou a špecificitou
43
1-Špecificita
Sen
zitiv
ita
ROC krivka
Sen
zitiv
ita
1
Graf 3 : Hypotetická ROC krivkavyjadrujpca závislosť FPF a TPF.Diagonála predstavuje ROC krivku testus diskriminačnou schopnosťou rovnou náhode(presnosť 0,5). Krivka nad ňou je ROC krivkatestu s presnosťou >>0,5
Graf 4.:ROC krivky testov srôznoudiskriminačnou schonosťou
0 11-Špecificita
ROC krivky
Page 47
METODIKA
iii. Ak test poskytuje nejakú informáciu, prostredné body ROC krivky musia ležať
v pravom hornom rohu ROC priestoru. V opačnej situácii by bol v prípade reálnej
pozitivity pravdepodobnejší negatívny výsledok testu.
iv. Teoretický graf pre test s nulovou diskriminačnou schopnosťou je diagonála vedúca
od ľavého dolného rohu po pravý horný roh. Takáto ROC krivka odpovedá testu, ktorý
zaraďuje do jednotlivých skupín len náhodne, s pravdepodobnosťou ½.
v. Čím bližšie je krivka ľavému hornému rohu ROC priestoru, tým presnejší je test
(Graf 4.)
vi. Plocha pod krivkou je merítkom presnosti diagnostického testu.
Ak máme k dispozícii niekoľko testov, ktoré poskytujú záver ohľadom tej istej
diagnostickej úlohy, porovnanie ich príslušných ROC kriviek ukáže, ktorý z nich je
výhodnejší, alebo inak, presnejší. ROC krivky sa teda dajú používať aj na porovnávanie
jednotlivých testov.
1.3.7. Význam plochy pod ROC krivkou
Plocha pod ROC krivkou, označovaná aj AUC ( Area Under a Receiver Operating
Characteristic Curve) je najbežnejším kvantitatívnym indexom popisujúcim ROC krivku
a zároveň elegantným a jednoduchým nástrojom vyjadrujúcim presnosť diagnostického
systému. Nepoužíva žiadne predpoklady o distribučných funkciách testovaných veličín. Index
diskriminačnej presnosti AUC sa označuje A a jeho hodnota sa pohybuje sa od 0.5 do 1. Teda
ak test nemá žiadnu diskriminačnú schopnosť, ROC leží na hlavnej diagonále a A=0.5.
Naopak, A=1 označuje perfektnú diskrimináciu, a je to prípad kedy ROC krivka kopíruje
pravý horný roh ROC priestoru.
AUC sa definuje najčastejšie podľa Greena a Swetsa (1966), ktorí ukázali, že plocha
pod ROC krivkou korešponduje s pravdepodobnosťou správneho zaradenia, ktorý z dvoch
stimulov je šum, a ktorý signál. Inak povedané, je to pravdepodobnosť korektnej klasifikácie
náhodného páru pacientov, pričom jeden bol vybraný z reálne pozitívnej a druhý z reálne
negatívnej skupiny. Napríklad plocha o veľkosti 0.8 vyjadruje, že náhodne vybraný jedinec
z abnormálnej skupiny má až v 80% prípadov vyššie testové hodnoty ako náhodne vybraný
jedinec z normálnej skupiny (Zweig & Campbell, 1993). Neznamená to teda, že pozitívny
prípad nastane s pravdepodobnosťou 0.8, ani že pozitívny výsledok je asociovaný s chorobou
v 80% prípadoch.
44
Page 48
METODIKA
Výpočet AUC je zložitejšou otázkou a vo všeobecnosti rozoznávame 2 metódy:
1. neparametrická metóda založená na konštrukcii lichobežníkov pod krivkou ako
aproximáciou plochy
2. parametrická metóda s použitím metódy maximálnej vierohodnosti na odhadnutie
tzv. vyhladzujúcej krivky (smoothing curve) cez jednotlivé body grafu
Zo štatistického hľadiska je významný fakt, že pravdepodobnosť korektného
zaradenia (normálneho a abnormálneho) páru je úzko spojená so štatistikou W počítanou
v dvojvýberovom Wilcoxonovom (Mann-Whitney) štatistickom teste (Bamber, 1975).
Hanley & McNeil (1982) totiž na základe tohoto zistenia ukázali, že štatistické vlastnosti
Wilcoxonovej štatistiky sa dajú použiť na predikciu štatistických vlastností plochy pod ROC
krivkou. Wilcoxonova štatistika
W= 1 nA nN
∑1
nA
∑1
nN
S xA , xN (2.5)
kde 1 ak xAxN
S x A , xN =' 1/2 ak xA=xN
0 ak x AxN , nA predstavuje počet pravdivo pozitívnych a nN počet
pravdivo negatívnych prípadov, a xA a xn sú náhodné veličiny predstavujúce hodnoty X
u abnormálnych a normálnych prípadov, v uvedenom poradí, je neparametrickým testom
na testovanie skutočnosti, či hladiny nejakej kvantitatívnej náhodnej veličiny X majú
tendenciu byť v prvej (abnormálnej) populácii vyššie ako v populácii druhej (normálnej).
Nulová hypotéza znie, že náhodná veličina X nemôže byť použitá na diskrimináciu medzi
abnormálnymi a normálnymi vzorkami (teda A = 0.5). Ak A > 0.5, W už nie je
neparametrická štatistika, a jej štandardná odchýlka SE(W) závisí na dvoch špeciálnych
distribučných veličinách Q1 a Q2, ktoré môžu byť vyjadrené ako funkcie A (Hanley & McNeil,
1982):
1. Q1=A
2 – A
2. Q2=2 A2
1 A (2.6)
Za predpokladu, že klasifikujeme na škále, ktorá je dostatočne spojitá, môžem smerodatnú
odchýlku SE(W) alebo jej ekvivalent SE(AUC) vyjadriť vzťahom:
45
Page 49
METODIKA
SE W = A1−AnA−1Q1−A2nN−1Q2−Q2nA nN
(2.7)
Štatistika W už predstavuje plochu, ktorú môžeme získať s pomocou nekonečne
veľkej vzorky na spojitej škále. V prípade kategorických dát má teda W tendenciu
podhodnotiť A, avšak ako ukázali Hanley & McNeil (1982), použitie W je aj v takomto
prípade opodstatnené, pretože miera podhodnotenia je nízka. Tiež dokázali, že W vypočítané
vyššie uvedeným vzťahom úplne súhlasí s AUC vypočítanou s pomocou konštrukcie
lichobežníkov. Hanley & McNeil (1982) navyše ukazujú minimálny rozdiel medzi AUC
odhadnutými pomocou tejto metódy a metódy využívajúcej metódu maximálnej
vierohodnosti. Súvisiace smerodatné odchýlky sa navzájom líšia takisto rádovo len
v desatinách percenta.
1.3.8. Porovnávanie ROC kriviek
Ako už bolo spomínané, ROC krivky sa dajú využiť aj na vzájomné porovnávanie
jednotlivých diagnostických testov. Štandardná odchýlka rozdielu sa v prípade, že sa jedná
o ROC krivky generované z tej istej sady pacientov, nedá kvôli pravdepodobnej korelácii
vypočítať vzťahom
SE A1 – A2=SE2A1SE2A2 (2.8)
Hanley & McNeil (1983) vyvinuli nový postup pre stanovenie SE v takomto prípade, a to
rovnicou
SE A1 – A2=SE2A1SE2A2−2 rSE A1SE A2 (2.9)
kde r predstavuje odhadnutú koreláciu medzi dvoma plochami.
Obecný prístup ako stanoviť či existuje významný rozdiel medzi plochami pod dvoma ROC
krivkami (odvodenými z rovnakých dát) je vypočítať kritickú hodnotu štatistiky Z,
definovanej: Z=A1−A2
SE2A1SE 2A2−2 rSE A1SE A2 (2.10)
Táto štatistika sa porovnáva s tabuľkovými hodnotami normálneho rozloženia. Ak je
46
Page 50
METODIKA
∣Z∣≥1.96 , hypotézu o zhodnosti zamietame na asymptotickej hladine významnosti
a = 0,05. Môžeme teda povedať, že skutočné plochy pod dvoma krivkami sa navzájom
odlišujú.
1.3.9. Interval spoľahlivosti
Hanley & McNeil (1982) simuláciami ukázali, že distribúcia odhadov A , ktoré
získame nie je celkom symetrická, ale namiesto toho tak trocha zošikmená smerom
k A=0.5 . Táto šikmosť je s približovaním skutočnej A smerom k 1, a so znížením
očakávaného počtu „misklasifikovaných párov“ m[(1-A)] (m je počet párov) pod 5,
výraznejšia. Táto situácia je identická s tou, ktorá vzniká pri binomickom rozložení, ktorého
pravdepodobnosť úspechu sa blíži k 1. V takomto prípade sa radšej uchyľujeme
k asymetrickému intervalu spoľahlivosti než k výpočtu intervalu spoľahlivosti (IS)
odvodeného od normálneho rozloženia, ±1,96 SE A . Tento prístup sa však už môže
využiť ak je m významne vyššie ako 5.
Asymetrický interval spoľahlivosti môžeme dostať vytvorením rozloženia plochy pod
krivkou pomocou bootstrapovej metódy, pričom ako dolnú a hornú hranicu intervalu
spoľahlivosti vezmeme 2,5% a 97,5% kvantil tohoto rozloženia, v uvedenom poradí.
1.3.10. Veľkosť vzorky
Dosadením Q1,Q2,nA a nN do vzťahu (2.7) získame smerodatnú odchýlku odhadu A.
Môžeme meniť n pokiaľ nebude SE A dostatočne malá. Ak u daného testu
predpokladáme nejakú diagnostickú presnosť A, a zároveň vieme, akú očakávame chybu,
po dosadení do vyššie uvedeného vzťahu môžeme vypočítať potrebnú veľkosť vzorky n. Čím
je A bližšie jednotke, tým je menšia SE A . SE A sa inverzne mení s n a tak pre
zníženie chyby o polovicu je potrebné n zoštvornásobiť.
Vzhľadom k tomu, že proporcie TPF a FPF sú obyčajne rovnako dôležité, odporúča sa
v ROC experimente používať zhruba rovnaké počty aktuálne pozitívnych i aktuálne
negatívnych prípadov (Metz, 1978).
Pre výpočet veľkosti vzorky pre porovnávanie dvoch diagnostických testov
viď. Hanley & McNeil (1983).
47
Page 51
METODIKA
2. ČASŤ II. (Prediktívna analýza pacientov s
klinickými príznakmi del22q11)
2.1. Logistická regresia
V regresnom modeli predpokladáme, že pozorovaná hodnota y vysvetľovanej
premennej Y sa od očakávanej strednej hodnoty líši o nejaké , a teda že:
y−E Y / X = . Tento rozdiel medzi teoreticky vypočítanou hodnotou Y a jej empirickou
hodnotou nazývame náhodná chyba (reziduum). V ordinálnom lineárnom regresnom modeli
sa predpokladá, že aj vysvetľovaná premenná Y sú z normálneho rozloženia, pričom je
z rozdelenia so strednou hodnotou 0 a Y z rozdelenia so strednou hodnotou E Y / X ,
pričom rozptyl 2 obidvoch rozdelení je rovnaký a konštantný.
V prípade, že závislá náhodná veličina Y je kategorická (v našom prípade binárna, čo
znamená, že môže nadobúdať len 2 hodnoty – 0 a 1, pričom 0 značí neúspech a 1 úspech
v danom pokuse; úspech môže byť napríklad manifestácia nejakej choroby, alebo kladná
odpoveď na položenú otázku...), teda v tomto prípade je najčastejšie používaným štatistickým
modelom pre regresnú analýzu (binárny) logistický regresný model, odvodený od funkcie
P= 1 1 e−x , ktorá sa nazýva logistická funkcia. Očakávanou strednou hodnotou je teda
pravdepodobnosť, že za daných hodnôt predikčnej premennej X je Y=1 , čo v podstate
znamená pravdepodobnosť úspechu, ak veličina X nadobúda nejaké konkrétne hodnoty x:
C Y /X =P Y=1/ x = 1
1 e−x (3.1)
Základy tohoto modelu položil už Cox (1958) a Walker a Duncan (1967).
Na rozdiel od ordinárneho lineárneho regresného modelu, ktorý umožňuje
pravdepodobnosti P {Y=1} presiahnuť medze 0 a 1, v tomto modeli aj pri všetkých
možných hodnotách X , ostáva obor hodnôt Y v intervale < 0,1>. Ďalšou výhodou je, že
logistický model nepredpokladá žiadne rozloženie dát, pretože s ním priamo nepracuje.
Pracuje len s pravdepodobnosťami. To znamená, že ak sme v lineárnom modeli pracovali
48
Page 52
METODIKA
s chybou s normálnym rozložením, tu sa dá hodnota y veličiny Y vyjadriť vzťahom :
y= x , 3.2
kde x =P {Y=1/ x }.
Z tohto vzťahu vyplýva, že môže nadobúdať len 2 hodnoty. Ak Y=1 , potom
=1−x s pravdepodobnosťou p(x); a ak Y=0, tak =−x s pravdepodobnosťou
1−x . Náhodná veličina má teda alternatívne rozloženie so strednou hodnotou 0
a rozptylom x [1− x ] a rozloženie vysvetľovanej premennej Y je binomické,
s podmienenou strednou hodnotou x .
Pre jednoduchosť odhadu regresných koeficientov , je vhodné transformovať
rovnicu (3.1) na lineárnu závislosť. Ako linkovaciu funkciu použijeme tzv. logit
pravdepodobnosti, že Y=1 , tzn.:
h x=ln [ x
1−x ]=X (3.3)
V logistickom regresnom modeli môžeme mať ako spojité, tak aj kategorické kovariáty.
V prípade, že kovariáta Xj je kategorická, a môže nadobúdať konkrétne nejakých kj hladín,
budeme na jej zaradenie do modelu potrebovať kj-1 premenných, ktoré si označme Dju, a im
príslušné koeficienty ju. Potom logit pre tento model bude mať tvar
hx =0 1 x1 ...∑ ju D ju p x p (3.4)
2.1.1. Výstavba regresného modelu
Vhodne zvolený regresný model by mal spĺňať tieto kritériá:
1. Obsahovať čo najmenší počet parametrov
Viac parametrov síce zvýši presnosť modelu, avšak na úkor jeho reálnosti. Väčšinou pri
aplikácii na iné (testovacie) dáta, sa stane nevhodným.
2. Parametre by mali byť navzájom nezávislé
Použité parametre by sa nemali dať vyjadriť kombináciou ostatných parametrov. Je to
častý problém nelineárnych modelov.
49
Page 53
METODIKA
3. Funkcia by mala správne opisovať vysvetľovanú premennú v extrémoch závislosti
ako aj jej asymptotické správanie sa
Častým problémom použitých modelov je, že nie sú vhodné pre tzv. extrapoláciu údajov.
Znamená to, že nesprávne vysvetľuje správanie sa vysvetľovanej premennej mimo
skúmanej oblasti. Pri nízkych alebo vysokých hodnotách nezávislej premennej niektoré
modely poskytujú nesprávne limitné hodnoty závislej premennej.
2.1.2. Odhad regresných parametrov
Základom výstavby regresnej funkcie je odhad regresných parametrov
=1, 2, ... , p Pre odhad parametrov sa používajú rôzne metódy, väčšinou v závislosti od
použitého regresného modelu. Najzákladnejšie metódy odhadu sú:
1. Metóda najmenších štvorcov (MNŠ) – táto metóda je založená na výbere takého
odhadu regresného vektoru , ktorý minimalizuje sumu druhých mocnín rozdielov
medzi pozorovanými hodnotami závislej premennej Y a jej odhadmi odvodenými
z modelu. Táto metóda vedie k vhodným štatistickým výsledkom v prípade lineárnej
regresie, v ktorej sa používa. V prípade modelu s binárnou vysvetľovanou premennou
však už nie je vhodná.
2. Metóda maximálnej vierohodnosti (MMV) – je hlavná metóda odhadu, ktorá vlastne
v lineárnom regresnom modeli vedie k už spomínanej metóde najmenších štvorcov
(keď sú chyby normálne rozložené). Touto metódou sú odhadované regresné
koeficienty v nelineárnych regresných modeloch, a teda aj v logistickom regresnom
modeli.
Venujme sa teda ďalej metóde maximálnej vierohodnosti, ktorá sa používa v logistickej
regresii. Popis tejto metódy je obsiahlejší, preto je jej venovaná nasledujúca kapitola.
2.1.3. Metóda maximálnej vierohodnosti
Veľmi všeobecne povedané, metóda maximálnej vierohodnosti (ďalej už len MMV),
vedie k takým hodnotám odhadov parametrov, ktoré maximalizujú pravdepodobnosť získania
50
Page 54
METODIKA
našej pozorovanej množiny dát. (Lemeshow & Hosmer, 2003).
Aby sme mohli začať odhadovať, potrebujeme najprv definovať tzv. vierohodnostnú
funkciu. Je to funkcia, ktorá vyjadruje pravdepodobnosť výskytu pozorovaných dát ako
funkciu neznámych parametrov. Je definovaná ako združená hustota náhodných veličín
X 1, X 2, ... X p , ktorá sa vníma ako funkcia vektoru ich parametrov . Teda
L ; x1, x2, ... , x p=∏i=1
p
f xi , (3.5)
Za maximálne vierohodné odhady týchto parametrov sú vybrané tie hodnoty, ktoré túto
funkciu maximalizujú. V logistickom regresnom modeli výraz x vyjadruje
podmienenú pravdepodobnosť že Y = 1 za podmienky x P Y=1/ x . To znamená, že
1−x =P Y=0 / x . Predpokladajme, že veľkosť nášho výberu (vzorky) je n. Nech
(xi, yi) , i=1,..,n sú jednotlivé pozorovania. Ak yi=1 , potom príspevok xi dvojice
(xi, yi) do vierohodnostnej funkcie je xi . Analogicky ak yi=0 , do konečnej
pravdepodobnosti sa započíta 1 −x . Teda vhodne vyjadrené
xi= xiiy [1 − xi]
1− yi (3.6)
Pretože predpokladáme, že jednotlivé pozorovania sú nezávislé, konečná združená
pravdepodobnosť pozorovania dát je daná vzťahom
L=∏i=1
n
x i∏i=1
n
x iyi [1 −x i]
1− yi (3.7)
Toto je matematické vyjadrenie vierohodnostnej funkcie v logistickom regresnom modeli.
Pri odhadovaní regresných koeficientov je jednoduchšie pracovať s prirodzeným
logaritmom vierohodnostnej funkcie
lnL=∑i=1
n
yi ln [x i ]1− yi ln [1−x i] (3.8)
Maximálny vierohodný odhad je ten, ktorý maximalizuje L (alebo ln L), teda
potrebujeme zistiť maximum tejto funkcie. Využívajú sa na to klasické metódy matematickej
51
Page 55
METODIKA
analýzy pre hľadanie extrémov funkcie.
Deriváciu lnL podľa jednotlivých členov sa položí rovná 0. Maximálne vierohodný odhad
parametru teda dostaneme riešením systému rovníc
ln L '= ∂ ln L∂1
, ∂ ln L∂2
, ... , ∂ ln L∂ p
=0 (3.9)
Tento systém sa nazýva systém logaritmických vierohodnostných rovníc.
Vektor prvých parciálnych derivácii lnL podľa jednotlivých zložiek
U x = ∂ ln L∂1
, ∂ ln L∂2
, ... , ∂ ln L∂ p
, sa nazýva skórový vektor. P x p rozmerná matica,
ktorej zložky sú záporné stredné hodnoty druhých parciálnych derivácií funkcie lnL sa nazýva
Fisherova informačná matica:
J = J ij i , j=1p=−E
∂U i ∂ j
(3.10)
Obrátená hodnota tejto matice je rozptyl
V x =J−1
Kvôli tomu, že v logistickom regresnom modeli rovnica (3.9) nie je v lineárna, je
výpočet týchto regresných parametrov náročný a vyžaduje iteratívne metódy. Jednou
z najrýchlejších a najznámejších je tzv. Newton - Raphsonova metóda. (pozri: Harrell, 2001,
s.192) . McCullah & Nelder(1983) diskutujú vo svojej knihe zovšeobecnenú váženú metódu
najmenších štvorcov.
Odhad značíme , odhad x značíme x .
2.1.4. Testovanie hypotéz o vhodnosti modelu
Keď sú regresné parametre konečne odhadnuté, zväčša nasleduje stanovenie
štatistickej významnosti buď všetkých, alebo jednotlivých vysvetľujúcich premenných
v modeli. To znamená, že si štatistik položí otázku, či daná premenná (alebo skupina k
premenných) po pridaní do modelu prinesie štatisticky významné spresnenie predpovedaných
hodnôt Y. Najlepším spôsobom ako odpovedať na túto otázku je položiť vektor regresných
52
Page 56
METODIKA
koeficientov k testovaných kovariát rovný 0. Teda testujeme nulovú hypotézu
H 0:=0 ,
kde 0 =0 , .. , p , pričom k=0 , k⊂0 , k=1.. p
Existujú tri druhy štatistických testov založených na vierohodnostnej teórii (funkcii), ktoré
sú používané v logistickej regresii:
1. „Likelihood Ratio“ Test
Tento test využíva testovú štatistiku LR, vypočítanú nasledujúcim spôsobom:
LR=−2 ln L za hypotézy H 0
L s MMV odhadom (3.11)
Položili sme teda oproti sebe alternatívu modelu bez testovaných kovariát a model úplný,
s regresnými parametrami odhadnutými metódou maximálnej vierohodnosti.
Pre dostatočne veľké n má štatistika LR približne rozdelenie 2(chí-kvadrát) so stupňami
voľnosti rovnými počtu odhadovaných parametrov. LR test sa využíva hlavne pri
testovaní hypotézy že všetky regresné koeficienty sú rovné 0 (t.j. že v modeli sa nachádza
iba absolútny člen). H0 zamietame na hladine významnosti a vtedy ak LR>2(p), kde p je
počet odhadovaných parametrov.
2. Waldov Test
Wald Test využíva tzv. Waldovu testovú štatistiku, ktorá je zovšeobecnením t- alebo
z- štatistiky. Je to funkcia rozdielu MMV odhadu a hypotetickej hodnoty regresného
parametru testovanej kovariáty, normalizovaného odhadom štandardnej odchýlky MMV
odhadu. Pre mnohonásobný logistický regresný model
W= −0’ J 0 −0 (3.12)
Táto štatistika má pre dostatočne veľké n rozdelenie 2 so stupňami voľnosti rovnými
počtu odhadovaných parametrov. Ak k=1 , potom W=k
2
V x .
53
Page 57
METODIKA
Niektorí autori (Lemeshow, Hosmer, 2003) uvádzajú ako Waldovu štatistiku tzv. t- alebo
z- štatistiku, teda druhú odmocninu z W, ktorá sa pre jednu kovariátu dá zapísať
následovne
Z= j
se j (3.13)
kde se j je štandardná odchýlka j , j=1.. n , Za hypotézy j=0 má
Z štandardné normálne rozdelenie.
3. Skórový test
Je test využívajúci skórovú funkciu U. Ak sa MMV odhad rovná hypotetickému odhadu
potom aj tento hypotetický odhad maximalizuje vierohodnostnú funkciu, a tak
U 0=0 . V testovej štatistike S je skórová funkcia normalizovaná Fisherovou
informačnou maticou J.
S=U ’ 0J−10U 0 (3.14)
Výhodou tejto štatistiky je, že nezahŕňa maximálne vierohodný odhad . Táto štatistika
má tiež pri dostatočne veľkom n asymptoticky chí-kvadrát rozdelenie s počtom stupňov
voľnosti príslušným počtu odhadovaných parametrov.
Z pohľadu štatistických vlastností je najvýhodnejšia LR štatistika, nasledovaná S a W.
Hlavný problém s W štatistikou je v odhadnutej kovariančnej matici plného modelu. Špeciálne
pre logistickú regresiu keď sú efekty v modeli silné, môžu byť odhady variancií a kovariancií
príliš veľké, čo sa prejaví v príliš malých hodnotách W (hladiny významnosti sú príliš malé).
W je tiež citlivá na spôsob, akým sa parameter prejaví v modeli. Napríkad test nulovej
hypotézy, že „log odds ratio = 0“ vedie k inej hodnote W ako test nulovej hypotézy
„odds ratio = 1“ (Harell, 2001).
W a LR vyžadujú odhad všetkých p parametrov, LR navyše opakovaný odhad
zostávajúcich q parametrov, za predpokladu, že prvých k parametrov má konkrétnu hodnotu.
Takže ak uvažujeme o skupine parametrov, LR test je jednoduchším prístupom.
Waldov test je zas veľmi jednoduchou cestou keď už boli všetky parametre odhadnuté.
Používa sa v prípade, keď chceme otestovať, či daný prediktor alebo skupina prediktorov je
54
Page 58
METODIKA
štatisticky významá.
LR test sa používa na porovnanie globálnej hypotézy, že žiadne efekty nie sú
štatisticky významné proti plnému modelu odhadnutému MMV.
S test sa používa pri zaradení dodatočných prediktorov do modelu.
2.1.5. Interpretácia parametrov logistického regresného modelu
Keď sme už odhadli model, je zaujímavé odpovedať na otázku, aký vplyv naň majú
jednotlivé premenné. Teda napríklad aký efekt má jednotková zmena hodnoty kovariáty Xj
na celkovú pravdepodobnosť Y.
Predpoklady logistického regresného modelu pochopíme jednoduchšie
transformovaním P(Y=1) na lineárny model. Vieme, že linkovaciou funkciou v logistickom
regresnom modeli je logit. Zo vzťahu (3.3) je zrejmé, že eX =x
1−x . Vzťah na
pravej strane tejto rovnice sa nazýva šanca (anglicky odds), a vyjadruje, koľkokrát je
(pri daných hodnotách kovariát x) väčšia pravdepodobnosť, že Y=1, oproti pravdepodobnosti,
že Y=0.
Za predpokladu, že model je aditívny, a teda že sa medzi prediktormi nevyskytujú žiadne
závislosti, uvažujeme pre každý prediktor Xj vzťah
logit {x / X }= j X jC , (3.15)
kde sú všetky ostatné faktory konštatné a
C=01 X 1.. j−1 X j−1 j1 X j1...k X k je tiež konštanta.
Parameter j je potom zmena logaritmu šance (log odds) s každou jednotkovou zmenou
v parametri Xj, teda
šanca {Y=1/ X }=exp j X jC=exp j X j expC (3.16)
Ak regresný parameter vyjadríme v termínoch pomeru šancí (šanca že Y=1 ak sa Xj zvýši o d,
podelená šancou v stave Xj ), dostaneme
šanca {Y=1/ X1 , X2 , ... , Xjd , ... , Xk }
šanca {Y=1/ X1 , X2 , ... , Xj , ... , Xk }= e[ j X jd ]eC
e j X j eC =e[ j X j jd− j X j]=e j d (3.17)
55
Page 59
METODIKA
2.1.6. Validácia modelu
Model sa validuje kvôli uisteniu, či ním predikované hodnoty sú schopné dosť presne
predpovedať skutočné odpovede budúcich subjektov alebo subjektov, ktoré neboli použité
na vytvorenie modelu. To znamená, že sa testuje na dátach, z ktorých nebol vytvorený.
Validáciu rozoznávame externú a internú. Externá validácia zahŕňa testovanie koncového
modelu buď na dátach z inej geografickej oblasti, alebo sa model vytvorí na m dátach
z pôvodného súboru a potom sa otestuje na zvyšných n-m dátach. Interná validácia znamená
vytvorenie a validáciu modelu s použitím tej istej množiny dát. 3 najbežnejšie používané
metódy internej validácie sú : tzv. „data-splitting“, cross validácia a bootstrap. Harrell (2001)
uvádza, že bootstrap dáva najpresnejšie odhady štatistík určujúcich presnosť modelu, ako
napríklad R2, index prediktívnej schopnosti modelu, index diskriminácie D, a podobne.
Data splitting je najjednoduchšiou metódou validácie, kedy je dátový súbor rozdelený
na trénovacie a testovacie vzorky náhodným výberom. Cross validácia je zovšeobecnením
data-splittingu, a rieši niektoré jeho problémy. Sú vynechané skupiny k pozorovaní a ich
odpovede sú predikované za použitia modelu vytvoreného zo zbytkových n-k pozorovaní.
Tento proces sa opakuje n-krát a získa sa tak priemerná presnosť. Bootstrap metóda využíva
vytváranie testovacích množín metódu prevzorkovania na základe výberu s vrátením. Týmto
spôsobom sa z pôvodnej množiny o veľkosti n vytvorí nová množina tiež o veľkosti n. Z tej sa
potom vytvorí model a aplikuje sa na pôvodné dáta. Index presnosti z bootstrapovej vzorky
mínus index vypočítaný z originálnej vzorky dáva odhad tzv. „optimizmu“. Tento proces sa
opakuje k krát (čím viac, tým lepšie, odporúča sa 100 a viac), a získa sa priemerný
optimizmus, ktorý sa odpočíta od presnosti finálneho modelu aby sa získal upravený odhad.
2.1.6.1. Štatistiky prediktívnej schopnosti modelu
Testové štatistiky, o ktorých sme hovorili v kapitole 2.1.4 nám dovoľujú otestovať, či faktor
alebo množina faktorov súvisí s odpoveďou. Štatistiky prediktívnej schopnosti modelu, ktoré
budem používať sú nasledujúce
1. Generalizovaný index R2N: RN
2 =1−e−LR
n
1−e−L0
n
, kde LR je „likelihood ratio“ štatistika pre
testovanie dôležitosti všetkých p prediktorov v modeli a L0 je -2 log vierohodnosť
nulového modelu. Slúži na kvantifikáciu prediktívnej sily modelu (Nagelkerke, 1991).
56
Page 60
METODIKA
2. Plocha pod ROC krivkou C
3. Somerova Dxy poradová korelácia medzi predikovanými a pozorovanými odpoveďami,
definovaná vzťahom: D xy=2 c−0.5. Ak Dxy =0, model predikuje náhodne. Ak
Dxy = 1, predikované hodnoty perfektne diskriminujú.
Pre binárny logistický regresný model sa väčšinou vytvorí nový model na novej
vzorke, pre odhad vzťahu medzi predikovanou pravdepodobnosťou a pozorovanou
odpoveďou v tejto vzorke. Dostáva sa tak jednoduchá kalibračná rovnica:
Pc=Psť {Y=1/ X }=[1e−01 X ]−1 , (3.18)
kde Pc označuje aktuálnu kalibrovanú pravdepodobnosť a originálna predikovanú
pravdepodobnosť je P=[1e−X ]−1 . U originálneho vzorku bude dvojica
0, 1 =0,1 , pretože model bol vytvorený práve na ňom. Jednoduchým indexom
nespoľahlivosti je index Emax: Emax 0,1= maxa≤ P≤b
∣ P− P c∣, je to maximálna chyba
v predikovaných pravdepodobnostiach v rozsahu <a,b>.
2.2. Chýbajúce hodnoty
Vo väčšine datových súborov sa z rôznych dôvodov vyskytujú chýbajúce hodnoty.
Väčšinou je zvykom prípady, ktoré ich obsahujú vyradiť zo súboru, čo však v prípade regresie
môže viesť k zníženiu diskriminačnej schopnosti modelu. Napríklad pacienti v horšom stave,
u ktorých nebolo možné vykonať vyšetrenie (či už z dôvodu úmrtia alebo vážnosti stavu),
majú chýbajúce hodnoty vyšetrenia, ale napriek tomu môžu prinášať dôležitu informáciu,
obzvlášť ak ich stav súvisí s odhadovanou premennou Y.
Je takmer vždy lepšie chýbajúce hodnoty odhadnúť. Model potom nie je tak
podhodnotený. S vyradením prípadov sa znižuje veľkosť vzorky a tým sa zvyšuje štandardná
chyba a rozširuje interval spoľahlivosti.
Existuje niekoľko spôsobov odhadovania chýbajúcich hodnôt.
Najjednoduchší spôsob je nahradiť chýbajúce hodnoty priemerom alebo mediánom.
57
Page 61
METODIKA
Štatisticky výhodnejšie však je odhadnúť Xj na základe ostatným premenných a to buď
jednoducho analýzou vzťahov medzi samotnými kovariátami, alebo navyše s pomocou Y,
odhadnutím Xj pomocou regresného modelu, kde sa závislou premennou stáva práve Xj. Ak
odhadovaná premenná Xj , ktorá v niektorých prípadoch chýba, bude prediktorom Y, potom
ignorovanie závislosti Y a Xj bude viesť k vychýleniu odhadu regresných koeficientov pre Xj
smerom k nule (Harell, 2001).
Pri odhadovaní chýbajúcej hodnoty môžeme odhadnúť nielen jedinú hodnotu, ale
viacero. Podľa toho rozlišujeme jednoduchú a mnohonásobnú imputáciu (single a multiple
imuptation). Mnohonásobná imputácia sa všeobecne považuje za lepšiu metódou
pre imputáciu ako jednoduchá
V skratke sa dá povedať, že platia tieto pravidlá:
– pre odhad Xj, ktorá nemá vzťah k ostatným kovariátam sa používa priemer alebo medián
bez významnej straty výdatnosti
– v prípade existujúceho vzťahu medzi Xj a premennými, je lepšie pre každé Xj použiť
pre odhad individuálny predikčný model založený na ostatných premenných
– metóda „najlepšieho odhadu (best guess)“ dopĺňa chýbajúce hodnoty predikovanými
očakávanými hodnotami používajúc mnohorozmerný model imputácie založený
na nechýbajúcich dátach
Viac o jednotlivých algoritmoch odhadov chýbajúcich hodnôt viď. Harell (2001),
str. 44-50.
2.3. R plus
Pre výpočty logistickej regresie bol použitý voľne dostupný štatistický software R plus
(R Developement Core Team, 2003), s prídatnými knižnicami Design, Hmisc, boot a logistf.
Jednotlivé kroky a algoritmy použitých funkcií opisujem podrobne v nasledujúcich bodoch.
1. Chýbajúce hodnoty som odhadla funkciou aregImpute z knižnice Hmisc:
> odhad<-aregImpute(formula, data, n.impute=100)
58
Page 62
METODIKA
kde formula = vzťah obsahujúci premenné, ktoré chcem odhadovať a premenné pomocou
ktorých chcem odhadovať (v tvare „~Y+X1+X2+...+Xk“)
n.impute = počet imputácií (odporúča sa 5 až 10, viac nezaškodí)
Princíp: Funkcia aregImpute používa metódu bootstrap na aproximáciu procesu výberu
predikovaných hodnôt z plnej Bayesovskej prediktívnej distribúcie. V každej
z mnohonásobných imputácií je použité iné bootstrapové prevzorkovanie. Teda pre i-tú
imputáciu chýbajúcej kovariáty (kde i=1,2,...,n.impute) je na novej vzorke (vytvorenej
výberom s vracaním z pôvodnej vzorky) navrhnutý flexibilný aditívny model. Tento model
je použitý na predikciu všetkých pôvodných chýbajúcich i nechýbajúcich hodnôt pre
cieľovú premennú.
AregImpute na odhadnutie modelu používa dve metódy: 'ace' a 'avas'. V prípade, že
nie je špecifikovaná transformácia ako identita, tieto metódy nájdu transformácie cieľovej
premennej a všetkých prediktorov tak, aby za predpokladu aditivity získali dobrý odhad.
'ace' metóda maximalizuje R2 a 'avas' sa snaží maximalizovať R2 stabilizovaním rozptylu
reziduí. V prípade predikcie kategorickej premennej sa používa len metóda 'ace'.
Pre spojité premenné sú predpokladané monotonické transformácie cieľovej premennej
a používa sa metóda 'avas'.
Algoritmus :
(1) Pre každú premennú obsahujúcu m chýbajúcich hodnôt (ďalej označovaných NA), ak
m>0, nahraď NA hodnotami z náhodného výberu (bez vracania ak existuje dostatočné
množstvo nechýbajúcich hodnôt) veľkosti m z nechýbajúcich hodnôt pôvodnej vzorky.
(2) Pre 3+n.impute iterácií urob nasledujúce kroky:
Prvé tri iterácie poskytujú len vstupnú informáciu,teda imputácie ulož len pre posledných
n.impute iterácií.
(3) Pre každú premennú, ktorá obsahuje nejaké NA, urob výberom (s vracaním) z prípadov
z celého datového súboru, v ktorých odhadovaná premenná nechýba novú vzorku. Navrhni
flexibilný aditívny model na predikciu cieľovej premennej, hľadaním jej optimálnej
transformácie (ak nie je zvolená identita) Použi tento navrhnutý semiparametrický model
na predikciu cieľovej premennej vo všetkých pôvodných pozorovaniach. Doplň každú
chýbajúcu hodnotu odhadovanej premennej takou pozorovanou hodnotou, ktorej
predikovaná transformovaná hodnota je najbližšia predikovanej transformovanej hodnote
59
Page 63
METODIKA
chýbajúcej hodnoty (ak „match=closest“). Prípadne použi výber z multinomického
rozloženia s pravdepodobnosťami odvodenými od vážených vzdialeností (ak „match =
weighted“)
(4) Po vypočítaní imputácií, použi tieto imputácie náhodného výberu v prípade, že terajšia
cieľová premenná bude použitá ako prediktor ostatných občas chýbajúcich premenných
2. Odhad logistického regresného modelu som vytvorila pomocou funkcií fit.mult.impute
a lrm z knižnice Design.
> fit<-lrm(y~x1+x2+...+xp, data, x=TRUE, y=TRUE)
kde y predstavovalo prítomnosť delecie 22q11.2 a x1,...,xp jednotlivé prediktory,
v závislosti od modelu.
Princíp: lrm funkcia odhaduje binárny a ordinálny logistický model, za použitia metódy
maximálnej virohodnosti alebo penalizovanej maximálnej vierohodnosti.
> model.mi <- fit.mult.impute(y~x1+x2+...+xp, lrm, odhad, data,
fit.reps=TRUE)
Princíp: fit.mult.impute je funkcia, ktorá za pomoci lrm funkcie a na základe imputácií
doplnených funkciou aregImpute odhaduje n.impute modelov, z ktorých urobí priemerný
model, ktorý je jej výstupom.
Výstupmi obidvoch funkcií sú okrem odhadov regresných koeficientov aj:
$ stats
- maximálna absolútna hodnota prvej derivácie lnL
- chi-square vierohodnostného pomeru daného modelu
- P-hodnota, C index (plocha pod ROC krivkou), Somerovo Dxy,
-Goodman-Kruskalova gamma, Kendallove tau-a rank korelácie medzi predikovanými
pravdepodobnosťami a pozorovanými odpoveďami
- Nagelkerkeho R^2 index, a Brierovo skóre vypočítané s ohľadom na Y > jeho
najnižšia hladina. $ deviance
-2 log vierohodnosti (v prípade modelu s offset množinou, obsahuje -2lnL modelu
60
Page 64
METODIKA
intercept+offset, modelu len s interceptom a modelu intercept+offset+prediktory)
$ var
- odhadnutá kovariančná matica
Modely som najprv odhadovala s použitím funkcie fit.mult.impute. Pomocou takto
vytvorených modelov som vytvorila finálny model.
Keďže výstupom funkcie fit.mult.impute je model, ktorý je priemerom všetkých modelov,
ktoré táto funkcia vytvorí na n.impute doplnených dátových maticiach, nedá sa použiť
na validáciu ani na výpočet konkrétnych hodnôt z nášho dátového súboru (neexistuje
priemerná matica doplnených hodnôt). Ako odhad charakteristík takto vytvoreného modelu
som použila vždy priemer z jednotlivých charakteristík všetkých fitovaných modelov fit1$fits
[[2]]$stats (v prípade fit.reps=TRUE).
Pre validáciu modelu a výpočet cutoff levelu som preto použila datový súbor s dátami
doplnenými tak, že z n.impute imputácií som vybrala ako odhad chýbajúcej hodnoty vždy
modus pre konkrétnu premennú a konkrétny prípad. Takto doplnenú maticu dát budem
nazývať modálna matica.
3. Model som testovala za použitia funkcie validate.lrm z balíku Design
> validacia<-validate.lrm(model)
Funkcia validate.lrm validuje logistický regresný model s alebo bez backward step-down
delecie. Výstupom sú štatistiky originálneho, trénovacieho, testovacieho súboru,
optimizmus a optimizmom korigované hodnoty štatistík. A to Somerovej D_{xy}
poradovej korelácie, R2N indexu, indexov g0 ag1 celkovej logistickej kalibračnej rovnice
a maximálnej absolútnej diferencie medzi predikovanými a kalibrovanými
pravdepodobnosťami E_{max}.
Ako metódu validácie som použila bootstrap s počtom výberov 1000.
4. Predikované pravdepodobnosti som získala pomocou funkcie predict:
> phat <-predict(model, type='fitted')
5. Interval spoľahlivosti pre plochu pod krivkou som vypočítala pomocou metódy bootstrap.
61
Page 65
METODIKA
Ako hornú a dolnú hranicu intervalu spoľahlivosti som použila 2,5% a 97,5% kvantil z
rozloženia, ktoré som touto metódou dostala.
6. Pre výpočet intevalov spoľahlivosti jednotlivých špecificít a senzitivít som použila funkciu
binconf.
62
Page 66
IV. VÝSLEDKY
1. Optimalizácia spôsobu vyhodnocovania mikroskopických preparátov
1.1. Štatistický test pre overenie presnosti hodnoteniacytogenetických preparátov medzi jednotlivýmipracovníkmi
1.1.1. Dátový súbor
V metodickej časti uvažované štatistické testy som sa pokúsila aplikovať
na otestovanie hodnotenia preparátov stávajúcimi pracovníkmi cytogenetického laboratória,
a to konkrétne preparátov ES-FISH aplikovanej na detekciu Ph chromozómu u pacientov
s očakávanou CML, za použitia sondy Vysis LSI BCR/ABL ES Dual Color Translocation
Probe.
Test pre porovnávanie pracovníkov je založený na párovom experimente, preto
preparáty vo vzorke pre tento účel boli spočítané nasledujúcim spôsobom:
1. každý preparát hodnotili buď dvaja alebo všetci traja pracovníci, pričom navzájom
nepoznali svoje výsledky
2. na slíčku bolo hodnotených dokopy 200 buniek, z troch rôznych sektorov
3. z týchto boli stanovené percentá pozitívnych buniek
Týmto spôsobom sme získali 32 pozorovaní. Získané dáta sú zobrazuje Tabuľka 3.
63
Page 67
VÝSLEDKY
Tabuľka 3: Dáta z párového experimentu pre test presnosti hodnotenia preparátov
č.
% pozitívnych buniek
Pracovník 1 Pracovník 2 Pracovník 3č.
% pozitívnych buniek
Pracovník 1 Pracovník 2 Pracovník 3
1 0,00% 0,00% 0,00% 17 76,00% 82,00% -
2 0,00% 0,00% 0,00% 18 77,50% - 90,00%
3 2,00% 1,00% 2,50% 19 78,50% 74,00% -
4 89,00% 94,00% 92,00% 20 93,00% 94,00% 98,00%
5 0,00% 0,00% 0,00% 21 - 92,50% 94,00%
6 0,00% - 0,00% 22 87,50% 90,50% 95,00%
7 1,00% - 0,00% 23 - 91,00% 91,50%
8 1,00% 0,00% 0,00% 24 - 47,00% 51,00%
9 1,00% 0,00% 0,00% 25 - 0,00% 1,00%
10 1,50% - 1,00% 26 13,00% 8,00% -
11 9,00% 1,00% 7,00% 27 3,00% 3,00% -
12 11,00% 10,00% 11,00% 28 0,00% 0,00% 0,00%
13 20,00% 15,50% 22,00% 29 0,00% 0,50% 0,00%
14 20,00% 27,50% - 30 3,00% 3,00% -
15 69,00% 60,00% 76,00% 31 16,00% 14,00% -
16 74,50% 80,00% 86,00% 32 0,00% 0,00% 1,00%
1.1.2. Popisná štatistika
Tabuľka 4: Popisná štatistika súboru pre test presnosti hodnotenia preparátov
Percentá pozitívnych buniek jednotlivých preparátov podľa jednotlivých pracovníkov sú
znázornené na nasledujúcom grafe.
64
Popisné štatistiky (Test laborantov)
PremennáN Medián Modus Četnost
moduMin Max Spodní
kvartilHorníkvartil
Sm. odch.
lab1lab2lab3
28 0,060 0,00 7 0,00 0,930 0,005 0,718 0,35503528 0,090 0,00 8 0,00 0,940 0,000 0,770 0,38629925 0,025 0,00 9 0,00 0,980 0,000 0,850 0,412605
Page 68
VÝSLEDKY
Graf 5: Bodový graf znázorňujúci percentá pozitívnych buniek jednotlivých preparátov podľajednotlivých pracovníkov
1.1.3. Výsledky testovania
Najprv som na overenie prípadnej odlišnosti v počítaní použila binomický test, ktorý
využíva priamu informáciu o počte pozitívnych buniek, v ktorých sa jednotliví pracovníci
odlišujú. Binomický testom môžeme overiť, či sa daní pracovníci odlišujú o menej ako k%.
V praxi sa všeobecne hovorí, že pracovníci laboratória by sa nemali na jednotlivých
preparátoch líšiť o viac ako 5%. Z matematického hľadiska teda overujeme hypotézu že p1
nášho binomického rozloženia >= p0 hypotetického binomického rozloženia Bi(n,p0), kde
p0=0.05. Dvaja pracovníci spočítali spoločne k preparátov. Ak spočítame všetkých
k rozdielov (vyjadríme to v počte buniek o ktoré sa dohromady líšia) a podelíme ich počtom
počítaných buniek n (n=k*200), dostaneme odhad p1.
Pre binomický test (výsledky viď. Tabuľka 5)som použila program R plus (R Developement
Core Team, 2003 ).
Tabuľka 5: Výsledky binomického testu.
pracovnícipočet
úspechov
početpreparátov
početbuniek π1 P testu výsledok
1 & 2 131 24 4800 0,027 2,63E-15 na hladine α zamietame H0
2 & 3 114 21 4200 0,027 9,06E-14 na hladine α zamietame H0
1 & 3 101 21 4200 0,024 < 2,2E-16 na hladine α zamietame H0
65
Bodový graf
pr1 pr2 pr30 5 10 15 20 25 30 35
poradové číslo
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
Per
cent
o po
zitív
nych
bun
iek
Page 69
VÝSLEDKY
Ako vidíme, tento test nepreukázal na hladine významnosti 0,05 rozdiel medzi žiadnou
z dvojíc. Vo všetkých troch prípadoch zamietame hypotézu že hodnota p1 je väčšia ako 0,05
v prospech alternatívnej hypotézy: skutočná pravdepodobnosť p1 je nižšia ako 0,05.
Ďalej som otestovala pracovníkov nasledujúcimi testami. Všetkých testovaných pracovníkov
dokopy Friedmanovou ANOVOU a potom každú dvojicu zvlášť Wilcoxonovým párovým
testom. Výsledky viď nasledujúce tabuľky.
Tabuľka 6: Výstup z programu STATISTICA, Friedmanova ANOVA pre porovnanie všetkých troch
pracovníkov.
Tabuľka 7: Výstup z programu STATISTICA, Wilcoxonov párový test porovnávajúci dvojice pracovníkov
Vidíme, že Friedmanov test nepreukázal odlišnosť, zatiaľčo Wilcoxonov párový test
preukázal (možno aj vzhľadom k ďalším zahrnutým pozorovaniam) rozdiel medzi
pracovníkmi 2 a 3.
1.1.4. Odporúčaný postup pre testovanie pracovníkov
Pri testovaní pracovníkov je potrebné stanoviť experiment ako párový, takže testované
preparáty by mali byť spočítané všetkými alebo aspoň dvoma testovanými pracovníkmi.
Binomický test je dobrý z toho hľadiska, že využíva inú informáciu ako ostatné uvažované
testy. Hlavne teda priamu informáciu o počte buniek v rozdieloch. Na druhú stranu neuvažuje
možnú variabilitu vnútri súboru preparátov. Naopak s touto variabilitou počíta Friedmanova
ANOVA, ktorou sa dá porovnávať viac pracovníkov naraz. Testuje, či sú dané výbery
z rovnakého rozdelenia, avšak zasa nevyužíva informáciu o počte buniek. Wilcoxonov test,
66
Friedmanova ANOVA a Kendallov koeficient zhodyANOVA chí-kv. (N = 17, sv = 2) = 2,425532 p < ,29737Koeficient zhody = ,07134 priem. poradie r = ,01330
PremennáPriemerné
poradieSúčetporadí
Priemer Sm.Odch.
123
1,970588 33,50 0,268829 0,3779861,794118 30,50 0,262647 0,3911332,235294 38,00 0,282647 0,399571
Wilcoxonov párový testOznačené testy sú významné na hladine p <,05000
Dvojica laborantovPočet
platnýchT Z Úroveň p
1 & 22 & 31 & 3
24 65 0,54 0,586221 20 2,27 0,023121 32 1,32 0,1874
Page 70
VÝSLEDKY
ktorý testuje podobne ako binomický len dvojicu pracovníkov, môže byť použitý, ak vyjde
Friedmanov test významne, na zistenie, ktorá z dvojíc sa líši. Keďže ale rovnako ako
Friedmanov test nevyužíva priamu informáciu o počte buniek, je vhodné použiť kombináciu
2 vyššie uvedených testov a to binomického a Friedmanovho. Metodika testovania zhody
pracovníkov teda môže obsahovať nasledujúce testy v uvedenom poradí:
i) Friedmanov test – ak n≥3 pre otestovanie n pracovníkov
ii) Binomický test – pokiaľ n=2
- v prípade zamietnutia hypotézy Friedmanovým testom môže určiť
dvojicu ktorá sa odlišuje, alebo nepotvrdiť zamietnutie hypotézy
– v prípade nezamietnutia hypotézy Friedmanovým testom spresňuje
výsledok (Friedman nemusel mať dostatok dát)
Ak obidva testy nepotvrdia odlišnosť, pracovníci sa nelíšia. Ak nepotvrdí zhodu aspoň jeden
z nich, je potrebná buď väčšia vzorka (Friedmanov test), alebo sa pracovníci naozaj líšia
(Friedman, binomický test).
1.2. Výpočet deliacej hranice pre ES-FISH aplikovanú na
detekciu Ph chormozómu u pacientov s očakávanou
CML
1.2.1. Dátový súbor pre výpočet deliacej hranice
Pretože ES-FISH je metóda s vysokou presnosťou (od výrobcu 98%), pri výpočte
veľkosti vzorky som vzhľadom k možnej odchýlke od skutočnosti spôsobenej inými faktormi
predpokladala diskriminačnú schopnosť (A) okolo 90% (A=0,9). Na základe vzťahu (0.0)
som vypočítala z očakávanej smerodatnej odchýlky SE(A) veľkosť vzorky pre experiment.
Pri n=40 (nA=20, nN=20) vychádzala smerodatná odchýlka dostatočne malá SE(A) = 0.051.
Preto, ale aj pre nedostatok zdravej kostnej drene bola stanovená veľkosť vzorky na 20+20.
67
Page 71
VÝSLEDKY
Tabuľka 8: Súbor dát pre stanovenie deliacej hranice (cutoff levelu) pre ES-FISH aplikovanúna detekciu Ph chromozómu u pacientov s očakávanou CML.
Legenda: pozn. ~ znamená overenie skutočnosti: PCR ~ overené PCR, Kon. ~ kontrolná vzorka, pred.~ predpoklad.
č.vz. %pozit. b. skutočnosť pozn. č.vz. %pozit. b. skutočnosť pozn.
1 0,0% 0 PCR 21 1,00% 1 PCR
2 0,0% 0 PCR 22 2,00% 1 PCR
3 0,0% 0 PCR 23 2,00% 1 PCR
4 0,0% 0 PCR 24 11,00% 1 PCR
5 0,0% 0 Kon. 25 16,00% 1 PCR
6 0,0% 0 Kon. 26 13,00% 1 PCR
7 0,0% 0 Kon. 27 27,50% 1 Pred.
8 0,0% 0 Kon. 28 32,00% 1 Pred.
9 0,00% 0 Kon. 29 40,00% 1 Pred.
10 0,00% 0 Kon. 30 51,00% 1 Pred.
11 0,00% 0 Kon. 31 74,00% 1 Pred.
12 0,50% 0 Kon. 32 76,00% 1 Pred.
13 0,50% 0 Kon. 33 82,00% 1 Pred.
14 0,50% 0 PCR 34 82,00% 1 Pred.
15 1,00% 0 Kon. 35 83,00% 1 Pred.
16 1,50% 0 PCR 36 86,00% 1 Pred.
17 2,00% 0 PCR 37 90,50% 1 Pred.
18 3,00% 0 Kon. 38 91,50% 1 Pred.
19 3,50% 0 PCR 39 94,00% 1 Pred.
20 0,0% 1 PCR 40 98,00% 1 Pred.
Súbor dát (Tabuľka 8) sa teda skladal zo 40 vzoriek kostnej drene, ktoré boli pomocou
ES-FISH vyšetrené na prítomnosť Ph chromozómu. Každá KD pochádzala od iného pacienta.
19 vzoriek bolo negatívnych, a 21 pozitívnych.
Vzorky počítali tri pracovníčky OLG (predtým otestované na zhodu v počítaní Friedmanovým
a binomickým testom) a to nasledovným postupom:
1) na každom sklíčku bolo z 3 odlišných sektorov spočítaných dokopy 200 hodnotiteľných
buniek,
2) z nich bol stanovený podiel pozitívnych buniek, vyjadrený v percentách
3) u pacientov s nízkymi alebo nulovými hodnotami pozitívnych buniek (0-10%) sa diagnóza
upresňovala kvalitatívnou a kvantitatívnou PCR. Tí, ktorí mali výsledok negatívny boli
zaradení do negatívnej skupiny. Väčšinou sa jednalo o pacientov ktorých KD bola poslaná
na vylúčenie diagnózy
68
Page 72
VÝSLEDKY
4) negativita kontrolných vzoriek tak bola potvrdená kvalitatívnou a kvantitatívnou Real-time
PCR u 8 prípadov, u 12 prípadov sa jednalo o KD jedincov s u ktorých prítomnosť
Ph chromozómu nebola predpokladaná, a mali zároveň normálny karyotyp
5) do pozitívnej skupiny boli zaradení jedinci s nízkou pozitivitou FISH, ale s pozitívnou
Real-time PCR (väčšinou pacienti v terapii), a pacienti s vysokými percentami (>20%)
pozitívnych buniek.
1.2.2. Popisná štatistika
Popisnú štatistiku (Tabuľka 9) som spracovala v programe STATISTICA. Histogram
četností percent pozitívnych buniek v pozitívnej a negatívnej skupine zobrazuje Graf 6.
Tabuľka 9: Popisná štatistika súboru pre stanovenie deliacej hranice
Graf 6: Histogram četností percent pozitívnych buniek datového súboru pre stanovenie deliacejhranice
69
Popisné štatistiky
% poz. bun.N Medián Modus Četnost
moduMin Max Spodní
kvartilHorníkvartil
Rozptyl Sm. odch.
negatívnipozitívni
19 0,00 0,00 11 0,00 0,035 0,000 0,010 0,000126 0,01120621 0,510 0,82 2 0,00 0,980 0,160 0,830 0,131749 0,362972
Histogram (stanovenie cutoff levelu)
negatívna skupina pozitívna skupina-0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
% pozitívnych buniek
0
2
4
6
8
10
12
Poče
t poz
orov
aní
Page 73
VÝSLEDKY
1.2.3. Stanovenie deliacej hranice pomocou ROC analýzy
Pre ROC analýzu som použila software MedCalc. Graf som vypracovala s použitím
softwaru STATISTICA. Výsledky ROC analýzy viď Tabuľka 10, Príloha 6. ROC krivka je
znázornená na grafe 7.
Z výsledkov Tabuľky 10 je viditeľné, že deliaca hranica na hladine 3,5% má najvyššiu
mieru špecificity (TNF). Noví pacienti s Ph chromozómom majú na začiatku diagnózy %
pozitívnych buniek veľmi vysoké (90-100%). Pozitívni pacienti s veľmi nízkymi percentami
pozitívnych buniek sú prevažne pacienti v liečení, u ktorých sa nedostavila kompletná
remisia po terapii, a pretrváva u nich reziduálna choroba. Títo pacienti sú však permanentne
pod dohľadom lekárov, a ich kostná dreň je posielaná na vyšetrenia pravidelne. Keď
označíme takéhoto pacienta pomocou stanovenej deliacej hranice za negatívneho, prípadný
relaps (v ktorom sa objavujú omnoho vyššie percentá pozitívnych buniek) sa teda u nich
zachytí pri nasledujúcom vyšetrení.
Naopak označenie zdravého pacienta za pozitívneho má istotne nepríjemnejšie
následky, aj napriek tomu, že sú percentá nízke. Pre pacienta to môže znamenať podstúpenie
ďalších zbytočných vyšetrení a opakovaný odber kostnej drene pre overenie diagnózy.
Z tohoto hľadiska je teda lepšie stanoviť striktnejšiu deliacu hranicu ktorá minimalizuje
falošne pozitívny podiel a teda maximalizuje percento správne zaradených negatívnych
pacientov (špecificitu).
70
ROC krivka (ES-FISH)
0 20 40 60 80 100
100 - Špecificita
0
20
40
60
80
100
Sen
zitiv
ita
Graf 7: ROC krivka pre ES-FISH aplikovanúna detekciu Ph chromozómu u pacientovs očakávanou CML.
Page 74
VÝSLEDKY
Index plochy pod krivkou (Graf 7) vyjadrujúci diagnostickú presnosť testu má hodnotu
0.94, čo znamená, že presnosť ES-FISH aplikovanej na Ph preparáty je pre dané laboratórium
94 % (95%IS: 85,2%; 99,75%). Inak povedané, pravdepodobnosť, že v náhodne vybranej
dvojici (Ph-, Ph+) určí táto metóda obidve správne je až 94%. Ešte z iného pohľadu to
znamená, že pozitívni pacienti majú v 94 % prípadov vyššie počty pozitívnych buniek ako
negatívni. Smerodatná odchýlka je 0,036. S deliacou hranicou 3,5% je u tohto testovacieho
súboru zaradených správne až 100% negatívnych pacientov, a 81 % pozitívnych pacientov.
71
Page 75
VÝSLEDKY
2. Predikčná analýza pacientov s fenotypovými
prejavmi del22q11 pomocou logistickej regresie
V druhej časti diplomovej práce som sa snažila zefektívniť molekulárne cytogenetické
vyšetrenia pacientov s klinickými prejavmi mikrodelecie 22q11.2, a to určením
najvýznamnejších fenotypových prejavov ktoré sa podieľajú na predikcii prítomnosti tejto
mikrodelecie. Pre predikčnú analýzu som použila logistickú regresiu a ROC analýzu.
Výsledky popisujem v nasledujúcich kapitolách.
2.1. Dátový súbor
Súbor dát sa skladal z pacientov vyšetrených na prítomnosť mikrodelecie 22q11.2
na OLG FN Brno v rokoch 1997-2004. Z celkového počtu vyšetrených 351 pacientov,
podozrivých na prítomnosť delecie 22q11.2 na základe klinických príznakov, z ktorých
u 20-tich (6%) bola táto mikrodelecia potvrdená, bolo zaradených do analýzy 186.
Zo zvyšných 165 pacientov bolo 155 vyradených z dôvodu nedostatku informácií (pacienti
z iných okresov bez zdravotnej dokumentácie, prípadne UPT) a 10 z dôvodu prítomnosti
iných chromozómových aberácií podmieňujúcich fenotyp (+21, rôzne prestavby).
U zaradených pacientov boli sledované najtypickejšie fenotypové prejavy charakteristické pre
syndróm CATCH22, ako vrodené srdcové vady, palatálne abnormality, imunodeficiencia,
hypokalcémia, psychomotorická retardácia, stigmatizácia a podobne.
2.2. Popisná štatistika
Výsledky popisnej štatistiky spracovanej v programe STATISTICA zobrazuje Tabuľka 11.
2.3. Výsledky
Do logistickej regresie som z potenciálnych prediktorov na začiatok vybrala tie
fenotypové prejavy, ktoré sú pre del22q11 najcharakteristickejšie. Závislá premenná Y
predstavovala prítomnosť mikrodelecie 22q11.2 (1-delecia, 0-normálny karyotyp). Kovariáty
boli kódované 0 a 1, pričom 1- znamená prítomnosť fenotypového prejavu a 0 – zas jeho
neprítomnosť :
72
Page 76
VÝSLEDKY
Tabuľka 11: Popisné štatistiky dátového súboru pacientov vyšetrených na deleciu 22q11 pre logistickúregresiu.
X1 – Konotrunkálna malformácia (Konotr) (0 – prítomnosť inej srdečnej vady, alebo
neprítomnosť žiadnej VSV; 1– jedna z nasledujúcich konotrunkálnych malformácií: FAT –
fallotova tetralógia, DPK – dvojvýtkoá pravá komora, PA+DKS – pulmonálna atrézia
s defektom komorového septa, TAC – spoločný arteriálny trunkus, IAO – interupcia
aortálneho oblúka)
X2 – Imunodeficiencia (ID) (1- v prípade prítomnosti aspoň jedného z nasledujúcich prejavov:
znížené počty T-lymfocytov, znížené hladiny imunoglobulínov, časté infekcie, 0-naopak)
X3 - Palatálna abnormalita (palatal) (0 – neprítomnosť; 1- prítomnosť aspoň jedného
z nasledujúcich prejavov: rázštep podnebia, porucha reči; kongenitálny stridor)
X4 – PMR (PMR) (1- v prípade psychomotorickej alebo mentálnej retardácie; 0- PMR vývin
73
Popisné štatistiky
PremennáN platných Medián Modus Četnosť
móduSúčet Min Max pozn.
delstigmociusiustacelonosbradakrkhlavaVCCKonotrFATIAOTACDPKTVCSPPADKSMAPCADKSCoAspokomMATAVTRANMADSSHLSHAOSAPRAOPluHypImunohypokPMR
185 0 0 165 20 0 1 delecia 22q11179 1 1 91 91 0 1 stigmatá177 0 0 124 53 0 1 stigmatizované oči177 0 0 130 47 0 1 stigmatizované uši177 0 0 150 27 0 1 stigmatizované ústa177 0 0 161 16 0 1 stigmatizované čelo177 0 0 142 35 0 1 stigmatizovaný nos177 0 0 159 18 0 1 stigmatizovaná brada177 0 0 162 15 0 1 stigmatizovaný krk177 0 0 162 15 0 1 stigmatizovaná hlava185 1 1 179 179 0 1 vrodená srdcová vada185 0 0 137 48 0 1 konotrunkálna malformácia185 0 0 160 25 0 1 Fallotova tetralógia185 0 0 179 6 0 1 Inerupcia aortálneho oblúku185 0 0 181 4 0 1 spoločný arteriálny trunkus185 0 0 179 6 0 1 dvojvýtoková pravá komora185 0 0 164 21 0 1 transpozícia veľkých ciev185 0 0 167 18 0 1 stenóza plúcnice185 0 0 178 7 0 1 pulmonálna atrézia s defektom komorového septa185 0 0 181 4 0 1 hlavné aortopulmonálne korateláry185 0 0 134 51 0 1 defekt komorového septa185 0 0 172 13 0 1 Koarktácia aorty185 0 0 178 7 0 1 spoločná komora185 0 0 183 2 0 1 mitrálna atrézia185 0 0 172 13 0 1 defekt atrioventrikulárneho septa185 0 0 184 1 0 1 trikuspidálna anomália185 0 0 181 4 0 1 mitrálna atrézia185 0 0 165 20 0 1 defekt sieňového septa185 0 0 175 10 0 1 hypoplázia ľavého srdca185 0 0 184 1 0 1 hypoplázia aortálneho oblúka185 0 0 173 12 0 1 aortálna stenóza185 0 0 182 3 0 1 pravostranný aortálny oblúk185 0 0 180 5 0 1 pľúcna hypertenzia162 0 0 143 19 0 1 imunodeficiencia158 0 0 145 13 0 1 hypokalcémia alebo skolióza172 0 0 150 22 0 1 psychomotorická alebo mentálna retardácia
Page 77
VÝSLEDKY
v norme)
X5 - hypokalcémia (hypok) (1-v prípade prítomnosti aspoň jedného z nasledujúcich prejavov:
novorodenecké hypokalcemické kŕče, nízke hladiny Ca++ a Ca v sére, skolióza; 0 – naopak)
X6 - stigmatizácia (stigm)
Zo stigmatizácie boli daľej vybrané:
X7 – stigmatizácia očí (oci) (1- v prípade akejkoľvek stigmatizácie očí - hypertelorizmus,
hypotelorizmus, epicanthy, mongoloidné-antimongoloidné postavenie očných štrbín, 0- bez
stigmatizácie)
X8 – uši (usi) (1- zahŕňa: dysplastické, nízkoposadené, malé alebo príliš veľké ušné boltce,
alebo inú stigmatizáciu uší; 0- bez stigmatizácie)
X9 – krk (krk) (1- krátky krk alebo pterygium coli, 0 - naopak)
X10 – anomálne ryhy na ploskách (anryh) (1- prítomnosť; 0-neprítomnosť)
Ako som už spomínala, logistický regresný model som počítala pomocou programu R-
plus. Po odhade chýbajúcich hodnôt pomocou metódy mnohonásobného doplňovania som
začala vytvárať logistický regresný model. Začínala som od úplného modelu, do ktorého som
zahrnula všetky vyššie spomínané kovariáty. Do modelu som samozrejme nezahrnula celkové
a ich parciálne kovariáty spoločne (stigmatá spolu s kovariátou stigmatizácia uší, očí... atd.,
Konotr spolu s jednotlivými druhmi konotrunkálnych malformácií).
Zisťovala som tiež, či sa medzi jednotlivými kovariátami vyskytujú prípadné interakcie, a či
sú pre model významné. Nakoniec som model zvalidovala, aby som zistila, ako by sedel na
testovacom súbore. Ku každej validácii som vykreslila kalibračné krivky.
Prvý model znázorňuje objekt Model 1. Parameter Model L.R. Značí hodnotu LR
štatistiky pre celý model, a P je dosiahnutá hladina významnosti pre LR test. C je plocha pod
príslušnou ROC krivkou, Dxy Somerov diskriminačný koeficient a R2 index merajúci
predikčnú silu modelu.
74
Page 78
VÝSLEDKY
Model 1: Úplný model 1
formula: del~Konotr+Imuno+palatal+hypok+PMR+stigm
Model L.R. s.v. P C Dxy R2
83.7 6 0 0.969 0.938 0.732
Beta S.E. Wald Z P
Intercept -7.8743 2.324 -3.39 0.0007
Konotr 3.0965 1.202 2.58 0.0100
Imuno 4.5898 1.421 3.23 0.0012
palatal 1.1618 1.204 0.97 0.3345 *
hypok 2.8541 1.590 1.79 0.0727 *
PMR -0.2717 1.134 -0.24 0.8106 *
stigm 2.2857 1.409 1.62 0.1048 *
Nevýznamné vychádzajú premenné PMR, palatal, stigm, hypok. Vidíme, že hodnota
R2 vyjadrujúca prediktívnu silu modelu je dosť vysoká (0,732), takže sa dá povedať, že model
má aj napriek prebytočným kovariátam veľmi dobrú predikčnú silu. Plocha pod krivkou
C=0,969 a Somerovo Dxy=0,938 značia výbornú diskriminačnú schopnosť modelu. Ďalej som
postupne odstraňovala každú z nevýznamných premenných z modelu. Na objektoch Model 2
a Model 3 môžeme sledovať ako sa model menil.
Model 2:
formula: del~Konotr+Imuno+palatal+hypok+stigm
Model L.R. s.v. P C Dxy R2
83.30 5 0 0.968 0.936 0.73
Beta S.E. Wald Z P
Intercept -7.836 2.316 -3.38 0.0007
Konotr 3.112 1.193 2.61 0.0091
Imuno 4.497 1.341 3.35 0.0008
palatal 1.151 1.191 0.97 0.3341 *
hypok 2.790 1.568 1.78 0.0752 *
stigm 2.225 1.391 1.60 0.1098 *
75
Page 79
VÝSLEDKY
Model 3:
formula: del~Konotr+Imuno+hypok+stigm
Model L.R. s.v. P C Dxy R2
81.85 4 0 0.966 0.932 0.72
Beta S.E. Wald Z P
Intercept -7.646 2.246 -3.40 0.0007
Konotr 2.938 1.133 2.59 0.0095
Imuno 4.543 1.314 3.46 0.0005
hypok 2.889 1.522 1.90 0.0576 *
stigm 2.341 1.390 1.68 0.0923 *
Vidíme, že po odstránení premenných PMR a palatal sa zvýšila významnosť
premenných stigm a hypok. Pre istotu som ešte otestovala prípadné interakcie medzi
kovariátami (objekty Interakcie 1 – Interakcie 3).
Interakcie 1:
formula : del~Konotr+Imuno+hypok*stigm
Model L.R. s.v. P C Dxy R2
82.25 5 0 0.966 0.933 0.722
Beta S.E. Wald Z P
Intercept -7.962 6.326 -1.26 0.2082
Konotr 2.913 1.131 2.58 0.0100
Imuno 4.540 1.321 3.44 0.0006
hypok 1.262 43.00 0.03 0.9766 *
stigm 2.690 6.062 0.44 0.6572 *
hypok * stigm 1.494 43.006 0.03 0.9723 *
76
Page 80
VÝSLEDKY
Interakcie 2:
formula: del ~ Konotr * stigm * Imuno + palatal * hypok * Imuno
Model L.R. s.v. P C Dxy R2
86.11 13 0.03 0.26 0.252 0.741
Beta S.E. Wald Z P
Intercept -11.6448 17.99 -0.65 0.5173
Konotr 4.0806 35.00 0.12 0.9072
stigm 3.2582 21.46 0.15 0.8793
Imuno 1.0226 83.20 0.01 0.9902
palatal -4.0561 50.08 -0.08 0.9355
hypok -0.5469 50.28 -0.01 0.9913
Konotr * stigm 2.0147 36.94 0.05 0.9565
Konotr * Imuno 5.7163 90.06 0.06 0.9494
stigm * Imuno 4.9355 86.07 0.06 0.9543
palatal * hypok 2.9659 114.82 0.03 0.9794
Imuno * palatal 6.6280 53.46 0.12 0.9013
Imuno * hypok 13.5499 123.21 0.11 0.9124
Konotr * stigm * Imuno -7.8832 92.84 -0.08 0.9323
Imuno * palatal * hypok -1.9235 839.94 0.00 0.9982
Interakcie 3:
formula: del ~ PMR * Konotr + PMR * Imuno
Model L.R. s.v. P C Dxy R2
69.49 5 0 0.947 0.893 0.63
Beta S.E. Wald Z P
Intercept -5.0747 1.0810 -4.69 0.0000
PMR -2.8310 22.0458 -0.13 0.8978
Konotr 2.2812 0.9274 2.46 0.0139
Imuno 4.1484 1.1701 3.55 0.0004
PMR * Konotr -0.8558 1.7143 -0.50 0.6176
PMR * Imuno 3.6914 2 2.0619 0.17 0.8671
Vidíme, že pre model nie sú významné žiadne z testovaných interakcií. Ďalej som teda
postupne z modelu odstránila premennú stigm a premennú hypok a získala som 3 modely:
77
Page 81
VÝSLEDKY
Model 4:
formula: del~Konotr+Imuno+hypok
Model L.R. s.v. P C Dxy R2
75.9 3 0 0.95 0.90 0.68
Beta S.E. Wald Z P
Intercept -5.542 1.1569 -4.79 0.0000
Konotr 2.355 0.8794 2.68 0.0074
Imuno 4.311 1.1220 3.84 0.0001
hypok 2.929 1.3137 2.23 0.0258
Model 5:
formula: del~Konotr+Imuno+stigm
Model L.R. s.v. P C Dxy R2
75 3 0 0.959 0.92 0.67
Beta S.E. Wald Z P
Intercept -6.939 1.8357 -3.8 0.0002
Imuno 4.512 1.2028 3.8 0.0002
Konotr 2.537 0.9788 2.6 0.0095
stigm 2.326 1.1208 2.1 0.0380
Všimnime si, že premenné stigm a hypok sú významné keď sa v modeli nevyskytujú
spoločne (interakcie ale vyšli nevýznamne). Takisto si ale všimnime vysoké hodnoty
smerodatných odchýlok ich parametrov.
Po ponechaní len premenných Imuno a Konotr som dostala Model 6.
Model 6:
formula: del~Konotr+Imuno
Model L.R. s.v. P C Dxy R2
67.8 2 0 0.942 0.883 0.617
Beta S.E. Wald Z P
Intercept -4.881 0.9547 -5.11 0.0000
Konotr 1.995 0.7504 2.66 0.0078
Imuno 4.315 1.0063 4.29 0.0000
78
Page 82
VÝSLEDKY
Vidíme, že charakteristiky modelu 9 sa veľmi nelíšia od charakteristík modelov 5 a 6.
Ďalším krokom bolo skúsiť namiesto premennej stigm dosadiť jej jednotlivé parciálne
premenné. Model so všetkými uvažovanými premennými vyšiel nevýznamne (viď Model 7).
Po postupnom odstránení nevýznamných premenných som dostala konečný model podobný
modelu 5 (viď Model 8).
Model 7:
formula: del~Konotr+Imuno+brada+oci+usi+krk+anryh
Model L.R. s.v. P C Dxy R2
82.12 7 0 0.967 0.934 0.721
Beta S.E. Wald Z P
Intercept -8.9792 15.786 -0.57 0.5695
Konotr 2.5874 1.011 2.56 0.0105
Imuno 7.4226 15.745 0.47 0.6373 *
brada 4.0985 15.673 0.26 0.7937 *
oci -0.9098 1.065 -0.85 0.3931 *
usi 1.3388 1.164 1.15 0.2502 *
krk 1.7504 1.266 1.38 0.1666 *
anryh 0.9885 1.491 0.66 0.5074 *
Model 8:
formula: del~Konotr+Imuno+usi
Model L.R. s.v. P C Dxy R2
76 3 0 0.956 0.912 0.678
Beta S.E. Wald Z P
Intercept -5.949 1.3070 -4.55 0.0000
Konotr 2.173 0.8199 2.65 0.0081
Imuno 4.499 1.2097 3.72 0.0002
usi 1.879 0.8404 2.24 0.0254
Pre validáciu modelov 4,5,6 som použila funkciu validate.lrm a modely s rovankými
kovariátami vytvorené na modálnej matici. Tak som dostala modely s hodnotami odhadnutých
koeficientov veľmi podobnými koeficientom modelov odhadnutých metódou mnohonásobnej
imputácie. Tabuľky 12 až 14 uvádzajú porovnanie koeficientov a štatistík týchto modelov.
79
Page 83
VÝSLEDKY
Tabuľka 12: Porovnanie koeficientov a štatistík Modelu 4 (vypočítaného s využitím mnohonásobnejimutácie (mult)) a modelu 4.2. s rovnakými kovariátami, avšak vypočítaného využitím modálnej matice(lrm).
Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult lrm mult lrm mult
Intercept -6,303 -5,542 1,223 1,157 -5,15 -4,79 0 0Konotr 2,226 2,355 0,866 0,879 2,57 2,68 0,01 0,0074Imuno 5,515 4,311 1,166 1,122 4,73 3,84 0 0,0001hypok 2,894 2,929 1,622 1,314 1,78 2,23 *
0,074 0,03
štatistikylrm mult
Model LR 86,56 75,90P 0,00 0,00C 0,98 0,95Dxy 0,95 0,90R2 0,75 0,68
Tabuľka 13: Porovnanie koeficientov a štatistík Modelu 5 a modelu 5.2.
Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult. lrm mult. lrm mult.
Intercept -8,568 -6,939 2,127 1,836 -4,03 -3,8 0,0001 0,0000Konotr 2,866 2,537 1,132 0,979 2,53 2,6 0,0114 0,0095Imuno 5,895 4,512 1,327 1,203 4,44 3,8 0,0000 0,0002stigm 2,72 2,326 1,233 1,120 2,21 2,1 0,0273 0,0000
štatistikylrm mult.
Model LR 89,36 75,00P 0,00 0,00C 0,98 0,96Dxy 0,96 0,92R2 0,77 0,67
Tabuľka 14: Porovnanie koeficientov a štatistík Modelu 6 a modelu 6.2.
Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult lrm mult lrm mult
Intercept -5,873 -4,881 1,134 0,955 -5,18 -5,11 0,0000 0,0000Konotr 2,004 1,995 0,801 0,75 2,5 2,66 0,0123 0,0078Imuno 5,483 4,315 1,111 1,006 4,93 4,29 0,0000 0,0000
štatistikylrm mult
Model LR 82,30 67,80P 0,00 0,00C 0,97 0,94Dxy 0,95 0,88R2 0,72 0,62
Vidíme, že štatistiky a odhadnuté koeficienty sú v rámci jednotlivých typov modelov
80
Page 84
VÝSLEDKY
podobné.
Modely odvodené z modálnej matice dát som pomocou funkcie validate.lrm
validovala a vo všetkých troch sledovala korigované štatistiky. Výstupy jednotlivých validácií
ukazujú objekty Validácia 1 až Validácia 3. Stĺpec pôvodné značí štatistiky pôvodného
modelu, trénovacie sú priemery štatistík modelov vytvorených na bootstrapovej vzorke a test
ukazuje priemery štatistík týchto modelov aplikovaných na pôvodné dáta. Optimizmus je
veličina ktorá vznikne rozdielom trénovacie – test a veličina korigované udáva korigované
štatistiky, vypočítané vzťahom pôvodné – optimizmus.
Validácia 1: Validácia Modelu 4.2.
pôvodné trénovacie test optimizmus korigované
Dxy 0.9530 0.9525 0.9534 -0.0009 0.9540
R2 0.7535 0.7638 0.7440 0.0198 0.7337
g0 0.0000 0.0000 -0.0467 0.0467 -0.0467
g1 1.0000 1.0000 0.8852 0.1148 0.8852
Emax 0.0000 0.0000 0.0350 0.0350 0.0350
Validácia 2: Validácia Modelu 5.2.
pôvodné trénovacie test optimizmus korigované
Dxy 0.9621 0.9577 0.9621 -0.0043 0.9664
R2 0.7724 0.7630 0.7507 0.0123 0.7601
g0 0.0000 0.0000 0.0443 -0.0443 0.0443
g1 1.0000 1.0000 0.8735 0.1265 0.8735
Emax 0.0000 0.0000 0.0375 0.0375 0.0375
Validácia 3: Validácia Modelu 6.2.
pôvodné trénovacie test optimizmus korigované
Dxy 0.9467 0.9462 0.9467 -0.0005 0.9471
R2 0.7243 0.7407 0.7164 0.0242 0.7001
g0 0.0000 0.0000 -0.0322 0.0322 -0.0322
g1 1.0000 1.0000 0.9051 0.0949 0.9051
Emax 0.0000 0.0000 0.0275 0.0275 0.0275
81
Page 85
VÝSLEDKY
Vidíme, že posledný model zahŕňajúci len premennú Konotr a Imuno má najvyššiu
hodnotu g1 a to 0,905, najnižšiu hodnotu Emax = 0,0275 a najnižšiu aboslútnu hodnotu g0
Grafy kalibrovaných pravdepodobností oproti pôvodným predikovaným pravdepodobnostiam
viď. Príloha 2. Vo všetkých troch prípadoch vidíme, že modely sedia veľmi dobre.
V Prílohe 3 pre porovnanie uvádzam Model 9 a výstupy jeho validácie. Tento model je
príkladom zle navrhnutého modelu, čo sa prejavilo nielen v nízkych hodnotách Waldových
štatistík (a teda vysokých hodnotách p hodnôt), ale aj v zmenšení plochy pod krivkou,
a konečne prinízkymi či privysokými hodnotami korigovaných štatistík ktoré sú výstupom
validácie (Dxy=0.17042, R2=0.02055, g0 = -0.83407, g1 = 0.59368 ).
Pretože modely 4.2, 5.2 a 6.2 sú si veľmi podobné, aby som zistila ktorý z nich je
najvhodnejší, urobila som ROC analýzu na všetkých troch a porovnala percentá správne
zaradených pozitívnych pacientov a percentá falošné pozitívnych pacientov u všetkých troch
modelov. Ako deliace hranice som použila predikované pravdepodobnosti pacientov.
Tabuľka 15 zobrazuje predikované pravdepodobnosti Modelu 4.2 a Tabuľka 15.2 zas
špecificity a senzitivity príslušné k jednotlivým deliacim hraniciam.
Tabuľka 15: Predikované pravdepodobnosti Modelu 4.2.
Premennáporadové číslo
Konotr Imuno hypok Predikovanépravdepodobnosti
* 1 0 0 0 0,00182 1 0 0 0,01673 0 0 1 0,03204 1 0 1 0,23455 0 1 0 0,31266 1 1 0 0,80817 0 1 1 0,89148 1 1 1 0,9870
Tabuľka 15.2: Špecificity, senzitivity a príslušné deliace hraniceModelu 4.2.
hranica Špecificita Senzitivita>= 0.0018 0 ( 0; 0.0228) 1 (0.839; 1)> 0.0018 * 0,697 (0.623; 0.762) 1 (0.839; 1)> 0.0167 0,885 (0.827; 0.925) 0,95 (0.764; 0.997)> 0.032 0,933 (0.884; 0.962) 0,95 (0.764; 0.997)> 0.313 0,982 (0.948; 0.994) 0,75 (0.531; 0.888)> 0,808 1 (0.977; 1) 0,25 (0.112; 0.469)> 0.987 1 (0.977; 1) 0 (0; 0.161)
Všimnime si, že percento falošnej pozitivity je okolo 30%, pri 100% záchyte
82
Page 86
VÝSLEDKY
pozitívnych pacientov. Kombinácie dvoch alebo troch fenotypových prejavov zahŕňajúce
Imuno dávajú najvyššie pravdepodobnosti (80% – 90%) prítomnosti mikrodelecie. Príslušnú
ROC krivku znázorňuje Graf 8.
Graf 8: ROC krivka Modelu 4.2
Z týchto tabuliek vidíme, že ak by sme chceli mať 100% záchyt pozitívnych pacientov
a čo najnižšiu falošnú pozitivitu, musíme ako cutoff level zobrať najnižšiu predikovanú
pravdepodobnosť, 0.18%. Takú pravdepodobnosť prítomnosti mikrodelecie 22q11 majú
pacienti, ktorí nemajú ani jeden z uvedených fenotypových prejavov. S touto deliacou
hranicou budeme teda za pozitívnych považovať pacientov s aspoň jedným z uvažovaných
prejavov.
Predikované pravdepodobnosti Modelu 5.2 ukazuje Tabuľka 16.
Tabuľka 16: Predikované pravdepodobnosti Modelu 5.2.
Premennáporadovéčíslo
Konotr Imuno stigm Predikovanépravdepodobnosti
1 0 0 0 0.00022 0 0 1 0.0029
* 3 1 0 0 0.00334 1 0 1 0.04835 0 1 0 0.06466 0 1 1 0.51207 1 1 0 0.54818 1 1 1 0.9485
83
ROC krivka (Model 4.2)
0,0 0,2 0,4 0,6 0,8 1,0
1-Špecificita
0,0
0,2
0,4
0,6
0,8
1,0
Sen
zitiv
ita
AUC = 0.9765152SE = 0.02393880IS 0.9504438; 0.9951923
Page 87
VÝSLEDKY
Nahradením premennej hypok premennou stigm nám klesli predikované
pravdepodobnosti, ale, ako vidíme z tabuľky, klesla nám aj miera falošnej pozitivity na 16%.
Je to preto, že so stanovenou deliacou hranicou 0.33% (Tabuľka 16) považujeme
za negatívnych aj pacientov s len konotrunkálnou malformáciou alebo len so stigmatami. Graf
9 znázorňuje ROC krivku tohoto modelu.
Graf 9: ROC krivka Modelu 5.2.
Tabuľka 16.2: Špecificity, senzitivity a príslušné deliace hranice Modelu 5.2.
hranica Špecificita Senzitivita>=0,0002 0 (0; 0.023) 1 (0.839; 1)>0,0002 0,406 (0.334; 0.482) 1 (0.839; 1)>0,0029 0,745 (0.674; 0.806) 1 (0.839; 1)>0,0033 * 0,842 (0.779; 0.890) 1 (0.839; 1)>0,0483 0,933 (0.885; 0.962) 0,95 (764; 0.997)>0,0646 0,952 (0.907; 0.975) 0,95 (0.764; 0.997)>0,5120 0,982 (0.948; 0.994) 0,65 (0.433; 0.819)>0,5481 0,994 (0.966; 0.999) 0,5 (0.299; 0.701)>0,9485 1 (0.977 1) 0 (0; 0.161)
Pozrime sa ešte na hodnoty predpovedaných pravdepodobností modelu 6.2 (Tabuľka 17)
Tabuľka 17: Predikované pravdepodobnosti Modelu 6.2.
Premennáporadové číslo
Konotr Imuno Predikovanépravdepodobnosti
* 1 0 0 0.00281 2 1 0 0.020463 0 1 0.403914 1 1 0.83408
84
AUC = 0.981SE = 0.0215620IS 0.961656 ; 0.995086
ROC krivka (Model 5.2.)
0,0 0,2 0,4 0,6 0,8 1,0
1-Špecificita
0,0
0,2
0,4
0,6
0,8
1,0
Sen
zitiv
ita
Page 88
VÝSLEDKY
Pacient ktorý nemá ani vyššie popísanú konotrunkálnu srdcovú vadu, ani
imunodeficienciu má podľa nášho dátového súboru a tohoto modelu deleciu 22q11
s pravdepodobnosťou len okolo 0,3%. Naopak pacient iba s Imunodeficienciou má podľa
nášho dátového súboru túto deleciu s pravdepodobnosťou až 40%. Inak povedané, pacienti
s imunodeficienciou majú na základe tohoto modelu omnoho vyššiu pravdepodobnosť
prítomnosti mikrodelecie ako pacienti iba s konotrunkálnou malformáciou. Ak budeme brať
tieto pravdepodobnosti ako deliace hranice, dostaneme hodnoty senzitivity a špecificity
(Tabuľka 17.2) a ROC krivku (Graf 10).
Tabuľka 17.2: Senzitivity, Špecificity a hranice Modelu 6.2.
hranica Špecificita Senzitivita>=0.00281 0 (0; 0.023) 1 (0.839; 1)>0.00281 * 0,745 (0.674; 0.806) 1 (0.839; 1)>0.02046 0,933 (0.886; 0.962) 0,95 (0.764; 0.997)>0.40391 0.981 (0.949; 0.994) 0,65 (0.433; 0.819)>0.83408 1 (0.977; 1) 0 (0; 0.161)
Takže, podľa tohoto modelu, ak chceme mať čo najväčší záchyt pozitívnych
pacientov, hranicu si musíme stanoviť na hodnote 0,0281, čo znamená, že všetkých pacientov
ktorí majú predpovedanú pravdepodobnosť väčšiu ako 2,81% označíme za pozitívnych.
Rovnako ako v modeli 4.2 to budú všetci ktorí majú aspoň jeden z uvažovaných fenotypových
prejavov. S touto deliacou hranicou budeme mať podľa nášho datového súboru a tohoto
modelu takmer 100% úspešnosť záchytu skutočne pozitívnych pacientov a len 25% falošnej
pozitivity. Všimnime si, že na rozdiel od modelu 4.2 má tento nižšie percento falošnej
negativity.
Graf 10: ROC krivka Modelu 6.2.
85
ROC krivka (Model 6.2.)
0,0 0,2 0,4 0,6 0,8 1,0
1-Špecificita
0,0
0,2
0,4
0,6
0,8
1,0
Sen
zitiv
ita
AUC = 0.9733333SE = 0.0254556IS 0.9499463 ; 0.991573
Page 89
VÝSLEDKY
Keďže prenatálnou diagnostikou sa z fenotypových prajavov dá zistiť jedine vrodená
srdcová vada (prítomnosť thymu ešte nemusí znamenať že pacient bude mať imunologické
makery v norme), zaujíma nás otázka, aké výsledky bude dávať model obsahujúci len
konotrunkálnu malformáciu. Pre zvýšenie počtu zachytených pozitívnych pacientov som
k tejto premennej pripojila premennú PRAO (prítomnosť pravostranného aortálneho oblúka)
a dostala tak premennú KonotrPRAO (= 1 v prípade jednej z vyššie uvedených
konotrunkálnych malformácií alebo prítomnosti pravostranného aortálneho oblúka;
0 - naopak).
Pravostranný aortálny oblúk sa vyskytol u 2 z pozitívnych pacientov, a je považovaný
za typickejší prejav mikrodelecie ako ostatné nekonotrunkálne srdcové vady. (Pre vyššie
uvažované modely táto modifikovaná premenná nemala veľký význam, pretože pre stanovené
hranice pozitivity nemenila záchyt pozitívnych pacientov – viď Model 10 - príklad
modifikovaného modelu 9.2. , v Prílohe 4)
Do trénovacieho súboru som zaradila navyše 19 vyšetrených plodov, ktoré skončili
potratom. Datový súbor sa mi teda zvýšil na 214 vyšetrených. Srdcové vady nemali žiadnu
chýbajúcu premenú, preto som model odhadovala priamo. S použitím premennej
KonotrPRAO vznikol Model 11.Model 11.
Formula: del ~ KonotrPRAO
Model L.R. s.v. P C Dxy R2
25.08 1 0 0.781 0.563 0.239
Beta S.E. Wald Z P
Intercept -3.611 0.5067 -7.13 0
KonotrPRAO 2.555 0.5839 4.38 0
Validácia 5: Validácia Modelu 11.
pôvodné trénovacie test optimizmus korigované
Dxy 0.5629 0.5612 0.5629 -0.0017 0.5646
R2 0.2391 0.2462 0.2391 0.0071 0.2319
Intercept 0.0000 0.0000 0.0726 -0.0726 0.0726
Slope 1.0000 1.0000 1.0145 -0.0141 1.0141
Emax 0.0000 0.0000 0.0187 0.0187 0.0187
86
Page 90
VÝSLEDKY
Kalibračná krivka k Validácii 5 viď Príloha 2.
Pozrime sa na predpovedané pravdepodobnosti (Tabuľka 18).
Tabuľka 18: Predikované pravdepodobnosti Modelu 14.
Premennáporadové číslo
KonotrPRAO Predikovanépravdepodobnosti
1 0 0.0262 1 0.258
Vidíme, že ak sledujeme len premennú KonotrPRAO, tak v prípade jej prítomnosti u pacienta
je pravdepodobnosť že sa jedná o pacienta s 22q11.2 mikrodelečným syndrómom len 25.8%.
Tabuľka 18.2: Špecificity, senzitivity a príslušné deliace hranice Modelu 14.
hranica Špecificita Senzitivita>= 0.026 0 (0; 0.019) 1 (0.839; 1)> 0.026 * 0,763 ( 0.698; 0.817) 0,8 (0.584; 0.919)> 0.258 1 (0.981; 1) 0 (0; 0.161)
Z tabuľky senzitivít a špecificít vyplýva, že prípade, ak sa budú prenatálne vyšetrovať len
plody ktoré majú aspoň jednu vyššie definovanú konotrunkálnu malformáciu alebo
pravostranný aortálny oblúk (prípadne spoločne), tak sa na základe nášho dátového súboru
zachytí asi 80% skutočne pozitívnych pacientov.
Graf 11: ROC krivka Modelu 11.2.
87
AUC = 0.781SE = 0.062IS (0.680; 0.872)
ROC krivka (Model 14)
0,0 0,2 0,4 0,6 0,8 1,0
1-Špecificita
0,0
0,8
1,0
Sen
zitiv
ita
Page 91
V. DISKUSIA
V dnešnej dobe, keď je stále viac vážnych chorôb spájaných s odchýlkami v genetickej
informácii, stúpa význam molekulárne cytogenetických technológií, pretože vyšetrenia zmien
v ľudskom karyotype pomaly vyžadujú takmer všetky medicínske odbory. Presnosť výsledkov
je dôležitá, pretože sa často jedná o vyšetrenia potvrdzujúce diagnózu, či monitorujúce
odpoveď na terapiu. Pri hodnotení mikroskopických preparátov sa tak vynárajú rôzne otázky,
ktoré s požiadavkou tejto presnosti úzko súvisia. Aký má byť počet buniek, ktoré hodnotiť,
aby mal test čo najvyššiu presnosť? Hodnotenie je často nielen časovo náročné, ale vyžaduje
si od pracovníkov istú skúsenosť. Ako určiť, že nový pracovník je už dostatočne skúsený, aby
mohol nastúpiť hodnotenie do praxe? A nakoniec, kedže u väčšiny testov sa stanovuje
percento pozitívnych buniek z celkového počtu hodnotených, je dôležité určiť hranicu,
pomocou ktorej budú pacienti určovaní za pozitívnych, prípadne negatívnych. To je len
niekoľko z otázok, na ktoré som sa snažila touto diplomovou prácou aspoň čiastočne
odpovedať.
V prvej časti diplomovej práce som sa pokúšala načrtnúť spôsob optimalizácie
hodnotenia mikroskopických preparátov a to jednak stanovením optimálneho počtu
počítaných buniek, jednak nájdením vhodného testu pre overenie presnosti hodnotenia
cytogenetických preparátov medzi pracovníkmi a jednak ukážkou spôsobu výpočtu deliacej
hranice pre cytogenetické diagnostické systémy na príklade ES-FISH aplikovanej na detekciu
Ph chromozómov.
Počet buniek som stanovila na 200, a to na základe dostupnej literatúry a periodík.
Dewald (2002) síce okrem minima 200 buniek odporúča najčastejšie 500 buniek pre dnešné
diagnostické systémy, ale Thall, Zimmermann, & Jacoby (1998) na základe sily testu takisto
odporúčajú 200 buniek, aby sa zachytili skutočne pozitívne bunky pod 5%. Pretože tieto
percentá vyvodili pre metódu S-FISH, ktorá má percento falošnej pozitivity až 10%, môžeme
predpokladať, že pre presnejšiu metódu, akou je ES-FISH, bude tento počet postačujúci na
záchyt ešte nižších percent skutočne pozitívnych buniek.
Pre stanovenie testu pracovníkov som otestovala pracovníkov OLG ktorí hodnotia
preparáty CML. A to binomickým testom, Friedmanovým a Wilcoxonovým párovým testom.
K binomickému testu s jednostrannou alternatívou, kde som testovala hypotézu, že
pravdepodobnosť úspechu (teda výskytu pozitívnej bunky v rozdiele medzi dvoma
pracovníkmi) p odhadnutého ako súčet všetkých rozdielov pracovníkov / k*200 (kde k je
88
Page 92
DISKUSIA
počet preparátov ktoré hodnotili spoločne) je väčšia ako 5%, som pristúpila preto, že sa
hovorí, že pracovníci by sa nemali odlišovať o viac ako 5%. Pre všetky dvojice pracovníkov
som na základe tohoto testu hypotézu zamietla, v prospech alternatívnej hypotézy HA:
pracovníci sa líšia o menej ako 5%. Binomický test je dobrý z toho hľadiska, že využíva inú
informáciu ako ostatné uvažované testy. Hlavne teda priamu informáciu o počte buniek
v rozdieloch. Na druhú stranu neuvažuje možnú variabilitu vnútri súboru preparátov. Podiely
pozitívnych buniek na preparátoch sa pohybujú od 0 do 100 %. Niektorí pracovníci môžu
presnejšie hodnotiť preparáty s nízkymi, iní zas s vysokými percentami pozitívnych buniek.
S touto variabilitou počíta Friedmanova ANOVA, ktorou sa dá porovnávať viac pracovníkov
naraz. Tento test testuje, či sú dané výbery z rovnakého rozdelenia. Nevýhodou tohoto testu
je, že nepočíta s priamymi rozdielmi medzi pracovníkmi. To znamená, že ak máme dostatočne
symetrické dáta, aj napriek tomu, že sa pracovníci odlišujú o vysoké percentá, test hypotézu
nezmietne. V našom prípade výsledok vyšiel nevýznamne, s dosiahnutou hladinou testu skoro
30%, hypotézu sme teda nezamietli. Môže to znamenať ale aj to, že sme na zamietnutie
hypotézy nemali dostatočne veľkú vzorku.
Wilcoxonov párový test v predpokladoch počíta so symetriou rozdielov okolo
mediánu. V prípade malej vzorky tento predpoklad nemusí byť splnený. To mohla byť príčina
zamietnutia hypotézy o zhode pracovníkov 2 a 3. Pokiaľ ostatné testy hypotézy o zhode
nezamietli, je možno vhodné zvýšiť vzorku napočítaných preparátov. Príčinou mohlo byť aj
zahrnutie nových prípadov, ktoré Friedmanov test nemohol posúdiť (tieto prípady boli
spočítané len dvoma pracovníkmi). Veľkosť vzorky je dôležitá, v tomto prípade platí čím
viac, tým lepšie, 20 spoločne napočítaných vzoriek by malo byť aj vzhľadom
k asymptotickým predpokladom niektorých testov minimum. Wilcoxonov test, ktorý testuje
podobne ako binomický len dvojicu pracovníkov, môže byť použitý, ak vyjde Friedmanov test
významne, na zistenie, ktorá z dvojíc sa líši. Binomický test je však vzhľadom k informácii
ktorú používa v kombinácii s Friedmanovým testom vhodnejší. Metodika testovania zhody
pracovníkov môže obsahovať nasledujúce testy v uvedenom poradí:
i) Friedmanov test – ak n≥3 pre otestovanie n pracovníkov
ii) Binomický test – pokiaľ n=2
- v prípade zamietnutia hypotézy Friedmanovým testom môže určiť
dvojicu ktorá sa odlišuje, alebo nepotvrdiť zamietnutie hypotézy
- v prípade nezamietnutia hypotézy Friedmanovým testom spresňuje
výsledok (Friedman nemusel mať dostatok dát)
Ak obidva testy nepotvrdia odlišnosť, pracovníci sa nelíšia. Ak nepotvrdí zhodu aspoň jeden
z nich, je potrebná buď väčšia vzorka (Friedmanov test), alebo sa pracovníci naozaj líšia
89
Page 93
DISKUSIA
(Friedman, binomický test).
Pri párovom experimente, kedy pracovníci hodnotia rovnaký preparát je potrebné vziať
do úvahy skutočnosť, že preparát sa časom „vysvieti“. Hodnotenie preparátu posledným
pracovníkom teda môže byť touto skutočnosťou negatívne ovplyvnené.
Významným záverom vyššie spomínaného testovania pracovníkov je fakt, že pre
používanie rovnakej deliacej hranice je potrebné aby mali rovnaké kritériá hodnotenia.
V prípade nezamietnutia hypotézy o zhode teda môže nový pracovník (testovaný oproti
skúsenému pracovníkovi) začať stanovený cutoff level používať.
Stanovenie deliacej hranice je dôležitou úlohou, pretože má určité klinické dôsledky.
Dewald (2002) odporúča na určenie cutoff levelu hornú hranicu intervalu spoľahlivosti pre
binomické rozloženie (vzorec 1.2), bez aproximácie na normálne rozloženie. Táto metóda je
síce nesporne lepšou alternatívou často používaného spôsobu X±3 , teda priemer +- 3
smerodatné odchýlky, avšak nevyužíva informáciu o parciálnych pozitívnych a negatívnych
presnostiach. ROC analýza tento problém rieši naozaj efektívne. Pomocou nej vyšla hodnota
cutoff levelu 3,5%, za predpokladu, že chceme mať najnižšie percento falošnej pozitivity.
Pri výpočte cutoff levelu pomocou intervalu spoľahlivosti by sme s naším dátovým súborom
stanovili cutoff level na 1,5%. To by znamenalo falošnú pozitivitu až 15%, na rozdiel
od takmer nulovej falošnej pozitivity s cutoff levelom 3,5%.
Pre vyšetrovanie pacientov s potenciálnou CML, ak chceme mať čo najnižšiu falošnú
pozitivitu, je, ako som už spomínala, vhodnejšie pohybovať sa na menej striktnej hranici.
V ostatných prípadoch to tak byť nemusí, voľba vhodnej hranice vždy záleží na klinických
dôsledkoch a prevalencii choroby. Ak sa jedná o chorobu s vysokou prevalenciou, chorobu
epidemiologickú, ale aj o chorobu s veľmi nízkou prevalenciou, ktorej neodhalenie však má
závažné následky, tak chceme mať čo najvyšší záchyt pozitívnych pacientov, a deliacu
hranicu posúvame smerom doľava, v prospech počtu zachytených pozitívnych pacientov. Ešte
je snáď potrebné pripomenúť, že ak stanovujeme deliacu hranicu pre určitú metódu, musíme
pre jej používanie v praxi hodnotiť rovnaký počet buniek na akom bola táto hranica
vypočítaná. Náš stanovený cutoff level 3,5% je vypočítaný na preparátoch s 200 hodnotenými
bunkami, preto sa nedá aplikovať na 100 alebo 500 buniek.
Mikrodelecia 22q11.2 je syndrómom ktorý sa prejavuje variabilným fenotypom.
Jednotlivé prejavy sa líšia pacient od pacienta, aj keď sú pre syndróm charakteristické.
Situáciu sťažuje fakt, že pacient s rovnakým fenotypovým prejavom nemusí mať danú
mikrodeleciu. V druhej časti diplomovej práce som sa preto snažila určiť najvýznamnejšie
90
Page 94
DISKUSIA
fenotypové prejavy významné pre tento syndróm a na ich základe stanoveného modelu
predikovať pravdepodobnosti prítomnosti danej mikrodelecie.
Najvýznamnejšie vyšli premenné Konotr, Imuno, hypok a stigm. Model 4.2, zahŕňajúci
konotrunkálne abnormality (FAT, IAO, DPK, TAC, PA_DKS), imunodeficienciu
a hypokalcémiu (vrátane skoliózy), má najvyššie predikované pravdepodobnosti. Podľa tohoto
modelu má pacient s konotrunkálnou malformáciou a imunodeficienciou 80%
pravdepodobnosť prítomnosti mikrodelecie 22q11.2. Pacient len s imunodeficienciou
a hypokalcémiou (pozor, to že nemá konotrunkálnu malformáciu neznamená, že nemá inú
srdcovú vadu) má pravdepodobnosť vyššiu o skoro 10% (89%). Najvyššiu pravdepodobnosť
má samozrejme pacient so všetkými tromi fenotypovými prajavmi – až 99%. Oproti tomu
model 5.2., ktorý namiesto premennej hypokalcémia uvažuje sigmatá, dáva výrazne nižšie
pravdepodobnosti pri dvoch prítomných fenotypových prejavoch. Pacient s imunodeficienciou
a stigmatami má pravdepodobnosť mikrodelecie 51%, pacient s konotrunkálnou
malformáciou a imunodeficienciou len o málo viac: 55%. Pri všetkých prejavoch sa
pravdepodobnosť zvýši až na 95%. Posledný model 9.2., uvažujúci len konotrunkálnu
malformáciu a imunodeficienciu dáva tiež nižšie pravdepodobnosti prítomnosti mikrodelecie,
a to 2% ak má pacient len konotrunkálnu malformáciu, 40% v prípade imunodeficiencie,
a 83% v prípade obidvoch malformácií.
Tabuľka 19:Porovnanie predpovedaných pravdepodobností mikrodelecie 22q11 jednotlivých modelov.
fenotypový prejav
Predpovedaná pravdepodobnosť mikrodelecie 22q11.2
Model 4.2Konotr+Imuno
+hypok
Model 5.2Konotr+Imuno
+stigm
Model 6.2Konotr+Imuno
Model 3.2všetky štyri
prejavyžiadny 0,02% 0,02% 0,28% 0,02%Konotr 2% 0,3% 2% 0,35%Imuno 31% 6,5% 40% 5%hypok 3% 0,25%stigm 0,3% 0,20%Konotr + Imuno 81% 55% 83% 55%Konotr + hypok 23,5% 5,50%Konotr + stigm 5,0% 4%Imuno + hypok 89% 48%Imuno+stigm 51% 41%hypok + stigm 3%Konotr + Imuno + hypok 99% 95%Konotr + Imuno + stigm 95% 94%Konotr + hypok +stigm 42%Imuno + hypok + stigm 92%Konotr + Imuno+hypok+stigm 99,60%
Legenda: Konotr – kovariáta značiaca prítomnosť konotrunkálnej malformácie FAT, DPK, IAO, PA+DKS a TAC; Imuno –
prítomná imunodeficiencia (znížené počty T-lymfocytov, znížené hladiny imunoglobulínov, časté infekcie); stigm – prítomná
stigmatizácia; hypok – hypokalcémia (novorodenecké hypokalcemické kŕče, nízke hladiny Ca++ a Ca v sére, skolióza)
91
Page 95
DISKUSIA
Kedže premenné hypok a stigm vychádzajú spoločne v modeli 3 nevýznamne, ale
predsa len sú dôležité, uvádzam v Tabuľke 19, ktorá zhŕňa pravdepodobnosti všetkých troch
vyššie uvedených modelov, pre porovnanie pravdepodobnosti v prípade uvažovania všetkých
štyroch premenných (podľa modelu 3.2 – viď príloha 5).
Treba si uvedomiť, že pravdepodobnosti sa týkajú výlučne daného modelu.
Ak berieme do úvahy model 4.2., ktorý neuvažuje premennú stigmatizácia, znamená to, že na
tejto premennej nezávisí. Je teda jedno, či pacient so všetkými tromi uvažovanými prejavmi
(Konotr+Imuno+hypok) je stigmatizovaný alebo nie. Pravdepodobnosť že má mikrodeleciu je
stále 99%. Naopak, model 3.2 uvažuje pri prítomnosti len týchto troch prejavov stigmatizáciu
nulovú.
Interpretácia týchto modelov musí byť opatrná, hlavne preto, že v dátovom súbore sa
vyskytovali chýbajúce premenné. Metóda odhadu, ktorú som použila je síce robustná, a má
dobré výsledky, predsa len to však nemusí byť úplne podľa skutočnosti. Porovnajme
pravdepodobnosti jednotlivých prejavov nášho dátového súboru doplneného mnohonásobnou
imputáciou s pravdepodobnosťami uvádzanými v literatúre:
Tabuľka 20: Porovnanie pravdepodobností výskytu jednotlivých prejavov u pacientov s del22q11.2 unášho dátového súboru s pravdepodobnosťami uvádzanými v literatúre.
náš súbor literatúra zdroj
* stigm 85% 100% (Wilson a spol, 1993)VCC 95% 78-85% (McDonald-McGinn, 2003; Earing, 2003)* Imuno 95% 77% (Smith a kol, 1998; Sullivan a kol, 1998)* hypok 48% 30% (McDonald-McGinn 2003)* palatal 20% 67% (McDonald-McGinn, 2003)
Premenné označené hviezdičkou obsahovali chýbajúce hodnoty. Percentá sú celkom
podobné, snáď až na palatálnu abnormalitu. V tejto premennej však boli doplnené len 2
hodnoty.
Z hľadiska percenta záchytu pozitívnych pacientov je najlepším modelom model 5.2.,
ktorý má pri 100% záchyte pozitívnych pacientov zo všetkých modelov najnižšiu falošnú
pozitivitu, 16%, s hranicou keď za pozitívnych pacientov považujeme všetkých, ktorí majú
buď samostatnú imunodeficienciu alebo aspoň 2 z uvažovaných fenotypových prejavov.
Pre prenatálnu diagnostiku majú význam hlavne srdcové vady. V modeli 11, kde
uvažujeme spojenú premennú KonotrPRAO, má pacient v prípade prítomnosti konotrunkálnej
92
Page 96
DISKUSIA
malformácie či pravostranného oblúka, pravdepodobnosť mikrodelecie 22q11.2 len 25,8%.
Ak sa bude sledovať len táto premenná, prenatálnou diagnostikou sa zachytí 80% pacientov
s týmto syndrómom, len s 25% falošnej pozitivity, na rozdiel od sledovania všetkých
pacientov s akoukoľvek vrodenou srdcovou vadou, kedy sa nám síce zvýši záchyt pozitívnych
pacientov na 95%, avšak zbytočne vyšetríme až 74% skutočne negatívnych pacientov.
Nakoniec treba ešte upozorniť, že logistický regresný model je citlivý na prevalenciu
choroby v danej populácii. Ak by sme stanovené modely aplikovali na populáciu s inou
prevalenciou choroby, mohlo by sa to prejaviť na klinicky dôležitých chybách v presnosti
logistického regresného modelu. Morise a kol.(1999) diskutujú vo svojom článku možnosť
úpravy logistického regresného modelu tak, aby sa minimalizoval vplyv prevalencie
v populácii na ktorú je aplikovaný.
93
Page 97
VI. ZÁVER
Cieľom prvej časti mojej diplomovej práce bolo ukázať možnosti optimalizácie
molekulárne cytogenetického laboratória riešením niekoľkých otázok, ktoré pri praxi
vznikajú, a to konkrétne:
1. určením počtu hodnotených buniek
2. navrhnutím štatistického testu pre overenie presnosti hodnotenia chromozómových
abnormalít metódou interfáznej FISH
3. navrhnutím vhodnej metódy a stanovením deliacej hranice pre hodnotenie cytogenetických
preparátov
1. Počet hodnotených buniek som vzhľadom k presnosti a časovej náročnosti stanovila
na 200
2. Metodika testovania zhody laborantov môže obsahovať nasledujúce testy v uvedenom
poradí:
i) Friedmanov test
ii) Binomický test (+ prípadne Wilcoxonov test)
U testovaných laborantov testy nepreukázali odlišnosť (s výnimkou Wilcoxonovho testu),
môžu teda používať tú istú stanovenú deliacu hranicu.
3. Deliacu hranicu pre ES FISH aplikovanú na detekciu Ph chromozómu som pomocou ROC
analýzy stanovila na 3,5%, s 19% falošnou negativitou a 100% pravdivou negativitou.
4. ROC analýzu odporúčam ako najpresnejšiu z uvažovaných metód pre stanovenie deliacej
hranice. V prípade absencie zlatého štandardu, potvrdzujúceho či vyvracajúceho výsledok
diagnostického testu je možné stanoviť deliacu hranicu pomocou hornej hranice intervalu
spoľahlivosti pre binomické rozloženie, bez aproximácie na normálne rozloženie. Táto
metóda je presnejšia ako často používaný vzťah X±3 .
V druhej časti som sa zamerala na predikciu pacientov s mikrodeleciou 22q11.2
na základe fenotypových prejavov pomocou logistickej regresie.
Ako najvýznamnejšie premenné sa ukázali konotrunkálna malforácia (FAT, IAO,
DPK, PA_DKS, TAC), imunodeficiencia, hypokalcémia a stigmatá. Dostala som 3 modely, z
94
Page 98
ZÁVER
ktorých sa, z hľadiska záchytu pozitívnych pacientov, ako najefektívnejší javí model
uvažujúci premenné konotrunkálna malformácia, imunodeficiencia a stigmatá. Najvyššie
predikované pravdepodobnosti prítomnosti mikrodelecie 22q11.2 dáva model uvažujúci
namiesto premennej stigmatá premennú hypokalcémia. Inak povedané, pre zvýšenie záchytu
pozitívnych pacientov je lepšie sledovať znaky konotrunkálna malformácia, imunodeficiencia
a stigmatizácia, v každom prípade pacienti u ktorých sa vyskytujú kombinácie fenotypových
prejavov konotrunkálna malformácia, imunodeficiencia a hypokalcémia, majú
pravdepodobnosť prítomnosti mikrodelecie 22q11.2 vyššiu ako tí ú ktorých sa sleduje
namiesto hypokalcémie len mikrodelecia.
Ak sa pri prenatálnej diagnostike budeme na základe modelu sledujúceho len srdcovú
vadu zameriavať len na plody s konotrunkálnou malformáciou alebo pravostranným
aortálnym oblúkom, budeme mať 80% záchyt pozitívnych prípadov pri 25% falošnej
pozitivity. Takže sa nám síce zníži počet zachytených pozitívnych prípadov, z pôvodných
95%, ako je to pri vyšetrovaní všetkých plodov s vrodenou srdcovou vadou, avšak zníži sa aj
percento falošne pozitívnych prípadov, z pôvodných 74% na 25%.
95
Page 99
VII. SUMMARY
STATISTICAL APPROACH TO MOLECULAR
CYTOGENETIC ANALYSIS OF GENETIC
PATHOLOGICAL STATES
The first goal of my diploma dissertation was to show possibilities of optimalization of
molecular cytogenetic laboratory by solving several questions resulting from laboratory
practice, namely by:
1. setting the number of scored cells
2. determining statistical test for laboratory personnel
4. assessing cut-off level on example of ES-FISH applied to detection of Ph chromosome in
patients with expected CML.
1. I have set the number of cells to score to 200, according to accuracy and time potential.
2. The methodology for statistical testing the agreement of scoring cells of laboratory
personnel should include these statistical tests respectively:
i) Friedman ANOVA
ii) Binomial test (+ possibly Wilcoxon rank test)
These statistical tests showed no significant difference between techniciens in tested group,
except of Wilcoxon rank test between 2nd and 3rd, so they can use the same cut-off level.
3. I have asssesed the cut-off level of 3,5% for ES-FISH applied to detection of Ph
chromosome, with 19% of false negative rate and approximately 100% of true negative
rate, using ROC analysis.
4. ROC analysis is probably the most accurate method for estimation of cut-off level. In case
of missing gold standard, used for confirmation of diagnosis assessed by diagnostic test,
method using upper limit of assymetric binomial confidence interval is more convenient
than usually used X±3 .
The goal of second part of my diploma dissertation was prediction of patients with
microdeletion syndrome according to phenotype manifestation, by using a logistic regression.
96
Page 100
SUMMARY
In fitted models the most significant covariates were conotruncal malformations (TOF,
IAA, DORV, PA_VSD, TAC), immunodeficiency, hypocalcaemia and abnormal facies.
I have fit 3 models, which from the point of sensitivity, the most effective was the model
assuming covariates conotruncal malformation, immunodeficiency and abnormal facies. The
highest probabilities gives the model assuming hypocalcaemia instead of facial anomalies.
In prenatal diagnosis, using model with only one covariate which includes conotruncal
anomalies or righ sided aortic arch, the 80% sensitivity and 25% of false positivity will be
achieved, if examined fetuses with these covariate present. Albeit the number of positive
cases recorded decreases (from 95% in case of examining all patients with congenital heart
disease), the false positive fraction rapidly decreases too, from 74% to approximately 25%.
97
Page 101
ZOZNAM POUŽITEJ LITERATÚRY
VIII. ZOZNAM POUŽITEJ
LITERATÚRY
1. Anděl, Jiří (1985). Matematická statistika. Praha, SNTL. 226-234.
2. Bamber, D. (1975). The area above ordinal dominance graph and the area below the
receiver operating graph. Journal of Mathematics in Psychology 12: 387-415.
3. Budarf, M.L., Konkle, B.A., Ludlow, L.B., Michaud, D., Li, M., Yamashiro, D.J.,
McDonald-McGinn, D., Zackai, E.H., Driscoll, D.A.(1995). Identification of a patient
with Bernard-Soulier syndrome and a deletion in the DiGeorge/velo-cardio-facial
chromosomal region in 22q11.2. Hum Mol Genet 4: 763-766.
4. Bu n o , I., Wyatt, W.A., Zinsmeister, A.R., Dietz-Band, J., Silver, R.T., Dewald,
G..W. (1998). A special fluorescent in-situ hybridization technique to study peripheral
blood and assess the effectiveness of interferon therapy in chronic myeloid leukemia.
Blood 92: 2315-2321.
5. Burn, J., Takao, A., Wilson, D., Cross., I., Momma, K., Wadey, R., Scambler, P.,
Goodship, J. (1993). Conotruncal anomaly face syndrome is associated with deletion
within chromosome 22q11. J Med Genet 30: 822-824
6. Dewriendt, K., Swillen, A., Fryns, JP., Proesmans, W., Gewillig, M. (1996). Renal and
urological tract malformations caused by a 22q11 deletion. J Med Genet 33:349.
7. Dewald, Gordon W. (2002). Intherphase FISH studies of Chronic Myeloid Leukemia. In
Methods in Molecular Biology, 204: Molecular Cytogenetics: Protocols and Applications;
311-342.
8. Dewald G.W., Stallard R., Al Saadi A., et al. (1998a). Multicenter investigation with
interphase fluorescence in situ hybridization using X- and Y- chromosome probes. Am. J.
Med. Genetics 76: 318-326.
98
Page 102
ZOZNAM POUŽITEJ LITERATÚRY
9. Dewald, Gordon W., Wyatt, William A., Juneau, Amy L., Carlson, Richard O.,
Zinsmeister, Alan R., Jalal, Syed M., Spurbeck, Jack L., Silver, Richard T. (1998b).
Highly Sensitive Fluorescence In Situ Hybridization Method to Detect Double BCR/ABL
Fusion and Monitor Response to Therapy in Chronic Myeloid Leukemia. Blood 91, No. 9
(May 1): 3357-3365.
10. Driscoll, D.A., Spinner, N.B., Budarf M.L., McDonald-McGinn, D.M., Zackai, E.H.,
Goldberg, R.B., Shprintzen, R.J., Saal, H.M., Zonana, J., Jones, M.C., a kol. (1992).
Deletions and microdeletions of 22q11.2 in velo-cardio-facial syndrome. Am J Med Genet
44:261-268.
11. Earing, M., Ackerman, M.J., DriscollBidarf, D.J. (2002). Cardiac Phenotype in the
chromosome 22q11.2 microdeletion syndrome. Progress Pediatr Cardiol 15: 119-123
12. Eastmond, DA, Schuler, M, Rupa, DS. (December 1995). Advantages and limitations of
using fluorescence in situ hybridization for the detection of aneuploidy in interphase human
cells. Mutat Res. 348(4):153-62.
13. Egan, James P.(1975). Signal Detection Theory and ROC Analysis. Academic Press,
New York, 277 s.
14. Faderl S., Talpaz M, Estrov Z a kol. (1999) The biology of chronic myeloid leukemia.
New Engl J Med 341: 164-172
15. Goodship, J., Cross, I., LiLing, J., Wren, C. (October 1998). A population study of
chromosome 22q11 deletions in infancy. Arch Dis Child 79(4):348-51.
16. Green, D, Swets, J. (1966). Signal detection theory and psychophysics. John Wiley and
Sons, New York , 45-49.
17. Hanley, James A. & McNeil, Barbara J. (1982). The meaning and Use of the Area
under a Receiver Operating Characteristic (ROC) Curve. Radiology 143: 29-36.
99
Page 103
ZOZNAM POUŽITEJ LITERATÚRY
18. Hanley, James A. & McNeil, Barbara J.(1983). A Method of Comparing the Areas
under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology
148: 839-843.
19. Harrell, Frank E., Jr. (2001). Regression Modeling Strategies. With Applications to
Linear Models, Logistic Regression and Survival Analysis. Springer, Springer Series in
Statistics, New York.
20. Hopman, A.H.N., Raap, A.K., Landegent, J.E., Wiegaut, J., Boerman, R.M., van der
Ploeg, M. (1988): Nonradioactive in-situ hybridization. In: van Loeuwen, Buigs, Pool,
Pach: Molecular Neuroanatomy. Elsevier Science Publishers B.V.(Medical Division): 43-
68.
21. Hučín, B. (2002). Dětská kardiochirurgie. Avicenum, Praha.
22. Jičínská, H., Marek, J., Bryšová, V., Gaillyová, R., Kuglík, P., Tláskal, T., Litzman,
J., Tax, P., Navrátil, J. (1998). Delece chromozomu 22q11 u vrozených srdečních vad. Čs
Pediat 53: 659-664.
23. Kallioniemi, A, Kallioniemi, OP, Waldman, FM, Chen, LC, Yu, LC, Fung, YK,
Smith, HS, Pinkel, D, Gray, JW. (1992). Detection of retinoblastoma gene copy number
in metaphase chromosomes and interphase nuclei by fluorescence in situ hybridization.
Cytogenetics and Cell Genetics 60(3-4):190-193.
24. Kuglík, Petr, Oltová, Alexandra (2003). Co nabízí současná cytogenetická diagnostika.
Živa 4: 147-149.
25. Kurzrock, R, Gutterman, JU, Talpaz, M.(1988). The molecular genetics of Philadelphia
chromosome-positive leukemias. N Engl J Med 319: 990-998
26. Landegend, J.E., Jansen de Wal, N., Baan, R.A., Hoeijmarkes, J.H.J., van der Ploeg,
M. (1984). 2-acetylaminofluorene-modified probes for the indirect hybridocytochemical
deletion of specifif nucleic acid sequencies. Exp Cell Res 153, 61-72.
100
Page 104
ZOZNAM POUŽITEJ LITERATÚRY
27. Lemeshow, Stanley & Hosmer, David W., Jr. (February, 1998, posting date). Logistic
regression, p. 1-11. In Encyclopaedia of Biostatistics, 1st ed. [Online.] Wiley, London.
http://www.wiley.co.uk./eob/sample4.pdf. [13 January 2004, last date accessed]
28. Matsuoka, R., Takao, A., Kimura, M., Imamura, S., Kondo, C., Joh-o, K., Ikeda, K.,
Nishibatake, M., Ando, M., Momma, K. (1994). Confirmation that the conotruncal
anomaly face syndrome is associated with a deletion within 22q11.2. Am J Med Genet
53:285-289.
29. Mayer, Jiří, Starý, Jan a kol. (2002). Leukemie. Grada Publishing, Praha, 392 s.
30. McCullagh, P. & Nelder, J. (1983) Generalized Linear Models. Chapman and Hall,
London
31. McDonald-McGinn, Donna M., Driscoll, DA., Bason, L., Christensen, K., Lynch, D.,
Sullivan, K., Canning, D., Zavod, W., Quinn, N., Rome, J. (1995). Autosomal dominant
„Opitz“ GBBB syndrome due to a 22q11.2 deletion. Am J Med Genet 59: 285-289.
32. McDonald-McGinn, Donna M., Kirschner, R., Goldmuntz, E., a kol. (1999).
Craniosynostosis:another feature of the 22q11.2. deletion syndrome. Platform presentation,
56th Annuall
33. McDonald-McGinn, Donna M., Emanuel, Beverly, S., Yackai, Elaine, H. (23 July
2003, last update). 22q11 Deletion Syndrome. [Online] http://www.geneclinics.org/
[11 October 2003, last date accessed]
34. Metz, Charles E. (October 1978). Basic Principles od ROC analysis. Seminars in Nuclear
Medicine VIII, No. 4:283-298.
35. Michalová, Kyra (1999). Úvod do lidské cytogenetiky. Institut pro další vzdělávání
pracovníků ve zdravotnictví, Brno.
36. Morise, Anthony P., Diamond, George A., Detrano, Robert, Bobbio, Marco, Gunel,
Erdogan (1999). The Effect of Disease-prevalence Adjustments on the Accuracy of a
Logistic Prediction Model. Medical Decision Making 16., No 2: 133-142
101
Page 105
ZOZNAM POUŽITEJ LITERATÚRY
37. Nagelkerke, N.J.D. (1991). A note on a general definition of the coefficient of
determination. Biometrika 78: 691-692.
38. Nowell, PC, Hungerford, DA. (1960). A minute chromosome in human chronic
granulocytic leukemia. Science 132:1497-1497.
39. Pardue, M. and Gall, J. (1969). Molecular hybridization of radioactive DNA to the DNA
of cytological preparations. Proceedings of the National Academy of Sciences (PNAS) 64:
600-604.
40. Pinkel, D, Straume, T., Gray, J.W. (1986). Cytogenetic analysis using quantitative,
high-density, fluorescence hybridization. Proc Natl Acad Sci USA 83: 2934-2938.
41. Ryan, AK, Goodship, JA, Wilson, DI, Philip, N., Levy, A., Seidel, H., Schuffenhauer,
S., Oechsler, H., Belohradsky, B., Prieur, M., Aurias, A., Raymond, FL., Clayton-
Smith, J., Hatchwell, E., McKeown, C., Beemer, FA., Dallapiccola, B., Novelli, G.,
Hurst, JA., Ignatius, J., Green, AJ., Winter, RM., Brueton, L., Brondum-Nielsen, K.,
Stewart, F., Van Essen, T., Patton, M., Paterson, J., Scambler, PJ. (1997). Spectrum of
clinical features associated with interstitial chromosome 22q11 deletion: a European
collaborative study. J Med Genet 34:798-804.
42. Schröck, Evelin, Veldman, Tim, Padilla-Nash Yi Ning, Hesed, Spurbeck, Jack, Jalal,
Syed, Shaffer, Lisa G., Papenhausen, Peter, Kozma, Chahira, Phelan, Mary C.,
Kjeldsen, Eigil, Schonberg, Stephen A., O’Brien, Patricia, Biesecker, Les, du Manoir,
Stan, Ried, ,Thomas (1997). Spectral karyotyping refines cytogenetic diagnostics of
constitutional chromosomal abnormalities. Human Genetics 101 : 255–262.
43. Smith C.A., Driscoll D.A., Emanuel, B.S., McDonald-McGinn D.M., Zackai, E.H.,
Sullivan, K.E. (1998). Increased prevalence of Immunoglobulin A deficiencz in patients
with the chromosome 22q11.2 deletion syndrome (DiGeorge syndrome/velocardiofacial
syndrome). Clin Diagn Lab Immunol 5: 415-417
44. Sullivan, K.E., Jawad, E.F., Randall, P., Driscoll, D.A., Emanuel, B.S., McDonald-
McGinn, D.M., Zackai, E.H. (1998). Lack of correlation between impaired T cell
production, immunodeficiency, and other phenotypic features in chromosome 22q11.2
deletion syndromes. Clin Immunol Immunopathol 86:141-146
102
Page 106
ZOZNAM POUŽITEJ LITERATÚRY
45. Swets, John A. (1988). Measuring the Accuracy of Diagnostic Systems. Science 240:
1285-1293.
46. Swiger, R.R., Tucker, J.D. (1996). Fluorescence in-situ hybridization. Environmental
and Molecular Mutagenesis 27: 245-254.
47. Thall, Peter F., Jacoby, Derek, Zimmerman, Stuart O. (1996): Estimating Genomic
Category Probabilities from Fluorescent in situ Hybridization Counts with
Misclassification. Appl Statist. 45, No. 4: 431-446.
48. Van der Velden, V.H.J., Hochhaus, A., Cazzaniga, G., Szczepanski, T., Gabert, J.,
Van Dongen, J.J.M. (2003). Detection of minimal residual disease in hematologic
malignancies by real-time quantitative PCR:principles, approaches, and laboratory aspects.
Leukemia 17:1013-1034.
49. Weinzimer, S.A., McDonald-McGinn, D.M., Driscoll, D.A., Emanuel, B.S., Zackai,
E.H., Moshang, T., Jr (1998). Growth hormone deficiency in patients with 22q11.2
deletion: expanding the phenotype. Pediatrics 101: 929-932.
50. Wulfsberg, E.A., Leana-Cox, J., Neri, G. (1996). What's in a name? Chromosome 22q
abnormalities and the DiGeorge, velocardiofacial, and conotruncal anomalies face
szndromes. AM J Med Genet 65: 317-319.
51. Yamagishi, H., Garg, V., Matsuoka, R., Thomas, T., Srivastava, D. (1999). A
molecular pathway revealing a genetic basis for human cardiac and craniofacial defects.
Science 283: 1158-1161.
52. Zvára, Karel (2001). Biostatistika. Univerzita Karlova, Praha.
53. Zweig, Mark H. & Campbell, Gregory (1993). Receiver-Operating Characteristic
(ROC) Plots: A Fundamental Evaluation Tool in Clinical Medicine.Clnical Chemistry
39/4: 561-577.
103
Page 107
ZOZNAM POUŽITEJ LITERATÚRY
webové stránky:
www 1: Specifický inhibitor BCR-ABL tyrosinkinázy v léčbě chronické myeloidníleukémie, MEDICÍNA 5 / Roč. VIII / Strana 18 [online] http://www.zdrava-rodina.cz/med/med0501/med0531.html [21 January 2004, last date accessed]
www 2: 22q11 deletion syndrome - The kowledge database of the Swedish NationalBoard of Health and Welfare on rare diseases. 3.2.2003, document date. [online]http://www.sos.se/smkh/2003-110-6/2003-110-6.htm [13. March 2004, last date accessed]
Software
R Development Core Team (version 1.8.1, 2003). R: A language and environment forstatistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-00-3, URL: http://www.R-project.org
StatSoft, Inc. (version 6, 2003). STATISTICA Cz [Softwarový systém na analýzu dat],URL: http://www.statsoft.cz
Frank Schoonjans (version 7.2.1.0., 2003). MedCalc., URL: http://www.medcalc.be
104
Page 109
Príloha 1: Fotografie z fluorescenčného mikroskopu.
Obrázok 5: Interfázna bunka s negatívnym (a) a pozitívnym (b) signálom Ph chromozómu. Použitá
sonda: Vysis LSI bcr SpectrumGreen/ abl SpectrumOrange ES probe.
a)
b)
Page 110
Obrázok 6: 22q11.2 negatívne (a) a pozitívne (b) metafázne fluorescenčné signály sondy
Vysis LSI N25(22q11.2) SpectrumRed/LSI ARSA(22q13) SpectrumGreen DNA Probe
a)
b)
Page 111
Príloha 2: Kalibračné krivky modelov 4.2, 5.2 a 6.2 a 11.
Graf 12: Kalibračná krivka modelu 4.2.
Graf 13: Kalibračná krivka Modelu 5.2
ideálkalibrácia4.20,0018
0,31260,8081
0,89140,9870
Predikované 4.2
0,0018
0,3126
0,8081
0,8914
0,9870
Kal
ibro
vané
ideál kalibrácia5.20,0002 0,5120 0,9485
predikované 5.2
0,0002
0,5120
0,9485
Kal
ibro
vané
Page 112
Graf 14: Kalibračná krivka Modelu 6.2.:
Graf 15: Kalibrácia Modelu 11
ideál Kalibrácia6.20,0028 0,4039 0,8341
Predikované 6.2
0,0047
0,4050
0,8068
Kal
ibro
vané
ideál Kalibrácia 110,0263 0,2581
Predikované 11
0,0269
0,2693
Kal
ibro
vané
Page 113
Príloha 3:
Model 9:
formula: del~VCC+PMR+palatal
Model L.R. s.v. P C Dxy R2
6.68 3 0.0827 0.613 0.227 0.072
Beta S.E. Wald Z P
Intercept -2.7786 1.3020 -2.13 0.0328
VCC 0.3566 1.2795 0.28 0.7805
PMR 0.9678 0.5920 1.63 0.1021
palatal 1.4412 0.7176 2.01 0.0446
Validácia 4: Validácia Modelu 9.
pôvodné trénovacie test optimizmus korigované
Dxy 0.2267 0.2276 0.17139 0.0563 0.1704
R2 0.0715 0.0911 0.04016 0.0510 0.0206
g0 0.0000 0.0000 -0.83407 0.8341 -0.8341
g1 1.0000 1.0000 0.59368 0.4063 0.5937
Emax 0.0000 0.0000 0.30347 0.3035 0.3035
Graf 16: Kalibračná krivka Modelu 9.:
ideálKalibrácia 90,0585 0,1894 0,2727 0,4086 0,4968
Predikované 9
0,0585
0,1894
0,2727
0,4086
0,4968
Kal
ibro
vané
Page 114
Príloha 4: Modifikácia modelu 10 zámenou premennej Konotr za premenné
KonotrPRAO.
Použitím fit.mult.impute procedúry som dostala Model 10, a vytvorením toho istého
modelu na doplnenej datovej matici pomocou modusov (digeorgeAI3) som dostala Model
10.2. Ten som zvalidovala (viď Validácia 4). Predikované hodnoty modelu 10.2 vidíme v
Tabuľke21. ROC krivku zobrazuje Graf 17 a príslušné hodnoty špecificít a senzitivít
vzhľadom k zvolenej deliacej hranici zobrazuje Tabuľka21.2.
Model 10: Model vybudovaný pomocou funkcie fit.mult.impute
formula: del~KonotrPRAO+Imuno
Model L.R. s.v. P C Dxy R2 71.2 2 0 0.953 0.907 0.643
Beta S.E. Wald Z P Intercept -5.105 0.9808 -5.21 0.0000KonotrPRAO 2.028 0.7714 2.63 0.0086Imuno 4.572 1.0085 4.53 0.0000
Model 10.2. Model na modálnej matici dát
formula: del~KonotrPRAO+Imuno
Model L.R. s.v. P C Dxy R2 82 2 0 0.97 0.95 0.72
Beta S.E. Wald Z P Intercept -5.887 1.1368 -5.2 0.000KonotrPRAO 1.998 0.8006 2.5 0.013Imuno 5.500 1.1122 4.9 0.000
Validácia 4: Validácia Modelu 10.2.
pôvodné trénovacie test optimizmus korigované Dxy 0.946 0.945 0.943 0.0022 0.944 R2 0.724 0.741 0.712 0.0294 0.695 Intercept 0.000 0.000 0.129 -0.1287 0.129 Slope 1.000 1.000 0.763 0.2366 0.763 Emax 0.000 0.000 0.083 0.0833 0.083
Korigované štatistiky, a hlavne parametre z kalibračnej rovnice sú horšie ako v prípade
modelu bez PRAO.
Predikované pravdepodobnosti Modelu 10.2 udáva Tabuľka.
Page 115
Tabuľka 21: Predikované pravdepodobnosti Modelu 10.2
KonotrPRAO Imuno predikovane1 0 0 0.00202 1 0 0.02313 0 1 0.31354 1 1 0.8466
Tabuľka 21.2:Senzitivity, špecificity a príslušné deliace hranice Modelu13.2
hranica Špecificita Senzitivita>= 0.0020 0 (0; 0.0194) 1 (0.839; 1)> 0.0020 * 0.739 (0.673; 0.796) 1 (0.839; 1)> 0.0231 0.933 (0.889; 0.960) 0.95 (0.764; 0.997)> 0.3135 0.982 (0.952; 0.993) 0.75 (0.531; 0.888)> 0.8466 1 (0.981; 1) 0 (0; 0.161)
Graf 17: ROC krivka Modelu 13.2 a Modelu 13 aplikovaných na dáta digeorgeAI3.
Rozdiel modelu 10 oproti modelu 9.2 spočíva v tom, že v modeli 13 sa nám zvýšila senzitivita
na 75%, v prípade, že za pozitívnych budeme považovať pacientov len s obidvoma
uvažovanými fenotypovými prejavmi (KonotrPRAO a Imuno).
ROC krivka (Model 13)
0,0 0,2 0,4 0,6 0,8 1,0
1-Špecificita
0,00
0,75
0,95
Sen
zitiv
ita
AUC = 0.977SE = 0.0237IS (0.953; 0.993)
Page 116
Príloha 5. Model využívajúci všetky 4 premenné, vystavaný na modálnej matici dát.
Model 3.2:
formula: del~Konotr+Imuno+hypok+stigm
Model L.R. s.v. P C Dxy R2
92.1 4 0 0.984 0.968 0.791
Beta S.E. Wald Z P
Intercept -8.770 2.194 -4.00 0.0001
Konotr 3.101 1.209 2.56 0.0103
Imuno 5.884 1.347 4.37 0.0000
hypok 2.821 1.968 1.43 0.1517 *
stigm 2.535 1.281 1.98 0.0479 *
Page 117
Tabuľka 10: Výsledok ROC analýzy výpočtu deliacej hranice pre ES-FISH aplikovanú na detekciu Ph chromozómu u pacientov s CML
POZITÍVNA SKUPINA NEGATÍVNA SKUPINApozitivita = 1 pozitivita = 0 NN = 21 NA = 19
Plocha pod ROC krivkou = 0,940Štandardná chyba = 0,03995% Interval spoľahlivosti = 0,816 do 0,989
Sens. = SenzitivitaSpec. = Špecificita+LR = Pozitívne „likelihood ratio“-LR = Negatívne „likelihood ratio“
Hranica Sens. (95% C.I.) Spec. (95% C.I.) +LR -LR>=0 100,0 ( 83,7-100,0) 0,0 ( 0,0- 17,8) 1> 0 95,2 ( 76,1- 99,2) 57,9 ( 33,5- 79,7) 2,26 0> 0,005 95,2 ( 76,1- 99,2) 73,7 ( 48,8- 90,8) 3,62 0,06> 0,01 90,5 ( 69,6- 98,5) 78,9 ( 54,4- 93,8) 4,3 0,12> 0,015 90,5 ( 69,6- 98,5) 84,2 ( 60,4- 96,4) 5,73 0,11> 0,02 81,0 ( 58,1- 94,4) 84,2 ( 60,4- 96,4) 5,13 0,23> 0,025 81,0 ( 58,1- 94,4) 89,5 ( 66,8- 98,4) 7,69 0,21> 0,03 81,0 ( 58,1- 94,4) 94,7 ( 73,9- 99,1) 15,38 0,2> 0,035 * 81,0 ( 58,1- 94,4) 100,0 ( 82,2-100,0) 0,19> 0,11 76,2 ( 52,8 - 91,7) 100,0 ( 82,2-100,0) 0,24> 0,13 71,4 ( 47,8- 88,6) 100,0 ( 82,2-100,0) 0,29> 0,16 66,7 ( 43,0- 85,4) 100,0 ( 82,2-100,0) 0,33> 0,275 61,9 ( 38,5 - 81,8) 100,0 ( 82,2-100,0) 0,38> 0,32 57,1 ( 34,0- 78,1) 100,0 ( 82,2-100,0) 0,43> 0,4 52,4 ( 29,8- 74,3) 100,0 ( 82,2-100,0) 0,48> 0,51 47,6 ( 25,7- 70,2) 100,0 ( 82,2-100,0) 0,52> 0,74 42,9 ( 21,9- 66,0) 100,0 ( 82,2-100,0) 0,57> 0,76 38,1 ( 18,2- 61,5) 100,0 ( 82,2-100,0) 0,62> 0,82 28,6 ( 11,4- 52,2) 100,0 ( 82,2-100,0) 0,71> 0,83 23,8 ( 8,3- 47,2) 100,0 ( 82,2-100,0) 0,76> 0,86 19,0 ( 5,6- 41,9) 100,0 ( 82,2-100,0) 0,81> 0,905 14,3 ( 3,2- 36,4) 100,0 ( 82,2-100,0) 0,86> 0,915 9,5 ( 1,5- 30,4) 100,0 ( 82,2-100,0) 0,9> 0,94 4,8 ( 0,8- 23,9) 100,0 ( 82,2-100,0) 0,95> 0,98 0,0 ( 0,0- 15,6) 100,0 ( 82,2-100,0) 1
Príloha 6.