MASARYKOVA UNIVERZITA BRNO Prírodovedecká fakulta …btr.iba.muni.cz/res/file/EvaBudinska-diplomaThesis.pdfchromozómov v karyotype človeka. Molekulárna cytogenetika prináša

MASARYKOVA UNIVERZITA BRNO

Prírodovedecká fakulta

Katedra genetiky a molekulárnej biológie

Využitie štatistických metód pri molekulárnecytogenetických analýzach genetických

patologických stavov

Diplomová práca

Brno 2004 Eva Budinská

Poďakovanie

Rada by som sa na tomto mieste poďakovala všetkým ktorí mi pomáhali pri

vypracovaní diplomovej práce, a to či už praktickými radami, alebo psychickou podporou.

Konkrétne môjmu diplomovému vedúcemu doc.RNDr. Petrovi Kuglíkovi, CSc. z

Katedry molekulárnej biológie a genetiky za nepostrádateľnú podporu, odbornú pomoc a

praktické rady, RNDr. Marii Budíkovej, Dr. z Katedry aplikovanej matematiky za ochotu a

trpezlivosť s akou mi poskytovala nielen matematické konzultácie, doc. RNDr. Ladislavovi

Duškovi, Dr. z Centra bioštatistiky a analýz (CBA) za cenné pripomienky k metodike a Mgr.

Eve Gelnarovej z CBA za rady v oblasti logistickej regresie. Ďalej pani primárke OLG FN

Brno MUDr. Renate Gaillyovej, MUDr. Hane Jičínskej z Kardiologickej ambulancie FN Brno

a Mgr. Jitke Pacholíkovej PhD. z Laboratória molekulárnej biológie Internej

hematoonkologickej kliniky FN Brno za nepostrádateľné odborné konzultácie, a v

neposlednom rade celému kolektívu Molekulárne cytogenetického laboratória OLG, hlavne

pracovníčkam Ive Slámovej, Mgr. Hanke Filkovej, Mgr. Dite Žežulkovej a Mgr. Martine

Pešákovej.

Nakoniec by som rada poďakovala svojim rodičom a bratovi, ktorí mi svojou

finančnou a psychickou podporou pomohli úspešne doštudovať.

OBSAH

I. ÚVOD A PROBLEMATIKA......................................................................5

1. Úloha cytogenetiky v modernej medicíne ….............................................................5

2. Fluorescenčná in-situ hybridizácia (FISH)...............................................................6

2.1. Princíp (fluorescenčnej in-situ hybridizácie).........................................................7

2.2..Typy DNA sond a ich značenie.............................................................................8

2.3. Príprava preparátov pre metódu FISH a ich hodnotenie.......................................9

2.3.1 Používaný materiál..........................................................................................9

2.3.2. Príprava cytogenetických preparátov.............................................................9

2.3.3. Hodnotenie cytogenetických preparátov......................................................10

3. Molekulárne cytogenetické laboratórium OLG FN Brno....................................10

4. Časť I. Optimalizácia hodnotenia mikroskopických preparátov.........................12

4.1. Chronická myeloidná leukémia (CML)...............................................................13

4.1.1. Definícia a epidemiológia............................................................................13

4.1.2. Molekulárna cytogenetika CML...................................................................13

4.1.2.1. Ph chromozóm...................................................................................13

4.1.2.2. Iné chromozómové aberácie...............................................................15

4.1.3. Priebeh ochorenia a liečba............................................................................15

4.1.4.. Diagnostika a monitorovanie priebehu choroby..........................................16

4.1.5. Využitie FISH pre detekciu Ph chromozómu...............................................16

4.2. Optimalizácia spôsobu hodnotenia mikroskopických preparátov.......................17

4.2.1. Postup počítania a stanovenie n...................................................................19

4.2.2. Štatistický test pre overenie presnosti hodnotenia cytogenetických

preparátov medzi jednotlivými pracovníkmi..............................................20

4.2.3. Výpočet deliacej hranice pre ES-FISH aplikovanú na detekciu

Ph chromozómu u pacientov s očakávanou CML.....................................21

5. Časť II. Prediktívna analýza pacientov s klinickými príznakmi del22q11.2....23

5.1. Mikrodelecie........................................................................................................23

5.1.1. Syndróm CATCH22....................................................................................24

5.1.1.1. Klinické prejavy..................................................................................24

5.1.1.2. Genetický základ a embryonálny vývoj..............................................27

5.1.1.3. Dedičnosť...........................................................................................28

5.1.1.4. Genetická a klinická diagnostika....................................................... 28

5.1.1.5. Klinická liečba príznakov...................................................................

29

5.2. Úvod do regresnej analýzy..................................................................................30

II. CIELE DIPLOMOVEJ PRÁCE.......................................................................33

III. METODIKA.............................................................................................................34

1. Časť I.(Optimalizácia hodnotenia molekulárne cytogenetických preparátov).........34

1.1. Binomický test...................................................................................................34

1.2. Párový test.........................................................................................................34

1.2.1. Znamienkový test a Wilcoxonov párový test.............................................35

1.2.2. Friedmanov test..........................................................................................36

1.2.3. Software použitý pre testovanie.................................................................37

1.3. ROC analýza.................................................................................................... 37

1.3.1. Diagnostická presnosť................................................................................37

1.3.2. História.......................................................................................................38

1.3.3. Princíp........................................................................................................38

1.3.4. Senzitivita a špecificita..............................................................................39

1.3.5. Deliaca hranica (cut-off level)...................................................................40

1.3.6. ROC krivka................................................................................................42

1.3.7. Význam plochy pod ROC krivkou.............................................................44

1.3.8. Porovnávanie ROC kriviek........................................................................46

1.3.9. Interval spoľahlivosti pre plochu pod ROC krivkou..................................47

1.3.10. Veľkosť vzorky........................................................................................47

2. Časť 2.(Prediktívna analýza pacientov s klinickými príznakmi del22q11).............48

2.1. Logistická regresia............................................................................................48

2.1.1. Výstavba regresného modelu.....................................................................49

2.1.2. Odhad regresných parametrov...................................................................50

2.1.3. Metóda maximálnej vierohodnosti............................................................50

2.1.4. Testovanie hypotéz o vhodnosti modelu...................................................52

2.1.5. Interpretácia parametrov logistického regesného modelu.........................55

2.1.6. Validácia modelu......................................................................................56

2.1.6.1. Štatistiky prediktívnej schopnosti modelu.......................................56

2.2. Chýbajúce hodnoty..........................................................................................57

2.3. R plus...............................................................................................................58

IV. VÝSLEDKY.............................................................................................................63

1. Optimalizácia spôsobu vyhodnocovania mikroskopických preparátov.............63

1.1. Štatistický test pre overenie presnosti hodnotenia cytogenetických preparátov

medzi jednotlivými pracovníkmi.......................................................................63

1.1.1. Dátový súbor pre test pracovníkov............................................................. 63

1.1.2. Popisná štatistika........................................................................................64

1.1.3. Výsledky testovania ..................................................................................65

1.1.4. Odporúčaný postup pre testovanie pracovníkov ........................................66

1.2. Výpočet deliacej hranice pre ES-FISH aplikovanú na detekciu Ph chromozómu

u pacientov s očakávanou CML........................................................................67

1.2.1. Dátový súbor pre výpočet deliacej hranice..................................................67

1.2.2. Popisná štatistika.........................................................................................69

1.2.3. Stanovenie deliacej hranice pomocou ROC analýzy...................................70

2. Predikcia pacientov s del22q11.2 pomocou logistickej regresie..........................72

2.1. Dátový súbor.....................................................................................................72

2.2. Popisná štatistika...............................................................................................72

2.3. Výsledky...........................................................................................................72

V. DISKUSIA.................................................................................................................88

VI. ZÁVER.......................................................................................................................94

VII. SUMMARY...............................................................................................................96

VIII. ZOZNAM LITERATÚRY..................................................................................98

IX. PRÍLOHY...............................................................................................................105

I. ÚVOD A PROBLEMATIKA

1. Úloha cytogenetiky v modernej medicíne

S objavením štruktúry DNA v päťdesiatych rokoch minulého storočia začal významný

rozvoj metód skúmajúcich genetickú informáciu ľudskej bunky.

Stále väčší počet ochorení je spájaný so zmenami v karyotype a teda chromozómovej

výbave ľudskej bunky. Tieto zmeny sú príčinou nielen napríklad dedičných porúch či

vrodených vývojových vád, ale často i príčinou, či sprievodným prejavom nádorových

ochorení, ktorých frekvencia v dnešnej dobe stále stúpa. Dotýkajú sa i párov s poruchami

reprodukcie, pretože chromozómové aberácie môžu podmieňovať primárnu sterilitu, a majú

na svedomí asi 50% prípadov spontánnych potratov (Kuglík & Oltová, 2003). Cytogenetické

vyšetrenia, ktoré slúžia predovšetkým pre stanovenie karyotypu, sú preto v dnešnej dobe

nepostrádateľnou súčasťou modernej medicíny, hlavne klinickej genetiky.

Cytogenetické vyšetrenia prebiehajú na rôznej úrovni a slúžia predovšetkým pre

stanovenie karyotypu pacientov s vrodenými vývojovými vadami, pre upresnenie diagnózy

a prognózy niektorých nádorových ochorení a v prenatálnej diagnostike pre určenie

chromozómovej výbavy plodu.

Cytogenetika sa podľa používaných metód rozdeľuje na klasickú a molekulárnu.

Klasická cytogenetika používa klasické metódy farbenia cytogenetických preparátov, a to

najmä pruhovanie chromozómov pomocou tzv. Giemsovho farbiva, alebo orceínu. Jej

počiatky môžeme hľadať v roku 1956, kedy Tjio a Leven prvýkrát stanovili presný počet

chromozómov v karyotype človeka.

Molekulárna cytogenetika prináša nové metodiky, ktorých základom je in-situ hybridizácia,

ktorá vznikla koncom šesťdesiatych rokov. Patrí sem napríklad Fluorescenčná in-situ

hybridizácia (FISH), Komparatívna genómová hybridizácia (CGH) (Kallioniemi a kol., 1992),

Spektrálne karyotypovanie (SKY) (Schröck a kol., 1997), ale aj mnoho ďalších. Kedže veľká

väčšina metód je odvodená od fluorescenčnej in situ hybridizácie, jej presnejší princíp je

popísaný v nasledujúcej kapitole.

5

ÚVOD A PROBLEMATIKA

2. Fluorescenčná in-situ hybridizácia

(FISH)

Metóda fluorescenčnej in-situ hybridizácie je v súčasnosti jednou z najpoužívanejších

molekulárne cytogenetických techník pre zviditeľňovanie žiadaných sekvencií nukleových

kyselín priamo na cytologických preparátoch.

In-situ hybridizácia ako taká bola prvý krát popísaná v roku 1969, a to Parduovou

a Gallom, v práci, v ktorej použili metódu hybridizácie in situ repetitívnych sekvencií DNA,

značených tríciom (3H) (Pardue & Gall, 1969), a nezávisle Johnom a kol. (1969).

Rádioaktívne izotopy boli vtedy jedinou možnosťou značenia nukleových kyselín, s následnou

autorádiografickou metódou detekcie. Vzhľadom k dlhej dobe hybridizácie a nebezpečnosti

použitia rádioizotopov bolo vyvinutie FISH významným medzníkom v histórii in situ

hybridizácie. Neskorším vývojom sa metódy značenia postupne menili, takisto ako spôsoby

detekcie.

Metóda FISH bola vyvinutá v 80-tych rokoch minulého storočia, kedy rádioaktivitu

nahradilo značenie pomocou fluorescencie (Landegend a kol, 1984; Pinkel a kol., 1986).

K hlavným výhodám fluorescenčného značenia v porovnaní s rádioaktívne značenými

sondami patrí: bezpečnosť, vysoká citlivosť, krátka doba hybridizácie, rýchle vyhodnocovanie

pomocou mikroskopu, dostatočná stabilita a možnosť použitia väčšieho počtu rôzne

značených sond (Eastmond a kol., 1995)

Pomocou FISH možno zviditeľniť jednokópiové gény, repetitívne sekvencie, určité

chromozómové oblasti, celé chromozómy, alebo aj celý genóm. Výhodou tejto techniky je, že

na rozdiel od klasických cytogenetických metód, je použiteľná aj na chromozómy

v interfáznom stave buniek. Cytologické preparáty pre FISH technológiu môžu obsahovať

morfologicky zachované chromozómy, bunkové jadrá alebo tkanivové rezy (Hopman a kol.,

1988). Podľa toho, v akom stave bunkového cyklu je možné robiť cytogenetické vyšetrenie,

rozlišujeme:

a) interfáznu (vyšetrenie na interfáznych jadrách, I-FISH)

b) a metafáznu (vyšetrenie na mitózach) techniku FISH (M-FISH).

Síce sa metódy značenia sond a ich detekcie od popísania in-situ hybridizácie podstatne

zmenili, jej základný princíp je dodnes rovnaký a popisuje ho nasledujúca kapitola.

6


2.1. Princíp (fluorescenčnej) in-situ hybridizácie

In-situ hybridizácia využíva snahu jednoreťazcovej DNA párovať sa

s komplementárnou sekvenciou a vytvoriť tak pôvodnú štruktúru dvojzávitnice. Na základe

sekvencie, ktorú sa snažíme zviditeľniť je preto pripravený komplementárny doplnok,

nazývaný sonda. Pôvodná cieľová DNA a sonda sa zahriatím na 100°C denaturujú, čo

znamená, že ich dvojzávitnicové vlákna sa od seba oddelia. Po spätnej renaturácii sa vlákna

znovu spárujú, za vzniku 4 možných duplexov (Swiger a Tucker, 1996):

1. cieľová sekvencia – cieľová sekvencia

2. sonda – sonda,

3. sonda – cieľová sekvencia ako stabilný (špecifický) hybrid a

4. nestabilný (nešpecifický) hybird.

Pri FISH je sonda je označená fluorescenčným farbivom a vzniknutý duplex sonda-cieľová

sekvencia, nazývaný stabilný hybrid, je potom detekovateľný pomocou fluorescencie pod

fluorescenčným mikroskopom. Nešpecifické hybridy sa pôsobením stringentných podmienok

rozpadajú, duplexy sonda-sonda nie sú viazané na sklíčko, takže počas posthybridizačného

odmývania sú odstránené a duplexy cieľová sekvencia – cieľová sekvencia zas nie sú

označené, takže nie sú detekovateľné.

Princíp fluorescenčnej in-situ hybridizácie znázorňuje nasledujúci obrázok:

Obrázok 1. Princíp techniky fluorescenčnej in-situ hybridizácie

7


2.1. Typy DNA sond pre techniku FISH a ich

značenie

Podľa cieľového miesta, na ktoré sa sondy viažu rozdeľujeme sondy na:

1. sondy pre špecifické chromozómové štruktúry

Viažu sa na dlhé repetitívne sekvencie charakteristické pre určitý chromozóm. Patria sem

sondy centromérové a telomérové.

2. sondy pre jedinečné sekvencie DNA

Tieto typy sond sú pripravené pre špecifickú sekvenciu v genóme. Identifikujú sa nimi

jednotlivé gény a to ako na metafáznych chromozómoch, tak aj v interfáznych jadrách.

3. celochromozómové sondy

Predstavujú súbor niekoľkých sond, ktoré hybridizujú s jedinečnými sekvenciami určitého

cieľového chromozómu a zviditeľňujú tak celý chromozóm (chromozómové maľovanie).

Párujú sa s metafáznymi chromozómami. Slúžia pre detekciu translokácií a stanovenie

pôvodu markerových chromozómov.

4. genómové sondy

Genómové sondy sú z celkovej genómovej DNA, ktorá slúži napríklad pre identifikáciu

chromozómov určitého druhu v hybridných somatických bunkách.

Značenie pomocou fluorescencie je nerádioaktívna metóda značenia. Sondy pre techniku

FISH môžu byť značené dvoma spôsobmi, priamo a nepriamo. Priame značenie znamená, že

molekula farbiva je priamo spojená so sondou, naproti tomu nepriame využíva označené

špecifické protilátky, alebo označený proteín na detekciu molekuly, ktorá je spojená so

sondou. Pre priame značenie sa využíva fluoresceín a rhodamín, pre nepriame značenie biotín

a digoxigenín (Michalová, 1999).

8


2.3. Príprava preparátov pre metódu FISH a ich

hodnotenie

2.3.1. Používaný materiálAko už bolo uvedené, cytologické preparáty pre FISH technológiu môžu obsahovať

morfologicky zachované chromozómy, bunkové jadrá alebo tkanivové rezy (Hopman a spol.,

1988).

Pre prenatálne vyšetrenia plodu slúži plodová voda, ktorá sa získava amniocentézou

(transabdominálny odber plodovej vody punkčnou ihlou pod kontrolou UZ - ultrazvuku),

prípadne fetálna krv (T-lymfocyty) odobraná pomocou kordocentézy (abdominálny odber

fetálnej krvi z pupočníku, takisto pod kontrolou UZ). Pre postnatálne vyšetrenia slúžia bunky

periférnej krvi, konkrétne T-lymfocyty. Nádorová cytogenetika zas vyšetruje kostnú dreň

a odtlačky nádorov.

2.3.2. Príprava cytogenetických preparátov

V závislosti od typu materiálu sa líšia aj techniky jeho spracovania.

Základný postup spracovania materiálu je nasledujúci (Michalová, 1999):

1. kultivácia buniek – krátkodobá (24-72 h.) alebo dlhodobá. Tento bod sa môže vynechať,

obzvlášť v prípade nádorových buniek, prípadne sa používa len krátkodobá kultivácia

(pri dlhodobej kultivácii by mohol získať výhodu klon s väčšou schopnosťou proliferovať

in vitro, a tým by bol skreslený výsledok zastúpenia klonov v nádore). V prípade potreby

buniek v stave mitózy sa do kultivačného média pridáva kolchicín.

2. hypotonizácia – bunky sa po prvotnej fixácii rôznymi fixačnými činidlami ponechávajú

istú dobu v hypotonickom roztoku, (najčastejšie 0.075 M KCl)

3. fixácia – opakovaná fixácia (najčastejšie roztok metanol:kyselina octová, v pomere 3:1)

4. kvapkanie pripravenej suspenzie buniek na podložné sklíčko - cytogenetické preparáty

sa pripravujú z fixovaných, predošlým spôsobom pripravených bunkových suspenzií,

kvapkaním na špeciálne pripravené podložné sklíčka .

Výhodou metódy FISH je, že sa môže aplikovať aj na bunky nekultivované a bunky

9


v interfáznom stave. Základný postup prípravy FISH preparátu je stručne popísaný

v nasledujúcich bodoch (Michalová, 1999):

1. denaturácia – denaturácia sondy a cieľovej DNA krátkou inkubáciou vo formamidovom

roztoku (organické rozpúšťadlo, ktoré redukuje teplotu renaturácie) pri teplote cca 70°C

2. renaturácia (vlastná hybridizácia) – znížením teploty na 37°- 42°C dochádza k väzbe

komplementárnych úsekov DNA fixovanej na preparátoch s označenou DNA sondy

3. vymývanie nešpecificky naviazanej sondy a príprava skla pre mikroskopickú analýzu

4. mikroskopická analýza

2.3.3. Hodnotenie cytogenetických preparátovPripravený cytogenetický preparát sa hodnotí pod fluorescenčným mikroskopom.

V prípade interfáznej FISH sa na každom preparáte počíta 100-500 buniek a hodnotí sa

prítomnosť a typ daných fluorescenčných signálov, v závislosti od druhu vyšetrovanej

aberácie. Nakoniec sa vyjadrí podiel pozitívnych buniek v percentách, pričom ako pozitívna

bunka sa berie bunka s prítomnou vyšetrovanou aberáciou. V prípade metafáznej FISH sa

hodnotí okolo 25 metafáz, v každej z nich prítomnosť a počet daných signálov. Vyjadruje sa

počet pozitívnych metafáz (pozitívna metafáza – metafáza s prítomnou vyšetrovanou

aberáciou).

3. Molekulárne cytogenetické laboratórium

Oddelenia lekárskej genetiky FN Brno.

Cytogenetické vyšetrenia prebiehajú vo vysoko špecializovaných laboratóriách.

V Českej republike sú cytogenetické laboratóriá súčasťou Oddelení lekárskej genetiky, ktoré

sa zaoberajú genetickým poradenstvom. Jedným z takýchto laboratórií je i molekulárne

cytogenetické laboratórium Oddelenia lekárskej genetiky Fakultnej nemocnice Brno.

Činnosť Laboratória molekulárnej cytogenetiky, ktoré je spoločným pracoviskom

Katedry genetiky a molekulárnej biológie Prírodovedeckej fakulty MU v Brne a Oddelenia

lekárskej genetiky Fakultnej nemocnice Brno (OLG FN Brno)-pracovisko Detská nemocnica,

v ktorom som pracovala na svojej diplomovej práci, je zameraná na vyšetrovanie

10


štruktúrnych a početných zmien chromozómov pomocou molekulárne cytogenetických metód.

V prenatálnej a preimplantačnej diagnostike, v rámci odhaľovania početných

chromozómových zmien u embryí alebo u plodov s podozrením na možnosť geneticky

podmieneného ochorenia, sa z plodovej vody, fetálnej krvi či embryonálnych buniek vyšetrujú

najčastejšie

➢ trizómia chromozómov 8, 13, 21,

➢ počet a zostava gonozómov X a Y

➢ prípadne chromozomálne mikrodelecie (del 22q11)

Pri postnatálnom vyšetrení sa používajú prevažne bunky periférnej krvi (lymfocyty).

Okrem detekcie mikrodelečných syndrómov (kam patrí napr. DiGeorgeov, Prader-

Williho/Angelmanov a Williams-Beurenov syndróm) sa analyzuje pôvod markerových

chromozómov, identifikujú a upresňujú sa štruktúrne chromozómové aberácie (delecie,

translokácie....) a podobne.

V spolupráci s onkologickými pracoviskami sa robia onkocytogenetické vyšetrenia,

zamerané na detekciu významných chromozómových zmien u niektorých hematologických

malígnych ochorení a u solídnych nádorov. Spracovávaným materiálom bývajú kultivované

bunky kostnej drene, odtlačky nádorov a nádorové tkanivá. U hematologických malignít sa

vyšetruje napríklad prítomnosť translokácie t(9;22) BCR/ABL u chronickej myeloidnej

leukémie, translokácie t(8;21) u akútnej lymfatickej leukémie, alebo delecií del(5)(q31),

del(5)(q33), del(7)(q31) vyskytujúcich sa u myelodysplastického syndrómu. Zo solídnych

nádorov sa vyšetrujú chromozómové aberácie neuroblastomu, meduloblastomu, karcinómu

prsníka, retinoblastomu a multiformného glioblastomu.

Najčastejšie používané molekulárne cytogenetické metódy v tomto laboratóriu, ktoré

sú zároveň aj hlavnými oblasťami jeho vedeckej činnosti sú

➢ fluorescenčná in-situ hybridizácia (FISH), interfázna aj metafázna,

➢ komparatívna genómová hybridizácia (CGH) a

➢ spektrálne karyotypovanie (SKY)

11


4. ČASŤ I.

Optimalizácia hodnotenia molekulárne

cytogenetických preparátov

Hodnotenie cytogenetických preparátov na chromozómoch v interfáznych jadrách je

založené na vizuálnej analýze fluorescenčných signálov jednotlivými pracovníkmi. Podľa

typu vyšetrenia a typu DNA sondy sa hodnotí počet signálov a poloha signálu. Toto

hodnotenie môže byť sťažené rôznymi faktormi, ktoré sú nakoniec príčinou možných

odchýlok. Patria sem napríklad tie, ktoré vznikajú pri samotnej príprave preparátu. V prípade

nedokonalej hybridizácie môžu niektoré bunky postrádať fluorescenčný signál, naopak

nedostatočné vymytie sondy môže spôsobiť prítomnosť prebytočného fluorescenčného

signálu. Ďalším faktorom je poloha chromozómov v bunke, ktorých náhodné prekrytie môže

spôsobiť prítomnosť falošného pozitívneho signálu, a podobne.

Záber vyšetrovaných aberácií a používaných metód v cytogenetickom laboratóriu je

široký. Ako som už spomínala, v cytogenetickej praxi sa pri vyhodnocovaní mikroskopických

preparátov stretávame s rôznymi problémami a otázkami. Mnohé závisia od typu použitej

metódy a vyšetrovanej odchýlky. Napríklad, aký by mal byť optimálny počet hodnotených

buniek na preparátoch, aby bola zosúladená časová náročnosť s čo najväčšou presnosťou.

S tým súvisí určenie chyby, s akou pracovníci počítajú, a nemenej dôležité stanovenie deliacej

hranice (cut-off levelu) pre diskrimináciu medzi pozitívnymi a negatívnymi preparátmi.

Z vyššie uvedeného tiež vyplýva potreba štatistického testu, ktorý by sa dal použiť na overenie

presnosti hodnotenia cytogenetických preparátov jednotlivými pracovníkmi. Takýto test by sa

dal použiť na otestovanie, či sa nový pracovník svojimi výsledkami hodnotenia preparátu

významne odlišuje od skúsených pracovníkov, a teda či je už dostatočne skúsený na to, aby

mohol nastúpiť hodnotenie pre klinickú prax. Z matematického hľadiska to znamená nájsť

vhodný štatistický test, ktorý by testoval hypotézu o zhode výsledkov. V prípade jej

nezamietnutia by nový pracovník mohol používať deliacu hranicu stanovenú pre danú metódu

a danú chromozómovú odchýlku.

Zodpovedať na niektoré z vyššie uvedených otázok, teda načrtnúť spôsob a nájsť

štatistické metódy, ktoré sa dajú použiť pre optimalizáciu vyhodnocovania cytogenetických

preparátov v cytogenetickom laboratóriu som sa snažila v prvej časti mojej diplomovej práce.

12


Pretože záber vyšetrovaných chormozómových aberácií cytogenetického laboratória OLG je

veľmi veľký a používané techniky značne odlišné, zamerala som sa na optimalizáciu

cytogenetického vyšetrovania genetickej zmeny jedného ochorenia pomocou jednej metódy.

Konkrétne na optimalizáciu hodnotenia prítomnosti Ph chromozómu u pacientov

s očakávanou chronickou myeloidnou leukémiou (CML) pomocou extrasignálovej in-situ

hybridizácie (ES-FISH). CML je venovaná nasledujúca kapitola.

4.1. Chronická myeloidná leukémia

4.1.1. Definícia a epidemiológia

Chronická myeloidná leukémia (CML) je klonálne myeloproliferatívne ochorenie,

ktoré vzniká malígnou transformáciou primitívnych hematopoetických kmeňových buniek

(Faderl a kol., 1999). Jedná sa teda nádorové ochorenie krvotvorby.

Zahŕňa myeloidné, monocytárne, erytroidné, megakaryotické, B-lymfocytické

a niekedy aj T-lymfocytické línie buniek. Dôsledkom tejto malígnej premeny je ohromné

zmnoženie nezrelých i zrelých krvných buniek v kostnej dreni, krvi i v množstve tkanív. CML

nie je vzácna, zahŕňa asi 15-20% všetkých leukémií a najčastejšie sa vyskytuje u osôb

stredného a vyššieho veku (25 – 60 rokov), častejšie u mužov, ale v posledných rokoch sa

rozdiel medzi mužmi a ženami stiera.

4.1.2. Molekulárna cytogenetika CML

4.1.2.1. Ph chromozóm

CML je ochorenie charakterizované špecifickou zmenou karyotypu –

tzv. Filadelfským (Ph) chromozómom, ktorý bol objavený v roku 1960 (Nowell &

Hungerford, 1960). Vtedy bol považovaný za deletovaný chromozóm skupiny G, ale v roku

1973 zistila Rowleyová, že sa jedná o recipročnú translokáciu medzi chromozómami 22 a 9,

konkrétne medzi ich dlhými ramienkami a pozíciách 9q34 a 22q11(viď obr. 2).

Touto translokáciou sa k sebe dostáva Abelson (abl) onkogén na chromozóme 9

a tzv. “breakpoint cluster región” (bcr) – región na chromozóme 22. Tým vzniká fúzny

13


bcr-abl gén, ktorý produkuje abnormálny bcr/abl proteín. Jeho hmotnosť sa odlišuje

v závislosti od miest zlomu, ktoré sú typické pre jednotlivé formy leukémie u ktorých sa

vyskytuje. Bcr a abl sú normálne gény, ktorých funkcie zatiaľ nie sú úplne známe. Vie sa ale,

že abl kóduje tyrozínkinázu, ktorej aktivita v bunke je prísne regulovaná. Naproti tomu

produktom bcr/abl génu je abnormálny tyrozín-kinázový proteín.

zdroj: http://www.medical.philips.com/main/news/assets/docs/medicamundi/mm_vol47_no1/07_cornelisse.pdf

Tento proteín je možné nájsť takmer u všetkých pacientov s CML a je považovaný

za bezprostredne priamu príčinu vzniku CML (www 1) a zdá sa byť zodpovedný

za pravdepodobne všetky fenotypové prejavy buniek CML (Mayer & Starý, 2002).

Uvádza sa, že Ph chromozóm sa vyskytuje u viac ako 90% chorých s CML (Kurzrock

a kol., 1988). Ďalších 5% pacientov s CML má Ph chromozóm odvodený od komplexných

variánt translokácie t(9;22)(q34;q11.2), ktoré zahŕňajú 3 a viac chromozómov. U ostatných

5% pacientov s typickou CML sa vyskytuje maskovaný Ph chromozóm, ktorý nie je

detekovateľný pomocou konvenčných cytogenetických techník, iba pomocou molekulárnych

techník (Dewald, 2002; Mayer & Starý, 2002). U CML, u ktorej sa nevyskytuje gén

BCR/ABL, sa podľa Mayera a Starého (2002) jedná buď o zlé diagnózy (iné typy

myeloproliferatívneho alebo myelodysplastického syndrómu s myeloproliferáciou) alebo

o tzv. atypické CML, ktoré majú iný priebeh ochorenia a sú prognosticky podstatne horšie.

Okrem CML je možné Ph chromozóm detekovať aj u špeciálnej formy akútnej

lymfatickej leukémie (ALL) u asi 3% detí a 20% dospelých. Táto translokácia je takisto

pozorovaná u 1% pacientov s de novo akútnou myeloidnou leukémiou (AML). Úplne

14

Obrázok 2.:Znázornenie vzniku tzv. Filadelfského(Ph) chromozómu reciprokoutranslokáciou medzi dlhými ramienkamichromozómov 9 a 22 .


výnimočne sa vyskytuje u myelodysplastického syndrómu (MDS), kde vzniká sekundárne.

Dôležité je, že Ph chromozóm je pozorovaný takmer v 100% mitóz v dobe diagnózy

a je prítomný aj v priebehu ochorenia, pokiaľ nie je chorý vyliečený alogénnou

transplantáciou kostnej drene.

4.1.2.2. Iné chromozómové aberácie

V dobe akcelerácie a blastického zvratu sa objavujú okrem Ph chromozómu aj iné

charakteristické chromozómové aberácie, ktorých prítomnosť zhoršuje prognózu ochorenia.

Patria sem

- zdvojenie Ph chromozómu

- trizómia chromozómu 8 (+8) a 19 (+19)

- izochromozóm dlhých ramien chromozómu 17 (i17q)

- -Y, -7,-17,+17,+21 (Mayer, Starý a kol., 2002)

4.1.3. Priebeh ochorenia a liečba

Priebeh CML má 3 základné fázy:

1. chronická fáza – trvá niekoľko mesiacov až rokov a dochádza pri nej k postupnému

zvyšovaniu počtu stredne zrelých leukocytov v obvodovej krvi a v kostnej dreni

2. akcelerovaná fáza – je obdobie, v ktorom ochorenie ešte nesplňuje kvantitatívne kritériá

blastického zvratu, ale jeho klinický priebeh už neodpovedá chronickej fáze. V tejto fáze sa

postupne do krvi vyplavujú aj najmladšie formy leukocytov a ich množstvo narastá v krvi

postupne, behom týždňov až mesiacov. Je charakterizované zvýšenou aktivitou ochorenia

a zhoršenou odpoveďou na liečbu.

3. blastický zvrat – je akútna transformácia chronickej fázy, prebieha veľmi rýchlo,

v priebehu dní či niekoľkých málo týždňov

15


Až do preukázania, že CML je možné vyliečiť tzv. alogénnou transplantáciou kostnej

drene, bolo cieľom liečby oddialiť blastický zvrat ochorenia a predĺžiť tak prežitie chorých.

Táto stratégia je doposiaľ uplatňovaná u tých jedincov, ktorí nemôžu z rôznych dôvodov

alogénnu transplantáciu podstúpiť. V chronickej fáze pripadá do úvahy hlavne Interferón alfa

a perorálna chemoterapia. Najnovším objavom je STI 571 (Signal-transduction inhibitor),

látka, ktorá selektívne inhibuje tyrozínkinázovú aktivitu ABL. V klinickej praxi je od roku

1998 a doterajšie skúsenosti ukazujú, že ide o najúčinnejší liek, ktorý bol kedy u CML

použitý. Viac o jednotlivých terapiách viď. Mayer a Starý (2002).

4.1.4. Diagnostika a monitorovanie priebehu choroby

Okrem vyšetrenia krvného obrazu, v ktorom dominuje leukocytóza a relatívne nízke

zastúpenie lymfocytov sa vyšetruje aj kostná dreň (tu zmnožené eozinofily, hlavne bazofily)

a biochemické markery (charakteristická je vyššia hladina kyseliny močovej, u niektorých

pacientov aj LDH a hladina vitamínu B12).

Štandardnou metódou pre potvrdenie diagnózy CML ostáva konvenčné cytogenetické

vyšetrenie, vyšetrenie pomocou FISH, alebo polymerázovou reťazovou reakciou (PCR)

s využitím reverznej transkriptázy (RT-PCR) (Mayer & Starý, 2002). Pre detekciu reziduálnej

choroby sa používa omnoho citlivejšia metóda Real Time PCR (Velden a kol., 2003).

4.1.5. Využitie FISH pre detekciu Ph chromozómu

Základom všetkých FISH metód používaných pre detekciu Ph chromozómu sú sondy,

ktoré sú v rôznom rozsahu (v závislosti od typu metódy) komplementárne k špecifickým

oblastiam zlomov na obidvoch zúčastnených chromozómoch. Oblasť chromozómu 22 je

väčšinou značená zelenou fluorescenčnou farbou a oblasť chromozómu 9 zas červenou.

V prípade fúzie sa vedľa seba dostáva teda červený a zelený signál, čo sa prejaví buď ako

tesne spojený zelený a červený signál, alebo ako žltá fluorescencia.

ES-FISH (extrasignálová FISH) spolu s S-FISH (single fusion FISH) a D-FISH

(double fusion FISH) sú tri v súčastnosti najznámejšie metódy FISH používané pre detekciu

Ph chromozómu (Dewald, 2002). Líšia sa navzájom nielen typom kombinácie a počtov

signálov (teda typom sondy) ale aj citlivosťou.

S-FISH je prvou FISH metódou, ktorá bola vyvinutá pre účel diagnostiky

16


Ph chromozómu. Využíva abl sondu, ktorá hybridizuje s telomerickou stranou bodu zlomu na

chromozóme 9 a bcr sondu, ktorá hybridizuje s centromerickou stranou fúzneho miesta

Ph chromozómu (viď. obr. 3.).

Obrázok 3: Väzobné miesta jednotlivých typov sond FISH metódy pre detekciu Ph chromozómu.

V prípade prítomnosti brc/abl fúzie je teda okrem jedného červeného a jedného

zeleného signálu jej produktom len jediný bcr/abl (fúzny) signál. D-FISH naproti tomu

využíva abl a bcr sondy zložené zo sekvencií, ktoré sú komplementárne k regiónom

prekrývajúcim body zlomu na obidvoch chromozómoch z obidvoch strán. Výsledkom tejto

metódy je v prípade Ph pozitívnej bunky jeden červený, jeden zelený a dva fúzne (žlté)

signály (viď obr. 3.).

ES-FISH (ktorá je používaná aj v cytogenetickom laboratóriu OLG) využíva abl

sondu, ktorá hybridizuje k regiónu prekrývajúcemu bod zlomu na chromozóme 9 a bcr sondu,

ktorá hybridizuje na centromerickej strane bcr chromozómu 22. Pri pozorovaní pozitívnej

bunky teda môžeme vidieť jeden zelený signál, jeden červený signál, jeden fúzny (žltý) signál

a ešte jeden menší červený signál (zbytkový na chromozóme 9), ktorý ukazuje, že sa nejedná

len o náhodné prekrytie chromozómov 22 a 9 v priestore (obr.3). ES-FISH patrí medzi

najefektívnejšie FISH metódy pre odhad odpovede na terapiu, pretože má vysokú analytickú

senzitivitu Bu n o a kol. , 1998 .

Ako už bolo spomínané, všetky tieto metódy sa líšia svojou citlivosťou, alebo inak

povedané, mierou falošnej pozitivity. S-FISH má vďaka možnosti náhodného prekrytia

signálov v bunke, ktorá je samozrejme trojrozmerná, najvyššiu falošnú pozitivitu, ktorá je

17

Chromozómový zlom

t(9;22) typ signálu

Signál viditeľný v interfáznej bunke

S-FISH

D-FISH

ES-FISH


odhadovaná na cca 10%. ES-FISH a D-FISH majú oproti tomu omnoho nižšiu falošnú

pozitivitu, 3% a 1% v uvedenom poradí. (Dewald, 2002; Dewald a kol, 1998)

4.2. Optimalizácia spôsobu hodnotenia

mikroskopických preparátov

Pozitivita u CML pacientov sa stanovuje na základe hodnotenia prítomných vyššie

uvedených fluorescenčných signálov. V cytogenetickom laboratóriu OLG Detskej nemocnice

v Brne sa na potvrdenie diagnózy CML a monitorovanie odpovede na terapiu používa

ES-FISH, za použitia sondy Vysis LSI bcr SpectrumGreen/ abl SpectrumOrange ES probe.

Na mikroskopickom FISH preparáte bunkami kostnej drene (KD) sa počíta n (100-

500) buniek, a z tohoto počtu sa určuje percento pozitívnych buniek, teda buniek s bcr-abl

fúznym signálom. Fotografie získané z fluorescečného mikroskopu znázorňujúce pozitívny

a negatívny prípad prítomnosti Ph chormozómu viď Obr.5. Príloha 1.

Jedná sa teda o náhodnú veličinu s binomickými rozdelením Bi n , . Kde n je počet

hodnotených buniek, a p je pravdepodobnosť „úspechu“ (v našom prípade pravdepodobnosť

nájdenia pozitívnej bunky) (pre viac informácií o binomickom rozdelení viz. napr. Zvára

(2001)

Dôležitým kritériom pri vyhodnocovaní fluorescenčných signálov je, aby počítané

bunky boli hodnotiteľné, čo znamená, že sú to:

1) bunky samostatné, ktoré sa neprekrývajú s inými, nedotýkajú sa navzájom bunkovými

stenami, ani netvoria zhluky a

2) bunky s dobre viditeľným signálom.

18


4.2.1.Postup počítania a stanovenie n

Ak vychádzame z predpokladu, že bunky na preparáte, obzvlášť ak je horšej kvality,

nemusia byť rovnomerne rozložené, dospejeme k záveru, že je lepšie bunky vyberať

z viacerých sektorov mikroskopického sklíčka.

Odpoveď na otázku optimálneho počtu hodnotených buniek, súvisí s faktom, že

deliaca hranica sa stanovuje pre určité n počítaných buniek a pre určitú danú metódu

a chromozomálnu aberáciu. To znamená, že môže byť aplikovaná len na preparát rovnakého

druhu, s rovnakým počtom spočítaných buniek. V prípade že na testovanom preparáte by bolo

spočítaných k < n buniek, napríklad 100 namiesto 200, mohlo by sa stať, že ak použijeme

deliacu hranicu spočítanú na 200 buniek, zaradíme negatívneho pacienta ako pozitívneho

a naopak. S narastajúcim n totiž pre ten istý počet pozitívnych buniek hodnota cutoff levelu

klesá, a my nemôžeme jednoducho predpokladať, že ak sme mali 2% pozitívnych buniek

zo 100, bude to tak, aj keď prípadne dopočítame tých ďalších 100 buniek do 200 (teda, že

napočítame ďalšie dve pozitívne bunky, a percentá sa nám nezmenia).

Deliaca hranica stanovená pre n buniek sa tak nedá použiť pre k≠n . Je teda veľmi

dôležité stanoviť n nielen tak, aby bola chyba odhadnutých percent čo najmenšia, ale aj

v súlade s časovými možnosťami (spočítať 6000 buniek je určite veľmi presný spôsob, ale pre

bežné hodnotenie zbytočne časovo náročný).

Riešenie problému počtu buniek n je vlastne analogické s plánovaním experimentu

a veľkosťou vzorky. Pri plánovaní veľkosti vzorky sa vychádza z predpokladov o rozdelení

skúmanej náhodnej veličiny, a zo známeho rozptylu v populácii. Ak chceme v testovaní

hypotézy preukázať štatisticky významný rozdiel, potom nám stačí dosadiť do príslušnej

štatistiky pre to používanej všetky hodnoty okrem n a toto vypočítať.

V dnešnej dobe je problém počtu analyzovaných buniek v literatúre pomerne dobre

obsiahnutý. Početné štúdie ukazujúce z rôznych hľadísk počty buniek, sily testov

a experimentálne skúsenosti rôznych laboratórií riešia tento problém celkom efektívne.

Dewald, Stallard a kol. (1998) odvodzujú, že množstvo buniek, ktoré by mali byť

analyzované pre dosiahnutie očakávanej sily tesovej citlivosti závisí na stupni spoľahlivosti,

ktorý je vyžadovaný, na hladine mozaicizmu, ktorá má byť vylúčená a na analytickej

senzitivite sondy. Dewald (2002) tiež tvrdí, že vysoká senzitivita nových testov FISH je

efektívna pri spočítaní 500 a viac buniek. Iná štúdia ukázala, že spočítanie 500 interfáznych

buniek pomocou FISH má senzitivitu spočítania 25 metafáznych jadier klasickými

19


cytogenetickými metódami Bu n o a kol. , 1998 .

Thall, Jacoby & Zimmerman (1996) simuláciami silových funkcií na základe 0.025

Likelihood ratio testu ukázali, že pri hodnotení Ph preparátov pomocu S-FISH je potrebné

spočítať aspoň 200 buniek, aby sme mali dostatočnú pravdepodobnosť detekcie pozitívnych

buniek už pod 5%.

Dewald (2002) odporúča 200 buniek tiež ako najmenšiu hodnotu, pretože táto chyba je pre

interpretáciu výsledku prijateľná. Pre nájdenie reziduálnej choroby u CML odporúča spočítať

6000 buniek.

4.2.2. Štatistický test pre overenie presnosti hodnotenia

cytogenetických preparátov medzi jednotlivými

pracovníkmi

V laboratóriu pracujú momentálne traja vysokoškolskí pracovníci, ktorí po zaškolení

hodnotia mikroskopické preparáty CML. Potreba štatistického testu pre overenie presnosti

hodnotenia cytogenetických preparátov medzi jednotlivými pracovníkmi vyvstala z potreby

otestovania či pracovníci nemajú odlišné kritériá hodnotenia. Takýmto testom by sa mohla

testovať spôsobilosť nového pracovníka pre nastúpenie hodnotenia pre klinickú prax.

Všeobecne sa predpokladá, že pracovníci by sa nemali navzájom odlišovať o viac ako 5%.

Z matematického hľadiska je však lepšie mať hypotézu o zhode podloženú štatistickým

testom.

Pri jeho hľadaní vychádzame z faktu, že náhodná veličina X predstavujúca percentá

pozitívnych buniek z n počítaných (teda počet „úspechov“ z n pokusov) má binomické

rozdelenie, X~Bi n ,. Akékoľvek testy predpokladajúce normalitu dát sú teda

neaplikovateľné. Ak chceme porovnávať náhodné výbery z takéhoto rozloženia, musíme sa

zamerať na testy neparametrické. Výnimkou je binomický test, ktorý testuje hypotézu, že dva

náhodné výbery pochádzajú z binomického rozdelenia s rovnakou pravdepodobnosťou

úspechu.

Neparametrickou alternatívou t-testu pre 2 závislé vzorky je Wilcoxonov párový test

a znamienkový test. Pre porovnávanie viacerých závislých výberov slúži Friedmanova

ANOVA. O jednotlivých testoch bude podrobnejšie pojednávané v metodickej časti.

20


4.2.3. Výpočet deliacej hranice pre ES-FISH aplikovanú

na detekciu Ph chormozómu v bunkách kostnej drene u

pacientov s očakávanou CML

Stanovenie deliacej hranice (cutpointu, cutoff levelu) je v cytogenetickej klinickej

praxi azda najdôležitejšou otázkou. Deliaca hranica je experimentálne a umelo stanovená

hranica, ktorá oddeľuje preparáty (jednotlivé prípady, pacientov) na pozitívne a negatívne.

Väčšinou priamo súvisí s falošnou pozitivitou danej metódy. Teda s prípadmi, ktoré sú reálne

negatívne, ale daná metóda ich označila za pozitívne. Správne určenie diagnózy pacienta je

veľmi dôležité, a bráni ďalším prípadným zbytočným vyšetreniam, alebo chirurgickým

zákrokom. Na OLG Detskej fakultnej nemocnice v Brne sa pre detekciu Ph chromozómu

používa ES-FISH, konkrétne sonda Vysis LSI BCR/ABL ES Dual Color Translocation Probe.

Výrobca tejto sondy stanovil jej analytickú senzitivitu na 98%, teda falošná pozitivita je 2%.

Hranica falošnej pozitivity však nezávisí len od senzitivity použitej sondy, aj keď je to

samozrejme podstatný faktor. Závisí od kvality preparátu, a v neposlednom rade

od pracovníka, ktorý preparát hodnotí.

Thall, Jacoby & Zimmerman (1996) používajú pre odhadnutie pravdepodobnosti

misklasifikácie metódu maximálnej vierohodnosti, pričom vierohodnostná funkcia vychádza

z multinomického rozdelenia:

L/Z ×∏i=1

N

L i ,/W i=L /Z ×∏i=1

N

∏k=1

K

ikW ik (1.1)

kde L/Z =∏k=1

K

k2Z k je multinomiálny vzťah založený na vektore Z = ( Z1, ..., Zk )

počtov genomických kategórií z m normálnych buniek (kontrolné vzorky) a

L ,/W =∏k=1

K

kW k ,=∏

k=1

K {∑j=1

K

kj j}W k

je vierohodnosť založená na počtoch

genomických kategórií pacientov W = ( W1, ..., Wk ). Wk a Zk sú počet buniek z n a m

hodnotených, ktoré boli pozorované ako typ k, v uvedenom poradí. Typ k znamená, že

v bunke bolo pozorovaných k rôznych signálov (teda ak k=2, znamená to červený a zelený typ

signálu, a teda sa jedná o normálnu bunku; pri k=3 je to jeden zelený, jeden červený a jeden

žltý, a tak sa jedná o bunku s bcr/abl fúziou). Riešia rôzne typy modelov, v závislosti od toho,

21


či sa pripúšta existencia k=1 a k=4 vzorov alebo nie.

Tento spôsob je istotne matematicky veľmi zaujímavý, ale príliš zložitý aby sa dal odporučiť

ako metóda pre biológov v laboratórnej praxi.

Naproti tomu Dewald (2002) odporúča spočítať 20 a viac normálnych preparátov a pre

jednoduchosť vziať ako odhad cutoff levelu hornú hranicu jednostranného intervalu

spoľahlivosti (IS) pre parameter binomického rozloženia. Náhodná veličina X, vyjadrujúca

počet pozitívnych buniek z n počítaných, sa, ako už bolo spomínané, riadi binomickým

rozdelením. Keďže pri stanovovaní cutoff levelu sa jedná o falošnú pozitivitu, a teda

vychádzame zo vzoriek normálnych, p je veľmi malé, okolo 0,01-0,03. Preto Dewald (2002)

používa IS bez aproximácie na normálne rozdelenie (vzťah 1.2) (IS s aproximáciou

na normálne rozdelenie sa používa len v prípade, že p je približne rovné 0,5).

L2 =r1⋅F 1−a /2v1, v2

n−rr1⋅F 1−a /2v1, v2, (1.2)

kde v1=2(r+1); v2=2(n-r) a r je počet pozitívnych buniek z n hodnotených.

V medicínskej literatúre sa často uvádza pre výpočet cutoff levelu klasická aplikácia

Čebyševovej nerovnosti, teda X±3 , kde X predstavuje priemer. Je potrebné si

uvedomiť, že takéto pojatie cutoff levelu je v tomto prípade nevhodné, pretože vyššie uvedený

vzťah platí pre rozloženie ktoré je symetrické, a má teda tzv. zvonový tvar. Navyše v tomto

prípade priemer nie je reprezentatívnym odhadom strednej hodnoty. Ako odhad je vhodnejší

medián.

V svojej práci som pre odhad deliacej hranice použila ROC analýzu, ktorá bude

podrobnejšie opísaná v kapitole o metodike.

22


5. ČASŤ II. Prediktívna analýza pacientov s klinickými

príznakmi del22q11

Ďalším zaujímavým vstupom matematiky do biológie je nesporne predikčná analýza

nejakého stavu pacienta na základe rôznych vstupných parametrov. Napríklad nás zaujíma

pravdepodobnosť prežitia pacienta po operácii, ktorú odhadujeme na základe výšky krvného

tlaku, stavu zhojenia rán, prípadne prítomnosti infekcie. Môžeme tiež odhadovať

pravdepodobnosť prítomnosti zhubného nádoru na základe rtg. snímok, hodnôt

biochemických markerov, alebo pravdepodobnosť prítomnosti mikrodelecie v závislosti

od fenotypových prejavov pacienta. Takýmto prípadom je aj mikrodelecia 22q11.2, o ktorej

pojednáva nasledujúca kapitola. Všetky vyššie uvedené prípady sa dajú riešiť pomocou

regresnej analýzy, ktorej základné princípy popisuje kapitola 5.2.

5.1. Mikrodelecie

Vďaka metóde Fluorescenčnej in-situ hybridizácie, ktorá v dnešnej dobe patrí medzi

najdôležitejšie genetické vyšetrovacie metódy, sa stalo vyšetrovanie tzv. mikrodelečných

syndrómov otázkou bežnej cytogenetickej praxe. Ako mikrodelečný syndróm označujeme

fenotypový prejav drobnej delecie, alebo súboru delecií na chromozóme, ktoré spôsobujú

stratu alebo poškodenie funkcie viac či menej dôležitých génov. To zapríčiňuje vznik určitých

fenotypových prejavov, ktoré môžu byť u rôznych pacientov značne odlišné. Táto variabilita

je podmienená rôznym rozsahom delecií, a teda rôznym počtom a kombináciou zasiahnutých

génov.

Medzi najznámejšie mikrodelečné syndrómy patria:

1. PraderWili/Angelmanov syndróm – mikrodelecia na dlhom ramienku chromozómu 15

(del 15q11-q13), podľa toho, či sa jedná o chromozóm zdedený od otca alebo od matky sa

rozlišujú samostatné 2 syndrómy (Prader-Wili a Angelmanov), každý s inými klinickými

prejavmi

2. Wiliamsov syndróm- jedná sa o deleciu na dlhom ramienku chromozómu 7 (del 7q11)

23


3. Syndróm Cornelia De Lange – mikrodelecia na chromozóme 3 (del 3q21)

4. Syndróm CATCH22 – medzi mikrodelečné syndrómy patrí aj tzv. syndróm CATCH 22,

v ktorom sa jedná o mikrodeleciu v časti dlhého ramienka chromozómu 22, konkrétne

v oblasti 11.2 (del 22q11.2) Jeho charakteristike je venovaná nasledujúca kapitola.

5.1.1. Syndróm CATCH22

5.1.1.1. Klinické prejavy

Diagnózu del22q11.2 väčšinou očakávame u pacientov s charakteristickými

fenotypovými prejavmi, ktoré môžu byť u rôznych jedincov veľmi variabilné, a zahŕňajú:

vrodené srdcové vady (najmä konotrunkálne malformácie), palatálne abnormality (špeciálne

veropharyngeálna insuficiencia, (submukózny) rázštep podnebia), charakteristické črty tváre

(prítomné vo väčšine prípadov), a ťažkosti s učením. 77% pacientov má imunodeficienciu,

nezávisle na jej prejave. Ďaľšie nálezy zahŕňajú: hypokalcémiu, významné problémy

s kŕmením, obličkové abnormality, stratu sluchu, laryngotracheosophageálne anomálie,

deficienciu rastového hormónu.(McDonald – McGinn, 2003).

Jednotlivé kombinácie týchto prejavov tvoria aj samostatne sa vyskytujúce fenotypy,

ktoré boli preto odlišne pomenované. Patrí sem tzv. DiGeorgov syndróm (DGS)– zahŕňa

palatálne abnormality, apláziu alebo hypopláziu thymusu a príštitných teliesok,

a konotrunkálne srdcové anomálie a Velokardiofaciálny syndróm (VCFS, Sprintzenov

syndróm) – sem patria vrodené srdečné vady (VSV), rozštepové vady, dyzmorfia

tváre, oneskorenie vývoja a problémy s učením. Mikrodelecia 22q11 bola detekovaná aj

u pacientov iba s konotrunkálnymi malformáciami a dyzmorfiou tváre, nazývanými spoločne

conotruncal anomaly face syndrome (CAFT) (Burn a kol, 1993; Matsuoka a kol, 1994), alebo

u pacientov s tzv. “Opitz” G/BBB syndrómom (McDonald-McGinn, 1995).

Najčastejšie je to však kombinácia DGS a VCFS syndrómu, a tak sa toto ochorenie

označuje aj ako DGS/VCFS syndróm. Názov CATCH22 bol navrhnutý ako súhrnný akronym

pre zjednodušenie (Wulfsberg a kol., 1996). Je to skratka od : Cardiac abnormality,

Abnormal facies, T-cell deficit/Thymic hypoplasia, Cleft palate,

Hypocalcemia/hypoparathyroidism, 22q11 microdeletion.

To, že pacient má daný syndróm nemusí znamenať prítomnosť delecie 22q11. Rôzne

zdroje uvádzajú viac či menej odlišné percentá pacientov s jednotlivými syndrómami,

u ktorých bola zároveň zistená aj delecia 22q11. Earing (2002) uvádza, že delecia 22q11 je

24


diagnostikovaná u 88% pacientov s DGS, 76% pacientov s VCFS, a 80% pacientov s CAFS.

V nasledujúcich odsekoch je podrobnejšie popísaný každý z vyššie uvedených fenotypových

prejavov.

1. Vrodené srdcové vady (VSV)

Vzhľadom k veľmi variabilnému fenotypu dyzmorfie tváre a často aj veľmi obmedzenej

mimosrdcovej symptomatickej manifestácii je postihnutie kardiovaskulárneho systému

s klinickým nálezom odpovedajúcim príslušnej špecifickej vrodenej srdečnej vade často

hlavným prejavom mikrodelecie 22q11.2 (Jičínská a kol., 1998). Uvádza sa, že incidencia

VSV u pacientov s del22q11.2 je až 75 – 85 %. (McDonald-McGinn,2003; Earing, 2002),

teda VSV sú najpočetnejším fenotypovým prejavom. Zároveň mikrodelecia 22q11 je hneď

po trizómii 21. chromozómu druhou najčastejšou chromozomálnou príčinou významných

vrodených srdcových anomálií (Goodship a kol., 1998).

Medzi najčastejšie VSV asociované s del22q11 sú tzv. konotrunkálne malformácie,

ktoré postihujú výstupy z aorty a pľúcnice:

Fallotova tetralógia (TOF), Interupcia aortálneho oblúka (IAA), Transpozícia

veľkých ciev s defektom komorového septa (TVC+DKS), Spoločný arteriálny trunkus (TAC)

a Pulmonárna atrézia s defektom komorového septa (PA + VSD) (Jičínská a kol., 1998;

Earing a kol., 2002; McDonald-McGinn, 2003).

Ako menej časté konotrunkálne malformácie sa uvádzajú: Dvojvýtoková pravá

komora (DPK), Transpozícia veľkých ciev (TVC), Defekt sieňového septa (DSS) a Aortálna

stenóza (SA).

Ďaľšie vrodené srdcové vady, ktoré sa vyskytujú u syndrómu CATCH 22 sú: syndróm

hypoplastického ľavého srdca, defekt atrio-ventrikulárneho septa, otvorená tepenná dučaj,

koarktácia aorty, dvojitý aortálny oblúk a trikuspidálna atrézia.(Earing, 2002)

Podrobnejšie informácie o jednotlivých vrodených srdcových vadách viď. Hučín

(2002)

2. Imunodeficiencia a hypokalcémia

Pacienti s del22q11 mávajú často problémy s imunitou, spôsobené nevyvinutím

(apláziou), alebo nedostatočným vyvinutím (hypopláziou) štítnej žľazy. V dôsledku toho

T-lymfocyty nedozrievajú, prípadne je ich počet viac či menej znížený, čo má v prvom

prípade za následok riziko život ohrozujúcich vážnych infekcií. Úplná aplázia thymusu je

však relatívne málo frekventovaná, a tak najčastejším prípadom je menšia imunodeficiencia,

25


ktorá sa prejavuje hlavne ako zvýšená náchylnosť k infekciám, najčastejšie infekciám horných

dýchacích ciest a stredného ucha. Vo väčšine prípadov sa táto zvýšená citlivosť k infekciám

redukuje a upravuje sa počas predškolskej a školskej dochádzky (www 2).

V štúdii imunitnej funkcie 60 pacientov vo veku do 6 mesiacov sa uvádza že až 77%

pacientov malo v prvom roku života imunodeficienciu (Smith a kol., 1998, Sullivan a kol.,

1998)

Okolo 48% pacientov (McDonald – McGinn, 2003) so syndrómom 22q11 má

diagnostikovanú poruchu metabolizmu vápnika – novorodeneckú hypokalcémiu, ktorá je

spôsobená hypopláziou parathyroidných žliaz, spôsobujúcou zníženú koncentráciu

parathormónu regulujúceho metabolizmus kalcia a tým aj vápenatých iónov v sére. Vzhľadom

k zníženej potrebe vápnika sa v neskoršom veku tento stav väčšinou spontánne upraví.

3. Palatálne abnormality a problémy s kŕmením

Uvádza sa že asi 67% pacientov má nejakú z palatálnych abnormalít, medzi ktoré

patria hlavne velofaryngeálna insuficiencia (VPI) a rázštep podnebia (McDonald-McGinn,

2003). Pri VPI podnebie dostatočne neoddeľuje ústnu dutinu od nosnej, a to sa prejaví nielen

v tzv. nosovej reči, ale v prípade kojenca aj problémami s nasávaním mlieka, ktoré im zvykne

vytekať nosom.

4. Charakteristické črty tváre a stigmatizácia

Súčasťou syndróm CATCH22 je tiež stigmatizácia. K typickej stigmatizácii tváre

patria abnormality uší, hlavne nízko posadené a dysplastické ušné boltce; u očí nachádzame

najčastejšie úzke očné štrbiny a hypertelorizmus; ústa sú charakterisitcké malou ústnou

dutinou, malou dolnou čeľusťou alebo vysoko vyklenutým podnebím. Dolná čeľusť býva

zmenšená, čo sa označuje ako micrognathia (malá brada).

Stigmatá nachádzame i na končatinách, konkrétne to môžu byť anomálne ryhy

na ploskách alebo zrastené prsty. Na krku to býva špeciálna kožná riasa nazývaná pterygium

coli.

5. Psychologický a motorický vývoj

Veľa detí so syndrómom 22q11 má problémy s psychologickým a motorickým

vývojom. Mnoho z nich začne rozprávať až vo veku 2-3 roky, niektoré aj neskôr. Majú

problémy s hrubou (balancovanie, beh...) aj jemnou motorikou (zručnosť prstov...). To všetko

sa prejavuje ako psychomotorická retardácia, rôzneho stupňa. V neskoršom veku, keď začnú

povinnú školskú dochádzku, prejavujú sa u nich problémy s učením.

26


Pacienti s normálnym mentálnym vývinom tvoria podľa Ryana a kol. (1997) málo

početnú skupinu.

6. Ostatné abnormality

Ďalšími abnormalitami vyskytujúcimi sa u syndrómu CATCH22 sú

- renálne abnormality (napr. multicystické dysplastické obličky, chýbajúca oblička; u 37%

pacientov (Devriendt a kol., 1996))

- rastové abnormality (nízke hladiny rastových hormónov; 41% (Weinzimer a kol., 1998))

- muskuloskeletálne abnormality (skolióza, polydaktília, syndaktília, ...)

- hematologické abnormality(idiopatická trombocytopénia), hypospádia a nezostúpené

semeníky, trieslová kýla a iné.

5.1.1.2. Genetický základ a embryonálny vývoj

Väčšina pacientov má aj napriek značnej variabilite fenotypu v oblasti 22q11.2

rovnaký rozsah delecie. Podrobné molekulárne analýzy deletovaného regiónu umožnili

asociovať jednotlivé gény so špecifickými fenotypovými prejavmi. Najbežnejší deletovaný

región 22q11 sa nazýva DiGeorge kritický región (DGCR).Je to región medzi

22q11.21 – q11.23 (Driscoll a kol., 1992). Obsahuje gény, o ktorých sa predpokladá, že

ovplyvňujú vývin oblastí, ktoré sú pri tomto syndróme fenotypovo zasiahnuté. Približne 90%

pacientov má deleciu v typickom deletovanom regióne (TDR, veľkosti asi 3Mb), zatiaľčo

zvyšných asi 10% má rôzne menšie alebo bodové delecie vnútri tohoto regiónu. Vedľa delecie

typického regiónu môžu mať pacienti deleciu aj v submikroskopickej oblasti, o veľkosti asi

250 kilobáz, ktorá je jeho súčasťou. Syndróm CATCH22 môže byť zapríčinený nielen

priamou mikrodeleciou v regióne 22q11, ale aj balancovanou translokáciou (Budarf a kol.,

1995). V kritickej oblasti DGRC existuje niekoľko translokačných bodov zlomu, pričom

môže dochádzať ku translokácii na chromozómy 2, 10, 11, 15.

Fenotypické prejavy syndrómu CATCH22 však môžu byť spôsobené aj deleciami

mimo chromozóm 22. Takýmto prípadom je monozómia 10p14.

Podstatou vzniku syndrómu CATCH22 je porucha migrácie buniek krčných

segmentov neurálnej lišty, v dôsledku delecie génov, ktoré ju kontrolujú. Bunky krčných

segmentov normálne migrujú do derivátov faryngeálnych oblúkov a vakov. Chybná migrácia

ovplyvňuje ďalší vývoj týchto tkanív.

27


Napríklad gén UFD1 je deletovaný u väčšiny pacientov s klasickým DGS/VCFS

fenotypom (Yamagishi a kol., 1999). Proteín, zapojený do vnútrobunkovej degradácie

proteínov, je exprimovaný v treťom a štvrtom faryngeálnom vaku, z ktorých sa vyvíjajú

tkanivá formujúce posledné dva segmenty primárnej srdcovej trubice, thymus a príštitné

telieska. V dôsledku jeho delecie dochádza k hypoplázii alebo aplázii thymusu, príštitných

teliesok a konotrunkálnych malformácií.

Prvý a druhý faryngeálny vak zodpovedajú za vznik sluchového aparátu, niektorých častí

tváre a svalov tváre. Tak potom vznikajú charakteristické črty tváre, prípadne poruchy sluchu.

Je dôležité si uvedomiť, že k poruche tohoto mechanizmu môže dôjsť aj po vystavení

embrya pôsobeniu teratogénnych látok. Z toho vyplýva, že syndróm CATCH22 môže byť

dôsledkom nielen genetických ale aj negenetických zmien.

5.1.1.3. Dedičnosť

Delecia 22q11 vzniká vo viac ako 90% prípadov “de novo”. U niektorých pacientov je

to následok autozomálne dominantnej dipozície, kde del22q11 má jeden z rodičov.

Výskyt v populácii sa udáva okolo 1:3000-4000 novonarodených detí.

5.1.1.4. Genetická a klinická diagnostika syndrómu CATCH22

V dnešnej dobe je pre detekciu tohoto syndrómu najpoužívanejšiou metódou

fluorescenčná in-situ hybridizácia. Na Oddelení lekárskej genetiky v Detskej nemocnici Brno

sa pre diagnostiku delecie 22q11 používa komerčne získaná sonda firmy Vysis a to LSI

DiGeorge/VCFS Region Dual Color Probe (Vysis LSI N25(22q11.2) SpectrumRed/LSI

ARSA(22q13) SpectrumGreen DNA Probe), ktorá je mixom dvoch sond. Prvá Spectrum

Orange TUPLE1 sonda sa viaže na miesto v oblasti regiónu TUPLE1. Druhá sonda

(SpectrumGreen LSI ARSA) je kontrolná, a viaže sa v oblasti teloméry. Viď obr. 4.

Obr. 6 a) a b) v Prílohe 1 ukazuje fluorescenčné signály tejto sondy na metafáznych

chromozómoch.

Materiálom pre prenatálnu cytogenetickú diagnostiku je plodová voda získaná

amniocentézou, alebo fetálna krv získaná kordocentézou. Postnatálne sa stanovuje z periférnej

krvi.

28


Obrázok 4: Znázorňuje väzbu testovacej a kontrolnej sondy na chromozóm 22.

Jednotlivé klinické príznaky sa u syndrómu CATCH22 diagnostikujú rôznymi

spôsobmi v závislosti od toho, či je vyšetrovaný plod, alebo už narodené dieťa.

Prenatálne je možné identifikovať len srdečnú vadu, a to pomocou dvojrozmernej

echokardiografie (Jičínská a kol.,1998), nie však prípadnú poruchu imunitného systému alebo

stigmatizáciu. Ultrazvukové vyšetrenie sa na oddelení kardiológie robí rizikovým graviditám

medzi 20 a 22 týždňom gravidity. Pretože sa tomuto vyšetreniu sa nepodrobujú všetky

tehotné ženy, je prenatálny záchyt vrodených srdečných vád len asi 25%. Po prerušení

tehotenstva je možné pitvou zistiť prípadnú stigmatizáciu, alebo iné fyzické abnormality.

U narodených detí sa dajú VSV diagnostikovať nielen echokardiograficky, ale aj RTG,

klinickým a EKG vyšetrením. Funkcia príštitných teliesok sa dá sledovať laboratórnym

biochemickým vyšetrením hodnôt vápnika v sére a hladín parathormónu v sére. T-lymfocyty

sa stanovujú pomocou monoklonálnych protilátok a bunková zložka imunity zas prietokovou

cytometriou (Jičínská a kol., 1998). U narodených detí je tiež možné sledovať stigmatizáciu

tváre.

Mentálna alebo motorická retardácia sa prejavuje už v prvých rokoch života, problémy

s učením až v neskoršom veku.

5.1.1.5. Klinická liečba príznakov

Deti s vrodenými srdečnými vadami sú pod stálym dohľadom kardiológa. Operabilné

prípady sú riešené chirurgicky, vďaka moderným technológiám už veľmi skoro po narodení.

Ak je prenatálne diagnostikovaná vysoko riziková komplikovaná srdečná vada, dochádza

do 24. t.g vačšinou k prerušeniu tehotenstva.

Čo sa týka palatálnych abnormalít, rázštep podnebia sa odstraňuje chirurgicky.

29

22q11

22q13 LSI ARSA (arylsulfatase A) SpectrumGreen control

LSI TUPLE 1 (3’ TUPLE 1, D22S553, D22S609, a D22S942) SpectrumOrange


V prípade imunodeficiencie a s ňou spojenou náchylnosťou k infekciám niektoré deti

môžu preventívne dostávať antibiotickú liečbu, alebo, v ojedinelých prípadoch, prídatné

gammaglobulínové protilátky. Deťom a dospelým so závažnejšiou imunodeficienciou, by sa

mala venovať špeciálna pozornosť pri niektorých medicínskych zákrokoch. Napríklad by

nemali byť očkovaní živými vakcínami, prípadne ak sa podrobujú operačnému zákroku

s nutnou transfúziou krvi, mala by byť ožiarená, aby sa zabránilo možnej reakcii proti

hostiteľskému štepu (www 2).

5.2. Úvod do regresnej analýzy

Vo všeobecnosti sa dá povedať, že regresia študuje, ako sa mení veličina, ktorú

sledujeme v závislosti na zmenách veličín, ktoré ju podmieňujú. Napríklad nás môže zaujímať

závislosť krvného tlaku na veku, závislosť klíčivosti semien na vlhkosti a podobne.

Veličina, ktorej zmeny študujeme sa nazýva závislá (alebo vysvetľovaná) premenná

a veličiny, ktoré ju podmieňujú nazývame nezávisle premenné (tiež kovariáty, alebo popisné

či vysvetľujúce premenné).

Označme Y závislú náhodnú veličinu a X =X0,X1, X2, ..., Xp vektor kovariát. Ďalej nech

01p je vektor regresných koeficientov (parametrov), ktorý potrebujeme odhadnúť.

0 je nepovinný parameter, nazývaný tiež absolútny člen a 1p sú váhy regresných

koeficientov príslušné k X1, X2, ..., Xp. X0 je v prípade zaradenia absolútneho členu do modelu

rovný 1, v prípade modelu bez absolútneho členu je rovný 0.

Regresná funkcia by sa dala definovať ako funkcia, ktorá sa snaží popísať vzťah

závislej premennej Y na vektore X nezávislých premenných určujúcich vlastnosti Y.

Matematicky zapísané:

C Y / X =g X (1.3)

Vzťah (1.3) nazývame tzv. zobecnený lineárny regresný model. Regresný model nazývame

lineárny vtedy, keď platí vzťah:

C Y / X =X =0 X 0, 1 X 1, ... ,p X p (1.4)

Napríklad pre ordinárny lineárny regresný model by sa vzťah (1.3) dal zapísať takto:

C Y /X =E Y /X =X , (1.5)

30


kde E Y /X je tzv. očakávaná stredná hodnota náhodnej veličiny Y za podmienky X.

Vo všeobecnosti, model nemusí byť lineárny v X , čo znamená, že matematicky

vo vzťahu (1.3) je funkcia g(u) nelineárna v u.

Pomocou transformácie C(Y / X) funkciou h, ktorá je inverznou funkciou k funkcii g môžeme

v prípade nelinearity získať lineárnu závislosť na pravej strane rovnice (1.3).

hC Y /X =C ’ Y /X =X (1.6)

Transformáciu hC Y /X nazývame linkovacia funkcia.

V praxi vychádzame vždy z niekoľkých pozorovaní veličiny Y a veličín X, preto sa

používa aj označenie y namiesto Y, ktoré predstavuje vektor jednotlivých pozorovaní

náhodnej veličiny Y a namiesto vektoru kovariát X sa používa matica kovariát x=(xij), kde xij

je hodnota kovariáty Xi v j-tom pozorovaní. Pre regresné modely je typické, že nezavádzajú

nadbytočné vysvetľujúce premenné, teda sa požaduje, aby matica x mala stĺpce lineárne

nezávislé.

Pri stanovovaní regresného modelu sa používa nasledujúci postup:

1. Výber modelu – na základe distribúcie dát určíme, aký typ modelu je pre náš problém

najvhodnejší (lineárny, nelineárny, kvadratický, logistický...)

2. Odhad regresných koeficientov . - ak máme stanovený model, ktorý sa nám pre daný

problém hodí najviac, a keď vieme, pomocou ktorých parametrov chceme danú veličinu

odhadovať, nastupuje odhad regresných koeficientov . V lineárnom regresnom modeli

sa používa metóda najmenších štvorcov (MNŠ) a v prípade nelinearity zas metóda

maximálnej vierohodnosti (MMV). Obidve metódy popisujem podrobnejšie v metodickej

časti.

3. Testovanie prítomnosti jednotlivých kovariát v modeli - po odhadnutí regresných

koeficientov nastáva časť analýzy, kedy uvažujeme, či je odhadnutý model vhodný, a či

zvolené vysvetľujúce premenné dobre odhadujú závislú premennú Y. Je dobré postupným

pridávaním, či odoberaním a kombináciou jednotlivých kovariát získavať nové modely

a navzájom ich porovnávať. Kladieme si pritom otázku, či nový model bez premennej

(alebo s novou premennou) má v porovnaní s pôvodným štatisticky odlišnú

výpovednú hodnotu, alebo nie.

4. Testovanie diskriminačnej schopnosti modelu - nakoniec sa testuje diskriminačná

31


schopnosť navrhnutého modelu. Model nikdy netestujeme na dátach, z ktorých sme ho

odvodili! Je zaujímavé sledovať, ako sa náš nový model správa na nových dátach. Aj keď

nám model dobre sedí na dátach, z ktorých sme ho vytvorili, nemusí to platiť o dátach

testovacích.

Posledné dva body sa v analýze môžu prelínať. Najprv odhadneme diskriminačné

schopnosti rôznych modelov, a potom ich navzájom porovnávame. Alebo otestujeme

diskriminačnú schopnosť základného modelu, a ak je neuspokojivá, snažíme sa nájsť model

iný.

32


II. CIELE DIPLOMOVEJ PRÁCE

1. Cieľom prvej časti mojej diplomovej práce bolo napomôcť k optimalizácii

vyhodnocovania molekulárne cytogenetických preparátov a to hlavne

1. navrhnutím štatistického testu pre overenie presnosti hodnotenia chromozómových

abnormalít metódou interfáznej FISH

2. navrhnutím vhodnej metódy a stanovením deliacej hranice pre hodnotenie

cytogenetických preparátov

na príklade ES-FISH aplikovanej na detekciu Ph chromozómu u pacientov s očakávanou

CML.

2. Cieľom druhej časti bola tzv. prediktívna analýza pacientov s klinickými príznakmi

syndrómu del22q11, na základe fenotypových prejavov pre tento syndróm

charakteristických. Mojou úlohou teda bolo pomocou vhodného regresného modelu určiť

tie klinické príznaky, na základe ktorých by sa dala s najvyššou presnosťou predpovedať

pravdepodobnosť prítomnosti danej mikrodelecie, a tak napomôcť k zvýšeniu účinnosti

molekulárne cytogenetických vyšetrení.

33

III. METODIKA

1. ČASŤ I. (Optimalizácia hodnotenia

molekulárne cytogenetických preparátov)

1.1. Binomický test

Majme X a Y nezávislé náhodné veličiny s binomickými rozdeleniami Bi(nX, pX) a Bi

(nY, pY), pričom poznáme hodnoty nX a nY. Ak chceme porovnať pravdepodobnosti zdaru

v obidvoch pokusoch, testujeme nulovú hypotézu H0: pX = pY. Zaveďme odhady

pravdepodobností pX a pY: pX=XnX

, pY=YnY

, za platnosti H0 bude spoločná

pravdepodobnosť p= XYnXnY

.Normovaním rozdielu pX – pY dostávame štatistiku

Z=

pX− pY

p 1− p 1 nX 1

nY

(2.1)

Nulovú hypotézu zamietame na hladine významnosti a ak ∣Z∣≥z /2.

1.2. Párový testPredstavme si, že máme experiment, v ktorom sledujeme skupinu pacientov

s hypertenziou pred podaním nejakého lieku na zníženie tlaku, a tú istú skupinu po terapii.

Zaujíma nás, či sa podanie toho lieku na znížení krvného tlaku u danej skupiny prejavilo.

Chceme teda nejakou hypotézou rozhodnúť o zmene krvného tlaku.

Z matematického hľadiska teda uvažujme náhodný výber dvojíc náhodných

veličín (U1, V1),...,( Un, Vn ). Kedže sa jedná o náhodný výber, znamená to okrem iného aj

požiadavku, že takéto dvojice sú navzájom nezávislé. Naopak, vnútri dvojíc je závislosť

žiadaná (v našom prípade je to fakt, že každá dvojica predstavuje jedného pacienta).

Pomocou párového testu v takomto prípade testujeme hypotézu že nejaká miery polohy

(stredná hodnota, medián) náhodnej veličiny U-V je nulová. Za predpokladu, že sa tento

34

METODIKA

rozdiel riadi normálnym rozložením, sa daný problém rieši párovým t-testom (viď Anděl,

1985). Požiadavka na normálne rozdelenie je však často príliš silná, niekedy aj kvôli malému

rozsahu výberu. V tomto prípade sa používajú neparametrické obdoby párového t-testu ako

napríkad tzv. znamienkový test, ktorému stačí aby náhodná veličina X=U-V mala nejaké

spojité rozdelenie, alebo párový Wilcoxonov test, ktorý navyše predpokladá symetrické

rozdelenie distribučnej funkcie X okolo mediánu. Osobitným typom testu je Friedmanov test

(Friedmanova ANOVA), ktorý sa dá použiť na porovnávanie k≥2 výberov. O týchto

testoch podrobnejšie pojednávajú nasledujúce kapitoly.

Predtým, než sa pustíme do ich popisu, definujeme si ešte jeden pojem.

Majme rôzne reálne čísla x1,x2,...,xN. Poradím Ri čísla xi nazývame počet tých čísiel x1,x2,...,xN,

ktoré sú menšie alebo rovné číslu xi. Číslam, ktoré sú si rovné, sa priraďuje priemerné poradie

odpovedajúce tejto skupine. Teda napríklad v rade 6 6 7 8 9 10 10 majú čísla šesť poradie

(1+2)/2 = 1,5, čísla 7 8 9 majú poradia 3 4 5 a čísla desať poradie (6+7)/2 = 6,5.

1.2.1. Znamienkový test a Wilcoxonov párový test

Znamienkový testZnamienkový test má veľmi slabé predpoklady, ako sme už spomenuli, stačí mu aby

náhodná veličina X=U-V mala nejaké spojité rozdelenie, pričom ku vlastnému prevedeniu

testu stačí informácia, ktorá z možností Ui<Vi Ui=Vi Ui>Vi v tom ktorom opakovanom pokuse

nastala (Zvára, 2001). Testujeme nulovú hypotézu, že medián rozdielov Xi=Ui-Vi je rovný

nule proti obojstrannej alternatívnej hypotéze, že medián je nenulový. V prípade, že tento test

aplikujeme na dáta, ktoré nie sú spojité, vyradíme pozorovania, kedy rozdiel vychádza 0 (teda

Ui=Vi), a o tieto pozorovania zmenšíme n (Anděl, 1985).

Motivácia tohoto testu je taká, že ak platí nulová hypotéza, tak náhodný jav Ui>Vi má

pravdepodobnosť ½ (takisto ako náhodný jav Ui<Vi). Keďže sa predpokladá spojité

rozdelenie, jav Ui=Vi nastáva s nulovou pravdepodobnosťou. Náhodná veličina Y má

za platnosti nulovej hypotézy binomické rozdelenie Bi (n, 0,5), so strednou hodnotou

E(Y) = n/2 a =n /4 .

Vypočíta sa teda štatistika Z=∣Y− n

2∣−1 2

n4

, (2.2)

ktorá má pri dostatočne veľkom n za platnosti hypotézy H0 asymptoticky rozdelenie N(0,1)

35

METODIKA

a nulová hypotéza sa zamieta na hladine významnosti a ak ∣Z∣≥z /2

Párový Wilcoxonov testTento test tiež predpokladá spojité rozdelenie rozdielov Xi=Ui-Vi , ale navyše sa ešte

predpokladá, že toto rozloženie je symetrické okolo mediánu. Nulová hypotéza tvrdí, že

medián je rovný nule.

Test je podobný ako znamienkový. Najprv sa spočítajú rozdiely Xi=Ui-V. Nulové sa

vylúčia a n sa zmenší. Xi zoradíme podľa absolútnych hodnôt. Spočítame poradie tých veličín

Xi, ktoré sú kladné . Tento súčet nám dá štatistiku, ktorú označíme S+. Súčat poradí veličín,

ktoré sú záporné označíme S-. Testovou štatostikou je min(S+, S-), ktorú porovnávame

s kritickou hodnotou. Tá je tabelovaná pre n≤20. Ak min(S^+, S^-)<= kritická hodnota,

nulovú hypotézu zamietame na hladine významnosti a

Pre dostatočne veľké n možno využiť fakt, že za platnosti nulovej hypotézy má

štatistika

Z=S¿−1

4n n1

1 24

nn12 n1 (2.3)

asymptoticky rozdelenie N(0,1). V prípade že ∣Z∣≥z /2 , hypotézu zamietame

na hladine a

1.2.2. Friedmanov test

Predpokladom Friedmanovho testu je, aby premenné boli najmenej ordinálne..

Friedmanov test je obdobou analýzy rozptylu dvojitého triedenia s jedným

pozorovaním v každej podtriede.

Nech Xij sú nezávislé náhodné veličiny so spojitými distribučnými funkciami. Chceme

testovať hypotézu, že distribučné funkcie veličín Xi1, ..., Xik sú totožné (t.j. distribučná funkcia

Fi náhodnej veličiny Xij môže závisieť na i, ale nezávisí na j).

Ide o tzv. model náhodných blokov. Skúma sa vplyv k ošetrení, ktoré sú aplikované na

n blokoch. To znamená, že na každom bloku bolo vedľa seba uplatnených zmienených k

ošetrení, a na základe zistených výsledkov je treba rozhodnúť, či všetky ošetrenia prinášajú

rovnaký efekt alebo nie. Ak nemajú rovnaký efekt, treba ďalej určiť, ktoré ošetrenia sa

navzájom líšia.

36

METODIKA

V našom prípade k ošetrení je k testovaných laborantov, ktorí počítali n blokov – vzoriek.

Friedmanov test spočíva v tom, že sa pozorovania v každom bloku usporiadajú zvlášť a určí

sa poradie Rij náhodnej veličiny Xij v rámci i-tého bloku. Vypočíta sa potom štatistika

Q= 12n k k1∑j=1

k

∑i=1

n

Rij2−3 nk1 (2.4)

Za platnosti hypotézy má Q pri n∞ asymptoticky rozdelenie k−12 . Ak je

Q≥k−12 , hypotéza sa na hladine významnosti a zamieta.

1.2.3. Software použitý pre testovanie

Pre Friedmanov a Wilcoxonov test som použila štatistický software STATISTICA

verzia 6.1, modul „Nonparametric statistics“ (StatSoft, Inc., 2003). Binomický test som

počítala pomocou programu R plus (R Developement Core Team, 2003).

1.3. ROC analýza

1.3.1. Diagnostická presnosť

Vykonávanie laboratórnych testov v klinickej praxi sa dá matematicky popísať

v termínoch diagnostickej presnosti, či, inak povedané, schopnosti testu korektne klasifikovať

subjekty do klinicky relevantných skupín. Diagnostická presnosť totiž vypovedá o kvalite

testom stanovenej informácie. Každý diagnostický systém väčšinou „hľadá“ nejaký konkrétny

predom definovaný signál, a snaží sa ignorovať alebo zamietnuť ostatné „udalosti“, nazývané

šum. Diskriminácia (teda správne zaradenie pacienta do jednej z diagnostických skupín)

nebýva perfektná, pretože šum sa môže rôznym spôsobom signálu podobať.

A tak, s neustálym rozvojom nových technológií v medicíne, stúpala

v sedemdesiatych rokoch minulého storočia potreba zmysluplne a efektívne merať kvalitu

diagnostickej informácie či rozhodnutí s ňou spojených.

V súčastnosti všeobecne uznávananou metódou pre tento účel, a to vo všetkých

37

METODIKA

vedných odboroch, ktoré diagnostické systémy využívajú, je ROC analýza, ktorá pre

stanovenie tejto presnosti využíva tzv. ROC krivku. Plocha pod ňou totiž poskytuje

jednoduchý index presnosti popisom limitov schopnosti testu diskriminovať medzi dvoma

alternatívami. .

1.3.2. História

Koncom druhej svetovej vojny a začiatkom 50-tych rokov bola v súvislosti

s výskumom rádiových signálov kontaminovaných šumom a problémami s ich interpretáciou

na radare vyvinutá tzv. „teória detekcie signálu“ (signal detection theory). Z nej vyplývajúca

ROC analýza postupne nachádzala uplatnenie vo všetkých oboroch ľudskej činnosti, v ktorých

sa v akejkoľvek forme využívalo diagnostické testovanie (Egan, 1975). ROC analýza sa tak

pre svoju zrozumiteľnosť stala neoddeliteľnou súčasťou aj medicíny.

1.3.3. Princíp

Ak sa chceme zaoberať kvalitou diagnostického testu, najzákladnejšia charakteristika,

ktorou sa táto kvalita dá merať, je jeho „presnosť“. Presnosť je mierou schopnosti testu

korektne klasifikovať subjekty do klinicky relevantných skupín. Hoci niektoré diagnózy sú

komplexnejšie, diagnostické systémy majú väčšinou za úlohu rozlišovať medzi dvoma

alternatívami - zdravý & chorý, benígny & malígny nádor či odpovedajúci & neodpovedajúci

na terapiu a pod. Ak test nie je schopný odhaliť významný rozdiel (inak povedané má slabú

diskriminačnú schopnosť), pre diagnostiku a pacienta viacmenej nemá význam.

Najjednoduchší spôsob ako definovať presnosť, je vziať počet prípadov, ktoré boli

testom správne zaradené, a podeliť ho počtom všetkých hodnotených prípadov. Pozrime sa

však na prípad, keď máme diagnostikovať chorobu, ktorá má v populácii veľmi nízku

prevalenciu, napr. 5%. Diagnostik, ktorý určí všetkých vyšetrovaných za zdravých bude

presný až na 95%! Vidíme, že takáto definícia nie je vyhovujúca. Ani v prípade porovnávania

rôznych diagnostických testov u známej a ustálenej prevalencie choroby v populácii nie je

tento prístup vhodný. Dva testy s rovnakou a takto definovanou presnosťou môžu mať úplne

odlišnú kvalitu v závislosti na type správnych a nesprávnych rozhodnutí, ktoré dávajú. Jeden

test môže byť presnejší pre pozitívne prípady, druhý zas pre negatívne. V odhadovaní

presnosti diagnostického testu je teda treba oddeliť vplyv prevalencie choroby, a rozlišovať

38

METODIKA

rôzne typy správnych a nesprávnych diagnostických odpovedí.

1.3.4. Senzitivita a špecificita

Začnime popisom tzv. fundamentálneho detekčného problému. Pri vyhodnocovaní

výsledkov, či už v medicíne alebo v iných odboroch, sa stretávame s tým istým problémom:

výsledky sú viac či menej obtiažne interpertovateľné. Hodnotenie obrazu si vyžaduje často

dlhý tréning, a tak aj napriek bohatým skúsenostiam existuje stále neistota v tom, čo tam

pozorovateľ vidí a čo nie.

V každom prípade sa musí rozhodnúť, a tak má len dve možnosti: odpovedať áno

alebo nie na diagnostickú otázku. Tieto odpovede pritom samozrejme buď zodpovedajú alebo

nezodpovedajú skutočnosti. Udalosť, ktorá v skutočnosti nastáva i rozhodnutie urobené

testom môžu nadobúdať dve hodnoty. Väčšinou sa hovorí o pozitivite a negativite. V praxi

teda nakoniec nastávajú 4 možné výsledky:

– pozitívna udalosť je testom označená za pozitívnu (PP-pravdivá pozitivita; TP – true

positive),

– pozitívna udalosť je testom označená za negatívnu (FN - falošná negativita; false negative),

– negatívna udalosť je označená za pozitívnu (FP- falošná pozitivita; false positive) a

– negatívna udalosť je označená za negatívnu (PN - pravdivá negativita; TN – true negative).

Vďaka dvom alternatívam udalosti, ktorá môže nastať a dvom korešpondujúcim

diagnostickým rozhodnutiam môžeme tieto výsledky zapísať do 2 x 2 kontingenčnej tabuľky

(Tab.1), kde a, b, c, d označujú aktuálne jednotlivé počty možných výsledkov. 2 x 2

kontingenčná tabuľka je v ROC analýze najpoužívanejšiou metódou zápisu týchto vzťahov.

Tabuľka 1: Kontingenčná tabuľka vyjadrujúca vzťahy medzi diagnostickým rozhodnutím a skutočnosťou

(udalosťou), a, b, c, d sú počty jednotlivých výsledkov, ktoré nastali.

DIAGNÓZA

U D A L O S Ť

pozitívna negatívna

pozitívnaa

Pravdivo pozitívneb

Falošne pozitívne a+b

negatívnac

Falošne negatívned

Pravdivo negatívne b+d a+c b+d

39

METODIKA

Kedykoľvek nastane pozitívna udalosť, diagnóza je buď pozitívna alebo negatívna,

a tak falošne negatívna proporcia (FNP; anglicky FNF-false negative fraction) cac je

komplementom k pravdivo pozitívnej proporcii aac (PPP; TPF – true positive fraction).

Podobne kedykoľvek nastane negatívna udalosť, diagnóza je tiež buď pozitívna alebo

negatívna a tak falošne pozitívny podiel (FPP; FPF - false positive fraction) bbd

a pravdivo negatívny podiel (PNP; TNF – true negative fraction ) dbd sú komplementy.

Platí teda

i) FNF + TPF = 1 => TPF=1-FNF

ii)TNF + FPF = 1 => FPF=1-TNF

TPF sa tiež nazýva senzitivita, a TNF zas špecificita. V literatúre sa stretávame aj

s označením vyššie uvedených proporcií pomocou pravdepodobností. Ak označíme D udalosť

„choroba“ a T výsledok „testu“, pomocou pravdepodobnosti dostávame:

FPF ~ P(T+/D-) TPF ~ P(T+/D+)

FNF ~ P(T-/D+) TNF ~ P(T-/D-)

Prehľad jednotlivých vzťahov a označení poskytuje Tabuľka 2.

Tabuľka 2:

Označenia VzťahySenzitivita = TPF = P(T+/D+) TPF = a/a+c

Špecificita = TNF = P(T-/D-) TNF = d/b+d

1-Senzitivita=FNF= P(T+/D-) FNF = c/a+c TPF+FNF = 1

1-Špecificita=FPF=P(T+/D-) FPF = b/b+d TNF+FPF = 1

1.3.5. Deliaca hranica (cutoff level)

Väčšina testov v praxi neodlišuje pozitívne a negatívne prípady so 100% presnosťou.

To sa prejavuje v prekrytí distribúcií reálne pozitívnych a reálne negatívnych prípadov

(Graf 1).

40

METODIKA

Prekrývajúca sa plocha indikuje, kde test nie je schopný rozlíšiť normálny prípad

od pozitívneho.

Z tohoto dôvodu sa používa nejaká konkrétna deliaca hranica, nazývaná tiež cutpoint,

alebo cutoff level. Je to hranica, pomocou ktorej sa diagnostik rozhoduje, ktoré hodnoty

označí za pozitívne a ktoré za negatívne. Väčšinou všetky hodnoty ktoré padnú pod cutoff

level sú označované za negatívne a naopak. Pozícia cutoff levelu podmieňuje počet falošne

pozitívnych a falošne negatívnych výsledkov. Posunutím deliacej hranice doprava sa síce

zníži frekvencia falošne pozitívnych a zvýši sa frekvencia pravdivo negatívnych výsledkov,

zároveň sa však zvýši frekvencia falošne negatívnych a zníži frekvencia pravdivo pozitívnych

výsledkov. Je teda jasné, že s posúvaním cutoff levelu sa nám jednotlivé podiely menia,

a zvýšenie ktorejkoľvek pravdivej proporcie zároveň prináša zníženie tej druhej. Zároveň

zníženie ktorejkoľvek falošnej proporcie logicky vyústi do zvýšenia frekvencie druhej.

Pri stanovovaní cutpointu by sme sa mali mať dopredu upresnené, ktorá proporcia je

najdôležitejšia, a ktorú chybu chceme eliminovať. Diagnostik by sa mal riadiť hlavne

klinickou situáciou a následkami jednotlivých rozhodnutí. Ak má byť v prípade pozitivity

prevedený riskantný operačný zákrok, prípadne ďalšie náročné vyšetrenia, je potrebné držať

FPF na čo najnižšej úrovni, čo znamená striktnejší cutpoint v ľavej časti grafu. Swets (1988)

naznačuje, že rozhodovacie kritérium by malo byť vybrané v závislosti od prevalencií

(primárnych pravdepodobností) obidvoch udalostí. Ak je prevalencia choroby nízka, FPF by

mala byť takisto nízka, pretože by sa mohlo stať, že prevažná väčšina pozitívnych rozhodnutí

41

Graf 1 : Ukážka prekrytia distribúcií pozitívnycha negatívnych prípadov. Na osi x je hodnota testu,na osi y frekvencie prípadov

METODIKA

bude falošná. Naopak v prípade vysokej prevalencie choroby v populácii je lepšie

identifikovať čo najväčšie množstvo chorých, teda zvýšiť TPF a to aj na úkor zopár falošne

pozitívnych jedincov. Dôležité je, aby boli pozitívne prípady čo najúčinnejšie odhalené.

V takomto prípade je rozhodovacie kritérium miernejšie, a diagnostik sa pohybuje na pravej

strane grafu. Graf 2 znázorňuje závislosť TPF a FPF na zvolenej deliacej hranici.

1.3.6. ROC krivka

Ako už bolo spomínané, s posúvaním cutoff levelu sa mení senzitivita a špecificita

v opačnom smere. S nárastom jednej klesá druhá a naopak. Ak vezmeme namiesto špecificity

FPF, bude nám nová dvojica TPF a FPF narastať a klesať spoločne. Pre každé rozhodovacie

kritérium teda exituje príslušná dvojica (FPF;TPF). Keďže vieme, že tieto dve proporcie

určujú všetky štyri rozhodujúce podiely, stačí nám poznať len tie.

Ak zmeníme niekoľkokrát deliacu hranicu, zaznamenáme niekoľko dvojíc FPF a TPF.

Keď ich vykreslíme do grafu, v ktorom os x predstavuje FPF a os y TPF, dostávame ROC

krivku. Egan, (1975) definuje ROC (Receiver Operating Characteristic) funkciu ako funkciu,

ktorá sumarizuje možné správanie sa pozorovateľa, ktorý stojí tvárou v tvár úlohe detekovať

signál v šume. Graf tejto funkcie sa nazýva ROC krivka (Graf 3).

42

Graf 2 : Závislosť FPF a TPF na pozícii deliacejhranice (zvislá čiara) .

METODIKA

Pre ROC krivku platí nasledovné:

i. Obidve osy grafu majú rozpätie od 0 do 1

ii. ROC ukazuje vzťah medzi senzitivitou a špecificitou

43

1-Špecificita

Sen

zitiv

ita

ROC krivka

Sen

zitiv

ita

1

Graf 3 : Hypotetická ROC krivkavyjadrujpca závislosť FPF a TPF.Diagonála predstavuje ROC krivku testus diskriminačnou schopnosťou rovnou náhode(presnosť 0,5). Krivka nad ňou je ROC krivkatestu s presnosťou >>0,5

Graf 4.:ROC krivky testov srôznoudiskriminačnou schonosťou

0 11-Špecificita

ROC krivky

METODIKA

iii. Ak test poskytuje nejakú informáciu, prostredné body ROC krivky musia ležať

v pravom hornom rohu ROC priestoru. V opačnej situácii by bol v prípade reálnej

pozitivity pravdepodobnejší negatívny výsledok testu.

iv. Teoretický graf pre test s nulovou diskriminačnou schopnosťou je diagonála vedúca

od ľavého dolného rohu po pravý horný roh. Takáto ROC krivka odpovedá testu, ktorý

zaraďuje do jednotlivých skupín len náhodne, s pravdepodobnosťou ½.

v. Čím bližšie je krivka ľavému hornému rohu ROC priestoru, tým presnejší je test

(Graf 4.)

vi. Plocha pod krivkou je merítkom presnosti diagnostického testu.

Ak máme k dispozícii niekoľko testov, ktoré poskytujú záver ohľadom tej istej

diagnostickej úlohy, porovnanie ich príslušných ROC kriviek ukáže, ktorý z nich je

výhodnejší, alebo inak, presnejší. ROC krivky sa teda dajú používať aj na porovnávanie

jednotlivých testov.

1.3.7. Význam plochy pod ROC krivkou

Plocha pod ROC krivkou, označovaná aj AUC ( Area Under a Receiver Operating

Characteristic Curve) je najbežnejším kvantitatívnym indexom popisujúcim ROC krivku

a zároveň elegantným a jednoduchým nástrojom vyjadrujúcim presnosť diagnostického

systému. Nepoužíva žiadne predpoklady o distribučných funkciách testovaných veličín. Index

diskriminačnej presnosti AUC sa označuje A a jeho hodnota sa pohybuje sa od 0.5 do 1. Teda

ak test nemá žiadnu diskriminačnú schopnosť, ROC leží na hlavnej diagonále a A=0.5.

Naopak, A=1 označuje perfektnú diskrimináciu, a je to prípad kedy ROC krivka kopíruje

pravý horný roh ROC priestoru.

AUC sa definuje najčastejšie podľa Greena a Swetsa (1966), ktorí ukázali, že plocha

pod ROC krivkou korešponduje s pravdepodobnosťou správneho zaradenia, ktorý z dvoch

stimulov je šum, a ktorý signál. Inak povedané, je to pravdepodobnosť korektnej klasifikácie

náhodného páru pacientov, pričom jeden bol vybraný z reálne pozitívnej a druhý z reálne

negatívnej skupiny. Napríklad plocha o veľkosti 0.8 vyjadruje, že náhodne vybraný jedinec

z abnormálnej skupiny má až v 80% prípadov vyššie testové hodnoty ako náhodne vybraný

jedinec z normálnej skupiny (Zweig & Campbell, 1993). Neznamená to teda, že pozitívny

prípad nastane s pravdepodobnosťou 0.8, ani že pozitívny výsledok je asociovaný s chorobou

v 80% prípadoch.

44

METODIKA

Výpočet AUC je zložitejšou otázkou a vo všeobecnosti rozoznávame 2 metódy:

1. neparametrická metóda založená na konštrukcii lichobežníkov pod krivkou ako

aproximáciou plochy

2. parametrická metóda s použitím metódy maximálnej vierohodnosti na odhadnutie

tzv. vyhladzujúcej krivky (smoothing curve) cez jednotlivé body grafu

Zo štatistického hľadiska je významný fakt, že pravdepodobnosť korektného

zaradenia (normálneho a abnormálneho) páru je úzko spojená so štatistikou W počítanou

v dvojvýberovom Wilcoxonovom (Mann-Whitney) štatistickom teste (Bamber, 1975).

Hanley & McNeil (1982) totiž na základe tohoto zistenia ukázali, že štatistické vlastnosti

Wilcoxonovej štatistiky sa dajú použiť na predikciu štatistických vlastností plochy pod ROC

krivkou. Wilcoxonova štatistika

W= 1 nA nN

∑1

nA

∑1

nN

S xA , xN (2.5)

kde 1 ak xAxN

S x A , xN =' 1/2 ak xA=xN

0 ak x AxN , nA predstavuje počet pravdivo pozitívnych a nN počet

pravdivo negatívnych prípadov, a xA a xn sú náhodné veličiny predstavujúce hodnoty X

u abnormálnych a normálnych prípadov, v uvedenom poradí, je neparametrickým testom

na testovanie skutočnosti, či hladiny nejakej kvantitatívnej náhodnej veličiny X majú

tendenciu byť v prvej (abnormálnej) populácii vyššie ako v populácii druhej (normálnej).

Nulová hypotéza znie, že náhodná veličina X nemôže byť použitá na diskrimináciu medzi

abnormálnymi a normálnymi vzorkami (teda A = 0.5). Ak A > 0.5, W už nie je

neparametrická štatistika, a jej štandardná odchýlka SE(W) závisí na dvoch špeciálnych

distribučných veličinách Q1 a Q2, ktoré môžu byť vyjadrené ako funkcie A (Hanley & McNeil,

1982):

1. Q1=A

2 – A

2. Q2=2 A2

1 A (2.6)

Za predpokladu, že klasifikujeme na škále, ktorá je dostatočne spojitá, môžem smerodatnú

odchýlku SE(W) alebo jej ekvivalent SE(AUC) vyjadriť vzťahom:

45

METODIKA

SE W = A1−AnA−1Q1−A2nN−1Q2−Q2nA nN

(2.7)

Štatistika W už predstavuje plochu, ktorú môžeme získať s pomocou nekonečne

veľkej vzorky na spojitej škále. V prípade kategorických dát má teda W tendenciu

podhodnotiť A, avšak ako ukázali Hanley & McNeil (1982), použitie W je aj v takomto

prípade opodstatnené, pretože miera podhodnotenia je nízka. Tiež dokázali, že W vypočítané

vyššie uvedeným vzťahom úplne súhlasí s AUC vypočítanou s pomocou konštrukcie

lichobežníkov. Hanley & McNeil (1982) navyše ukazujú minimálny rozdiel medzi AUC

odhadnutými pomocou tejto metódy a metódy využívajúcej metódu maximálnej

vierohodnosti. Súvisiace smerodatné odchýlky sa navzájom líšia takisto rádovo len

v desatinách percenta.

1.3.8. Porovnávanie ROC kriviek

Ako už bolo spomínané, ROC krivky sa dajú využiť aj na vzájomné porovnávanie

jednotlivých diagnostických testov. Štandardná odchýlka rozdielu sa v prípade, že sa jedná

o ROC krivky generované z tej istej sady pacientov, nedá kvôli pravdepodobnej korelácii

vypočítať vzťahom

SE A1 – A2=SE2A1SE2A2 (2.8)

Hanley & McNeil (1983) vyvinuli nový postup pre stanovenie SE v takomto prípade, a to

rovnicou

SE A1 – A2=SE2A1SE2A2−2 rSE A1SE A2 (2.9)

kde r predstavuje odhadnutú koreláciu medzi dvoma plochami.

Obecný prístup ako stanoviť či existuje významný rozdiel medzi plochami pod dvoma ROC

krivkami (odvodenými z rovnakých dát) je vypočítať kritickú hodnotu štatistiky Z,

definovanej: Z=A1−A2

SE2A1SE 2A2−2 rSE A1SE A2 (2.10)

Táto štatistika sa porovnáva s tabuľkovými hodnotami normálneho rozloženia. Ak je

46

METODIKA

∣Z∣≥1.96 , hypotézu o zhodnosti zamietame na asymptotickej hladine významnosti

a = 0,05. Môžeme teda povedať, že skutočné plochy pod dvoma krivkami sa navzájom

odlišujú.

1.3.9. Interval spoľahlivosti

Hanley & McNeil (1982) simuláciami ukázali, že distribúcia odhadov A , ktoré

získame nie je celkom symetrická, ale namiesto toho tak trocha zošikmená smerom

k A=0.5 . Táto šikmosť je s približovaním skutočnej A smerom k 1, a so znížením

očakávaného počtu „misklasifikovaných párov“ m[(1-A)] (m je počet párov) pod 5,

výraznejšia. Táto situácia je identická s tou, ktorá vzniká pri binomickom rozložení, ktorého

pravdepodobnosť úspechu sa blíži k 1. V takomto prípade sa radšej uchyľujeme

k asymetrickému intervalu spoľahlivosti než k výpočtu intervalu spoľahlivosti (IS)

odvodeného od normálneho rozloženia, ±1,96 SE A . Tento prístup sa však už môže

využiť ak je m významne vyššie ako 5.

Asymetrický interval spoľahlivosti môžeme dostať vytvorením rozloženia plochy pod

krivkou pomocou bootstrapovej metódy, pričom ako dolnú a hornú hranicu intervalu

spoľahlivosti vezmeme 2,5% a 97,5% kvantil tohoto rozloženia, v uvedenom poradí.

1.3.10. Veľkosť vzorky

Dosadením Q1,Q2,nA a nN do vzťahu (2.7) získame smerodatnú odchýlku odhadu A.

Môžeme meniť n pokiaľ nebude SE A dostatočne malá. Ak u daného testu

predpokladáme nejakú diagnostickú presnosť A, a zároveň vieme, akú očakávame chybu,

po dosadení do vyššie uvedeného vzťahu môžeme vypočítať potrebnú veľkosť vzorky n. Čím

je A bližšie jednotke, tým je menšia SE A . SE A sa inverzne mení s n a tak pre

zníženie chyby o polovicu je potrebné n zoštvornásobiť.

Vzhľadom k tomu, že proporcie TPF a FPF sú obyčajne rovnako dôležité, odporúča sa

v ROC experimente používať zhruba rovnaké počty aktuálne pozitívnych i aktuálne

negatívnych prípadov (Metz, 1978).

Pre výpočet veľkosti vzorky pre porovnávanie dvoch diagnostických testov

viď. Hanley & McNeil (1983).

47

METODIKA

2. ČASŤ II. (Prediktívna analýza pacientov s

klinickými príznakmi del22q11)

2.1. Logistická regresia

V regresnom modeli predpokladáme, že pozorovaná hodnota y vysvetľovanej

premennej Y sa od očakávanej strednej hodnoty líši o nejaké , a teda že:

y−E Y / X = . Tento rozdiel medzi teoreticky vypočítanou hodnotou Y a jej empirickou

hodnotou nazývame náhodná chyba (reziduum). V ordinálnom lineárnom regresnom modeli

sa predpokladá, že aj vysvetľovaná premenná Y sú z normálneho rozloženia, pričom je

z rozdelenia so strednou hodnotou 0 a Y z rozdelenia so strednou hodnotou E Y / X ,

pričom rozptyl 2 obidvoch rozdelení je rovnaký a konštantný.

V prípade, že závislá náhodná veličina Y je kategorická (v našom prípade binárna, čo

znamená, že môže nadobúdať len 2 hodnoty – 0 a 1, pričom 0 značí neúspech a 1 úspech

v danom pokuse; úspech môže byť napríklad manifestácia nejakej choroby, alebo kladná

odpoveď na položenú otázku...), teda v tomto prípade je najčastejšie používaným štatistickým

modelom pre regresnú analýzu (binárny) logistický regresný model, odvodený od funkcie

P= 1 1 e−x , ktorá sa nazýva logistická funkcia. Očakávanou strednou hodnotou je teda

pravdepodobnosť, že za daných hodnôt predikčnej premennej X je Y=1 , čo v podstate

znamená pravdepodobnosť úspechu, ak veličina X nadobúda nejaké konkrétne hodnoty x:

C Y /X =P Y=1/ x = 1

1 e−x (3.1)

Základy tohoto modelu položil už Cox (1958) a Walker a Duncan (1967).

Na rozdiel od ordinárneho lineárneho regresného modelu, ktorý umožňuje

pravdepodobnosti P {Y=1} presiahnuť medze 0 a 1, v tomto modeli aj pri všetkých

možných hodnotách X , ostáva obor hodnôt Y v intervale < 0,1>. Ďalšou výhodou je, že

logistický model nepredpokladá žiadne rozloženie dát, pretože s ním priamo nepracuje.

Pracuje len s pravdepodobnosťami. To znamená, že ak sme v lineárnom modeli pracovali

48

METODIKA

s chybou s normálnym rozložením, tu sa dá hodnota y veličiny Y vyjadriť vzťahom :

y= x , 3.2

kde x =P {Y=1/ x }.

Z tohto vzťahu vyplýva, že môže nadobúdať len 2 hodnoty. Ak Y=1 , potom

=1−x s pravdepodobnosťou p(x); a ak Y=0, tak =−x s pravdepodobnosťou

1−x . Náhodná veličina má teda alternatívne rozloženie so strednou hodnotou 0

a rozptylom x [1− x ] a rozloženie vysvetľovanej premennej Y je binomické,

s podmienenou strednou hodnotou x .

Pre jednoduchosť odhadu regresných koeficientov , je vhodné transformovať

rovnicu (3.1) na lineárnu závislosť. Ako linkovaciu funkciu použijeme tzv. logit

pravdepodobnosti, že Y=1 , tzn.:

h x=ln [ x

1−x ]=X (3.3)

V logistickom regresnom modeli môžeme mať ako spojité, tak aj kategorické kovariáty.

V prípade, že kovariáta Xj je kategorická, a môže nadobúdať konkrétne nejakých kj hladín,

budeme na jej zaradenie do modelu potrebovať kj-1 premenných, ktoré si označme Dju, a im

príslušné koeficienty ju. Potom logit pre tento model bude mať tvar

hx =0 1 x1 ...∑ ju D ju p x p (3.4)

2.1.1. Výstavba regresného modelu

Vhodne zvolený regresný model by mal spĺňať tieto kritériá:

1. Obsahovať čo najmenší počet parametrov

Viac parametrov síce zvýši presnosť modelu, avšak na úkor jeho reálnosti. Väčšinou pri

aplikácii na iné (testovacie) dáta, sa stane nevhodným.

2. Parametre by mali byť navzájom nezávislé

Použité parametre by sa nemali dať vyjadriť kombináciou ostatných parametrov. Je to

častý problém nelineárnych modelov.

49

METODIKA

3. Funkcia by mala správne opisovať vysvetľovanú premennú v extrémoch závislosti

ako aj jej asymptotické správanie sa

Častým problémom použitých modelov je, že nie sú vhodné pre tzv. extrapoláciu údajov.

Znamená to, že nesprávne vysvetľuje správanie sa vysvetľovanej premennej mimo

skúmanej oblasti. Pri nízkych alebo vysokých hodnotách nezávislej premennej niektoré

modely poskytujú nesprávne limitné hodnoty závislej premennej.

2.1.2. Odhad regresných parametrov

Základom výstavby regresnej funkcie je odhad regresných parametrov

=1, 2, ... , p Pre odhad parametrov sa používajú rôzne metódy, väčšinou v závislosti od

použitého regresného modelu. Najzákladnejšie metódy odhadu sú:

1. Metóda najmenších štvorcov (MNŠ) – táto metóda je založená na výbere takého

odhadu regresného vektoru , ktorý minimalizuje sumu druhých mocnín rozdielov

medzi pozorovanými hodnotami závislej premennej Y a jej odhadmi odvodenými

z modelu. Táto metóda vedie k vhodným štatistickým výsledkom v prípade lineárnej

regresie, v ktorej sa používa. V prípade modelu s binárnou vysvetľovanou premennou

však už nie je vhodná.

2. Metóda maximálnej vierohodnosti (MMV) – je hlavná metóda odhadu, ktorá vlastne

v lineárnom regresnom modeli vedie k už spomínanej metóde najmenších štvorcov

(keď sú chyby normálne rozložené). Touto metódou sú odhadované regresné

koeficienty v nelineárnych regresných modeloch, a teda aj v logistickom regresnom

modeli.

Venujme sa teda ďalej metóde maximálnej vierohodnosti, ktorá sa používa v logistickej

regresii. Popis tejto metódy je obsiahlejší, preto je jej venovaná nasledujúca kapitola.

2.1.3. Metóda maximálnej vierohodnosti

Veľmi všeobecne povedané, metóda maximálnej vierohodnosti (ďalej už len MMV),

vedie k takým hodnotám odhadov parametrov, ktoré maximalizujú pravdepodobnosť získania

50

METODIKA

našej pozorovanej množiny dát. (Lemeshow & Hosmer, 2003).

Aby sme mohli začať odhadovať, potrebujeme najprv definovať tzv. vierohodnostnú

funkciu. Je to funkcia, ktorá vyjadruje pravdepodobnosť výskytu pozorovaných dát ako

funkciu neznámych parametrov. Je definovaná ako združená hustota náhodných veličín

X 1, X 2, ... X p , ktorá sa vníma ako funkcia vektoru ich parametrov . Teda

L ; x1, x2, ... , x p=∏i=1

p

f xi , (3.5)

Za maximálne vierohodné odhady týchto parametrov sú vybrané tie hodnoty, ktoré túto

funkciu maximalizujú. V logistickom regresnom modeli výraz x vyjadruje

podmienenú pravdepodobnosť že Y = 1 za podmienky x P Y=1/ x . To znamená, že

1−x =P Y=0 / x . Predpokladajme, že veľkosť nášho výberu (vzorky) je n. Nech

(xi, yi) , i=1,..,n sú jednotlivé pozorovania. Ak yi=1 , potom príspevok xi dvojice

(xi, yi) do vierohodnostnej funkcie je xi . Analogicky ak yi=0 , do konečnej

pravdepodobnosti sa započíta 1 −x . Teda vhodne vyjadrené

xi= xiiy [1 − xi]

1− yi (3.6)

Pretože predpokladáme, že jednotlivé pozorovania sú nezávislé, konečná združená

pravdepodobnosť pozorovania dát je daná vzťahom

L=∏i=1

n

x i∏i=1

n

x iyi [1 −x i]

1− yi (3.7)

Toto je matematické vyjadrenie vierohodnostnej funkcie v logistickom regresnom modeli.

Pri odhadovaní regresných koeficientov je jednoduchšie pracovať s prirodzeným

logaritmom vierohodnostnej funkcie

lnL=∑i=1

n

yi ln [x i ]1− yi ln [1−x i] (3.8)

Maximálny vierohodný odhad je ten, ktorý maximalizuje L (alebo ln L), teda

potrebujeme zistiť maximum tejto funkcie. Využívajú sa na to klasické metódy matematickej

51

METODIKA

analýzy pre hľadanie extrémov funkcie.

Deriváciu lnL podľa jednotlivých členov sa položí rovná 0. Maximálne vierohodný odhad

parametru teda dostaneme riešením systému rovníc

ln L '= ∂ ln L∂1

, ∂ ln L∂2

, ... , ∂ ln L∂ p

=0 (3.9)

Tento systém sa nazýva systém logaritmických vierohodnostných rovníc.

Vektor prvých parciálnych derivácii lnL podľa jednotlivých zložiek

U x = ∂ ln L∂1

, ∂ ln L∂2

, ... , ∂ ln L∂ p

, sa nazýva skórový vektor. P x p rozmerná matica,

ktorej zložky sú záporné stredné hodnoty druhých parciálnych derivácií funkcie lnL sa nazýva

Fisherova informačná matica:

J = J ij i , j=1p=−E

∂U i ∂ j

(3.10)

Obrátená hodnota tejto matice je rozptyl

V x =J−1

Kvôli tomu, že v logistickom regresnom modeli rovnica (3.9) nie je v lineárna, je

výpočet týchto regresných parametrov náročný a vyžaduje iteratívne metódy. Jednou

z najrýchlejších a najznámejších je tzv. Newton - Raphsonova metóda. (pozri: Harrell, 2001,

s.192) . McCullah & Nelder(1983) diskutujú vo svojej knihe zovšeobecnenú váženú metódu

najmenších štvorcov.

Odhad značíme , odhad x značíme x .

2.1.4. Testovanie hypotéz o vhodnosti modelu

Keď sú regresné parametre konečne odhadnuté, zväčša nasleduje stanovenie

štatistickej významnosti buď všetkých, alebo jednotlivých vysvetľujúcich premenných

v modeli. To znamená, že si štatistik položí otázku, či daná premenná (alebo skupina k

premenných) po pridaní do modelu prinesie štatisticky významné spresnenie predpovedaných

hodnôt Y. Najlepším spôsobom ako odpovedať na túto otázku je položiť vektor regresných

52

METODIKA

koeficientov k testovaných kovariát rovný 0. Teda testujeme nulovú hypotézu

H 0:=0 ,

kde 0 =0 , .. , p , pričom k=0 , k⊂0 , k=1.. p

Existujú tri druhy štatistických testov založených na vierohodnostnej teórii (funkcii), ktoré

sú používané v logistickej regresii:

1. „Likelihood Ratio“ Test

Tento test využíva testovú štatistiku LR, vypočítanú nasledujúcim spôsobom:

LR=−2 ln L za hypotézy H 0

L s MMV odhadom (3.11)

Položili sme teda oproti sebe alternatívu modelu bez testovaných kovariát a model úplný,

s regresnými parametrami odhadnutými metódou maximálnej vierohodnosti.

Pre dostatočne veľké n má štatistika LR približne rozdelenie 2(chí-kvadrát) so stupňami

voľnosti rovnými počtu odhadovaných parametrov. LR test sa využíva hlavne pri

testovaní hypotézy že všetky regresné koeficienty sú rovné 0 (t.j. že v modeli sa nachádza

iba absolútny člen). H0 zamietame na hladine významnosti a vtedy ak LR>2(p), kde p je

počet odhadovaných parametrov.

2. Waldov Test

Wald Test využíva tzv. Waldovu testovú štatistiku, ktorá je zovšeobecnením t- alebo

z- štatistiky. Je to funkcia rozdielu MMV odhadu a hypotetickej hodnoty regresného

parametru testovanej kovariáty, normalizovaného odhadom štandardnej odchýlky MMV

odhadu. Pre mnohonásobný logistický regresný model

W= −0’ J 0 −0 (3.12)

Táto štatistika má pre dostatočne veľké n rozdelenie 2 so stupňami voľnosti rovnými

počtu odhadovaných parametrov. Ak k=1 , potom W=k

2

V x .

53

METODIKA

Niektorí autori (Lemeshow, Hosmer, 2003) uvádzajú ako Waldovu štatistiku tzv. t- alebo

z- štatistiku, teda druhú odmocninu z W, ktorá sa pre jednu kovariátu dá zapísať

následovne

Z= j

se j (3.13)

kde se j je štandardná odchýlka j , j=1.. n , Za hypotézy j=0 má

Z štandardné normálne rozdelenie.

3. Skórový test

Je test využívajúci skórovú funkciu U. Ak sa MMV odhad rovná hypotetickému odhadu

potom aj tento hypotetický odhad maximalizuje vierohodnostnú funkciu, a tak

U 0=0 . V testovej štatistike S je skórová funkcia normalizovaná Fisherovou

informačnou maticou J.

S=U ’ 0J−10U 0 (3.14)

Výhodou tejto štatistiky je, že nezahŕňa maximálne vierohodný odhad . Táto štatistika

má tiež pri dostatočne veľkom n asymptoticky chí-kvadrát rozdelenie s počtom stupňov

voľnosti príslušným počtu odhadovaných parametrov.

Z pohľadu štatistických vlastností je najvýhodnejšia LR štatistika, nasledovaná S a W.

Hlavný problém s W štatistikou je v odhadnutej kovariančnej matici plného modelu. Špeciálne

pre logistickú regresiu keď sú efekty v modeli silné, môžu byť odhady variancií a kovariancií

príliš veľké, čo sa prejaví v príliš malých hodnotách W (hladiny významnosti sú príliš malé).

W je tiež citlivá na spôsob, akým sa parameter prejaví v modeli. Napríkad test nulovej

hypotézy, že „log odds ratio = 0“ vedie k inej hodnote W ako test nulovej hypotézy

„odds ratio = 1“ (Harell, 2001).

W a LR vyžadujú odhad všetkých p parametrov, LR navyše opakovaný odhad

zostávajúcich q parametrov, za predpokladu, že prvých k parametrov má konkrétnu hodnotu.

Takže ak uvažujeme o skupine parametrov, LR test je jednoduchším prístupom.

Waldov test je zas veľmi jednoduchou cestou keď už boli všetky parametre odhadnuté.

Používa sa v prípade, keď chceme otestovať, či daný prediktor alebo skupina prediktorov je

54

METODIKA

štatisticky významá.

LR test sa používa na porovnanie globálnej hypotézy, že žiadne efekty nie sú

štatisticky významné proti plnému modelu odhadnutému MMV.

S test sa používa pri zaradení dodatočných prediktorov do modelu.

2.1.5. Interpretácia parametrov logistického regresného modelu

Keď sme už odhadli model, je zaujímavé odpovedať na otázku, aký vplyv naň majú

jednotlivé premenné. Teda napríklad aký efekt má jednotková zmena hodnoty kovariáty Xj

na celkovú pravdepodobnosť Y.

Predpoklady logistického regresného modelu pochopíme jednoduchšie

transformovaním P(Y=1) na lineárny model. Vieme, že linkovaciou funkciou v logistickom

regresnom modeli je logit. Zo vzťahu (3.3) je zrejmé, že eX =x

1−x . Vzťah na

pravej strane tejto rovnice sa nazýva šanca (anglicky odds), a vyjadruje, koľkokrát je

(pri daných hodnotách kovariát x) väčšia pravdepodobnosť, že Y=1, oproti pravdepodobnosti,

že Y=0.

Za predpokladu, že model je aditívny, a teda že sa medzi prediktormi nevyskytujú žiadne

závislosti, uvažujeme pre každý prediktor Xj vzťah

logit {x / X }= j X jC , (3.15)

kde sú všetky ostatné faktory konštatné a

C=01 X 1.. j−1 X j−1 j1 X j1...k X k je tiež konštanta.

Parameter j je potom zmena logaritmu šance (log odds) s každou jednotkovou zmenou

v parametri Xj, teda

šanca {Y=1/ X }=exp j X jC=exp j X j expC (3.16)

Ak regresný parameter vyjadríme v termínoch pomeru šancí (šanca že Y=1 ak sa Xj zvýši o d,

podelená šancou v stave Xj ), dostaneme

šanca {Y=1/ X1 , X2 , ... , Xjd , ... , Xk }

šanca {Y=1/ X1 , X2 , ... , Xj , ... , Xk }= e[ j X jd ]eC

e j X j eC =e[ j X j jd− j X j]=e j d (3.17)

55

METODIKA

2.1.6. Validácia modelu

Model sa validuje kvôli uisteniu, či ním predikované hodnoty sú schopné dosť presne

predpovedať skutočné odpovede budúcich subjektov alebo subjektov, ktoré neboli použité

na vytvorenie modelu. To znamená, že sa testuje na dátach, z ktorých nebol vytvorený.

Validáciu rozoznávame externú a internú. Externá validácia zahŕňa testovanie koncového

modelu buď na dátach z inej geografickej oblasti, alebo sa model vytvorí na m dátach

z pôvodného súboru a potom sa otestuje na zvyšných n-m dátach. Interná validácia znamená

vytvorenie a validáciu modelu s použitím tej istej množiny dát. 3 najbežnejšie používané

metódy internej validácie sú : tzv. „data-splitting“, cross validácia a bootstrap. Harrell (2001)

uvádza, že bootstrap dáva najpresnejšie odhady štatistík určujúcich presnosť modelu, ako

napríklad R2, index prediktívnej schopnosti modelu, index diskriminácie D, a podobne.

Data splitting je najjednoduchšiou metódou validácie, kedy je dátový súbor rozdelený

na trénovacie a testovacie vzorky náhodným výberom. Cross validácia je zovšeobecnením

data-splittingu, a rieši niektoré jeho problémy. Sú vynechané skupiny k pozorovaní a ich

odpovede sú predikované za použitia modelu vytvoreného zo zbytkových n-k pozorovaní.

Tento proces sa opakuje n-krát a získa sa tak priemerná presnosť. Bootstrap metóda využíva

vytváranie testovacích množín metódu prevzorkovania na základe výberu s vrátením. Týmto

spôsobom sa z pôvodnej množiny o veľkosti n vytvorí nová množina tiež o veľkosti n. Z tej sa

potom vytvorí model a aplikuje sa na pôvodné dáta. Index presnosti z bootstrapovej vzorky

mínus index vypočítaný z originálnej vzorky dáva odhad tzv. „optimizmu“. Tento proces sa

opakuje k krát (čím viac, tým lepšie, odporúča sa 100 a viac), a získa sa priemerný

optimizmus, ktorý sa odpočíta od presnosti finálneho modelu aby sa získal upravený odhad.

2.1.6.1. Štatistiky prediktívnej schopnosti modelu

Testové štatistiky, o ktorých sme hovorili v kapitole 2.1.4 nám dovoľujú otestovať, či faktor

alebo množina faktorov súvisí s odpoveďou. Štatistiky prediktívnej schopnosti modelu, ktoré

budem používať sú nasledujúce

1. Generalizovaný index R2N: RN

2 =1−e−LR

n

1−e−L0

n

, kde LR je „likelihood ratio“ štatistika pre

testovanie dôležitosti všetkých p prediktorov v modeli a L0 je -2 log vierohodnosť

nulového modelu. Slúži na kvantifikáciu prediktívnej sily modelu (Nagelkerke, 1991).

56

METODIKA

2. Plocha pod ROC krivkou C

3. Somerova Dxy poradová korelácia medzi predikovanými a pozorovanými odpoveďami,

definovaná vzťahom: D xy=2 c−0.5. Ak Dxy =0, model predikuje náhodne. Ak

Dxy = 1, predikované hodnoty perfektne diskriminujú.

Pre binárny logistický regresný model sa väčšinou vytvorí nový model na novej

vzorke, pre odhad vzťahu medzi predikovanou pravdepodobnosťou a pozorovanou

odpoveďou v tejto vzorke. Dostáva sa tak jednoduchá kalibračná rovnica:

Pc=Psť {Y=1/ X }=[1e−01 X ]−1 , (3.18)

kde Pc označuje aktuálnu kalibrovanú pravdepodobnosť a originálna predikovanú

pravdepodobnosť je P=[1e−X ]−1 . U originálneho vzorku bude dvojica

0, 1 =0,1 , pretože model bol vytvorený práve na ňom. Jednoduchým indexom

nespoľahlivosti je index Emax: Emax 0,1= maxa≤ P≤b

∣ P− P c∣, je to maximálna chyba

v predikovaných pravdepodobnostiach v rozsahu <a,b>.

2.2. Chýbajúce hodnoty

Vo väčšine datových súborov sa z rôznych dôvodov vyskytujú chýbajúce hodnoty.

Väčšinou je zvykom prípady, ktoré ich obsahujú vyradiť zo súboru, čo však v prípade regresie

môže viesť k zníženiu diskriminačnej schopnosti modelu. Napríklad pacienti v horšom stave,

u ktorých nebolo možné vykonať vyšetrenie (či už z dôvodu úmrtia alebo vážnosti stavu),

majú chýbajúce hodnoty vyšetrenia, ale napriek tomu môžu prinášať dôležitu informáciu,

obzvlášť ak ich stav súvisí s odhadovanou premennou Y.

Je takmer vždy lepšie chýbajúce hodnoty odhadnúť. Model potom nie je tak

podhodnotený. S vyradením prípadov sa znižuje veľkosť vzorky a tým sa zvyšuje štandardná

chyba a rozširuje interval spoľahlivosti.

Existuje niekoľko spôsobov odhadovania chýbajúcich hodnôt.

Najjednoduchší spôsob je nahradiť chýbajúce hodnoty priemerom alebo mediánom.

57

METODIKA

Štatisticky výhodnejšie však je odhadnúť Xj na základe ostatným premenných a to buď

jednoducho analýzou vzťahov medzi samotnými kovariátami, alebo navyše s pomocou Y,

odhadnutím Xj pomocou regresného modelu, kde sa závislou premennou stáva práve Xj. Ak

odhadovaná premenná Xj , ktorá v niektorých prípadoch chýba, bude prediktorom Y, potom

ignorovanie závislosti Y a Xj bude viesť k vychýleniu odhadu regresných koeficientov pre Xj

smerom k nule (Harell, 2001).

Pri odhadovaní chýbajúcej hodnoty môžeme odhadnúť nielen jedinú hodnotu, ale

viacero. Podľa toho rozlišujeme jednoduchú a mnohonásobnú imputáciu (single a multiple

imuptation). Mnohonásobná imputácia sa všeobecne považuje za lepšiu metódou

pre imputáciu ako jednoduchá

V skratke sa dá povedať, že platia tieto pravidlá:

– pre odhad Xj, ktorá nemá vzťah k ostatným kovariátam sa používa priemer alebo medián

bez významnej straty výdatnosti

– v prípade existujúceho vzťahu medzi Xj a premennými, je lepšie pre každé Xj použiť

pre odhad individuálny predikčný model založený na ostatných premenných

– metóda „najlepšieho odhadu (best guess)“ dopĺňa chýbajúce hodnoty predikovanými

očakávanými hodnotami používajúc mnohorozmerný model imputácie založený

na nechýbajúcich dátach

Viac o jednotlivých algoritmoch odhadov chýbajúcich hodnôt viď. Harell (2001),

str. 44-50.

2.3. R plus

Pre výpočty logistickej regresie bol použitý voľne dostupný štatistický software R plus

(R Developement Core Team, 2003), s prídatnými knižnicami Design, Hmisc, boot a logistf.

Jednotlivé kroky a algoritmy použitých funkcií opisujem podrobne v nasledujúcich bodoch.

1. Chýbajúce hodnoty som odhadla funkciou aregImpute z knižnice Hmisc:

> odhad<-aregImpute(formula, data, n.impute=100)

58

METODIKA

kde formula = vzťah obsahujúci premenné, ktoré chcem odhadovať a premenné pomocou

ktorých chcem odhadovať (v tvare „~Y+X1+X2+...+Xk“)

n.impute = počet imputácií (odporúča sa 5 až 10, viac nezaškodí)

Princíp: Funkcia aregImpute používa metódu bootstrap na aproximáciu procesu výberu

predikovaných hodnôt z plnej Bayesovskej prediktívnej distribúcie. V každej

z mnohonásobných imputácií je použité iné bootstrapové prevzorkovanie. Teda pre i-tú

imputáciu chýbajúcej kovariáty (kde i=1,2,...,n.impute) je na novej vzorke (vytvorenej

výberom s vracaním z pôvodnej vzorky) navrhnutý flexibilný aditívny model. Tento model

je použitý na predikciu všetkých pôvodných chýbajúcich i nechýbajúcich hodnôt pre

cieľovú premennú.

AregImpute na odhadnutie modelu používa dve metódy: 'ace' a 'avas'. V prípade, že

nie je špecifikovaná transformácia ako identita, tieto metódy nájdu transformácie cieľovej

premennej a všetkých prediktorov tak, aby za predpokladu aditivity získali dobrý odhad.

'ace' metóda maximalizuje R2 a 'avas' sa snaží maximalizovať R2 stabilizovaním rozptylu

reziduí. V prípade predikcie kategorickej premennej sa používa len metóda 'ace'.

Pre spojité premenné sú predpokladané monotonické transformácie cieľovej premennej

a používa sa metóda 'avas'.

Algoritmus :

(1) Pre každú premennú obsahujúcu m chýbajúcich hodnôt (ďalej označovaných NA), ak

m>0, nahraď NA hodnotami z náhodného výberu (bez vracania ak existuje dostatočné

množstvo nechýbajúcich hodnôt) veľkosti m z nechýbajúcich hodnôt pôvodnej vzorky.

(2) Pre 3+n.impute iterácií urob nasledujúce kroky:

Prvé tri iterácie poskytujú len vstupnú informáciu,teda imputácie ulož len pre posledných

n.impute iterácií.

(3) Pre každú premennú, ktorá obsahuje nejaké NA, urob výberom (s vracaním) z prípadov

z celého datového súboru, v ktorých odhadovaná premenná nechýba novú vzorku. Navrhni

flexibilný aditívny model na predikciu cieľovej premennej, hľadaním jej optimálnej

transformácie (ak nie je zvolená identita) Použi tento navrhnutý semiparametrický model

na predikciu cieľovej premennej vo všetkých pôvodných pozorovaniach. Doplň každú

chýbajúcu hodnotu odhadovanej premennej takou pozorovanou hodnotou, ktorej

predikovaná transformovaná hodnota je najbližšia predikovanej transformovanej hodnote

59

METODIKA

chýbajúcej hodnoty (ak „match=closest“). Prípadne použi výber z multinomického

rozloženia s pravdepodobnosťami odvodenými od vážených vzdialeností (ak „match =

weighted“)

(4) Po vypočítaní imputácií, použi tieto imputácie náhodného výberu v prípade, že terajšia

cieľová premenná bude použitá ako prediktor ostatných občas chýbajúcich premenných

2. Odhad logistického regresného modelu som vytvorila pomocou funkcií fit.mult.impute

a lrm z knižnice Design.

> fit<-lrm(y~x1+x2+...+xp, data, x=TRUE, y=TRUE)

kde y predstavovalo prítomnosť delecie 22q11.2 a x1,...,xp jednotlivé prediktory,

v závislosti od modelu.

Princíp: lrm funkcia odhaduje binárny a ordinálny logistický model, za použitia metódy

maximálnej virohodnosti alebo penalizovanej maximálnej vierohodnosti.

> model.mi <- fit.mult.impute(y~x1+x2+...+xp, lrm, odhad, data,

fit.reps=TRUE)

Princíp: fit.mult.impute je funkcia, ktorá za pomoci lrm funkcie a na základe imputácií

doplnených funkciou aregImpute odhaduje n.impute modelov, z ktorých urobí priemerný

model, ktorý je jej výstupom.

Výstupmi obidvoch funkcií sú okrem odhadov regresných koeficientov aj:

$ stats

- maximálna absolútna hodnota prvej derivácie lnL

- chi-square vierohodnostného pomeru daného modelu

- P-hodnota, C index (plocha pod ROC krivkou), Somerovo Dxy,

-Goodman-Kruskalova gamma, Kendallove tau-a rank korelácie medzi predikovanými

pravdepodobnosťami a pozorovanými odpoveďami

- Nagelkerkeho R^2 index, a Brierovo skóre vypočítané s ohľadom na Y > jeho

najnižšia hladina. $ deviance

-2 log vierohodnosti (v prípade modelu s offset množinou, obsahuje -2lnL modelu

60

METODIKA

intercept+offset, modelu len s interceptom a modelu intercept+offset+prediktory)

$ var

- odhadnutá kovariančná matica

Modely som najprv odhadovala s použitím funkcie fit.mult.impute. Pomocou takto

vytvorených modelov som vytvorila finálny model.

Keďže výstupom funkcie fit.mult.impute je model, ktorý je priemerom všetkých modelov,

ktoré táto funkcia vytvorí na n.impute doplnených dátových maticiach, nedá sa použiť

na validáciu ani na výpočet konkrétnych hodnôt z nášho dátového súboru (neexistuje

priemerná matica doplnených hodnôt). Ako odhad charakteristík takto vytvoreného modelu

som použila vždy priemer z jednotlivých charakteristík všetkých fitovaných modelov fit1$fits

[[2]]$stats (v prípade fit.reps=TRUE).

Pre validáciu modelu a výpočet cutoff levelu som preto použila datový súbor s dátami

doplnenými tak, že z n.impute imputácií som vybrala ako odhad chýbajúcej hodnoty vždy

modus pre konkrétnu premennú a konkrétny prípad. Takto doplnenú maticu dát budem

nazývať modálna matica.

3. Model som testovala za použitia funkcie validate.lrm z balíku Design

> validacia<-validate.lrm(model)

Funkcia validate.lrm validuje logistický regresný model s alebo bez backward step-down

delecie. Výstupom sú štatistiky originálneho, trénovacieho, testovacieho súboru,

optimizmus a optimizmom korigované hodnoty štatistík. A to Somerovej D_{xy}

poradovej korelácie, R2N indexu, indexov g0 ag1 celkovej logistickej kalibračnej rovnice

a maximálnej absolútnej diferencie medzi predikovanými a kalibrovanými

pravdepodobnosťami E_{max}.

Ako metódu validácie som použila bootstrap s počtom výberov 1000.

4. Predikované pravdepodobnosti som získala pomocou funkcie predict:

> phat <-predict(model, type='fitted')

5. Interval spoľahlivosti pre plochu pod krivkou som vypočítala pomocou metódy bootstrap.

61

METODIKA

Ako hornú a dolnú hranicu intervalu spoľahlivosti som použila 2,5% a 97,5% kvantil z

rozloženia, ktoré som touto metódou dostala.

6. Pre výpočet intevalov spoľahlivosti jednotlivých špecificít a senzitivít som použila funkciu

binconf.

62

IV. VÝSLEDKY

1. Optimalizácia spôsobu vyhodnocovania mikroskopických preparátov

1.1. Štatistický test pre overenie presnosti hodnoteniacytogenetických preparátov medzi jednotlivýmipracovníkmi

1.1.1. Dátový súbor

V metodickej časti uvažované štatistické testy som sa pokúsila aplikovať

na otestovanie hodnotenia preparátov stávajúcimi pracovníkmi cytogenetického laboratória,

a to konkrétne preparátov ES-FISH aplikovanej na detekciu Ph chromozómu u pacientov

s očakávanou CML, za použitia sondy Vysis LSI BCR/ABL ES Dual Color Translocation

Probe.

Test pre porovnávanie pracovníkov je založený na párovom experimente, preto

preparáty vo vzorke pre tento účel boli spočítané nasledujúcim spôsobom:

1. každý preparát hodnotili buď dvaja alebo všetci traja pracovníci, pričom navzájom

nepoznali svoje výsledky

2. na slíčku bolo hodnotených dokopy 200 buniek, z troch rôznych sektorov

3. z týchto boli stanovené percentá pozitívnych buniek

Týmto spôsobom sme získali 32 pozorovaní. Získané dáta sú zobrazuje Tabuľka 3.

63

VÝSLEDKY

Tabuľka 3: Dáta z párového experimentu pre test presnosti hodnotenia preparátov

č.

% pozitívnych buniek

Pracovník 1 Pracovník 2 Pracovník 3č.


Pracovník 1 Pracovník 2 Pracovník 3

1 0,00% 0,00% 0,00% 17 76,00% 82,00% -

2 0,00% 0,00% 0,00% 18 77,50% - 90,00%

3 2,00% 1,00% 2,50% 19 78,50% 74,00% -

4 89,00% 94,00% 92,00% 20 93,00% 94,00% 98,00%

5 0,00% 0,00% 0,00% 21 - 92,50% 94,00%

6 0,00% - 0,00% 22 87,50% 90,50% 95,00%

7 1,00% - 0,00% 23 - 91,00% 91,50%

8 1,00% 0,00% 0,00% 24 - 47,00% 51,00%

9 1,00% 0,00% 0,00% 25 - 0,00% 1,00%

10 1,50% - 1,00% 26 13,00% 8,00% -

11 9,00% 1,00% 7,00% 27 3,00% 3,00% -

12 11,00% 10,00% 11,00% 28 0,00% 0,00% 0,00%

13 20,00% 15,50% 22,00% 29 0,00% 0,50% 0,00%

14 20,00% 27,50% - 30 3,00% 3,00% -

15 69,00% 60,00% 76,00% 31 16,00% 14,00% -

16 74,50% 80,00% 86,00% 32 0,00% 0,00% 1,00%

1.1.2. Popisná štatistika

Tabuľka 4: Popisná štatistika súboru pre test presnosti hodnotenia preparátov

Percentá pozitívnych buniek jednotlivých preparátov podľa jednotlivých pracovníkov sú

znázornené na nasledujúcom grafe.

64

Popisné štatistiky (Test laborantov)

PremennáN Medián Modus Četnost

moduMin Max Spodní

kvartilHorníkvartil

Sm. odch.

lab1lab2lab3

28 0,060 0,00 7 0,00 0,930 0,005 0,718 0,35503528 0,090 0,00 8 0,00 0,940 0,000 0,770 0,38629925 0,025 0,00 9 0,00 0,980 0,000 0,850 0,412605

VÝSLEDKY

Graf 5: Bodový graf znázorňujúci percentá pozitívnych buniek jednotlivých preparátov podľajednotlivých pracovníkov

1.1.3. Výsledky testovania

Najprv som na overenie prípadnej odlišnosti v počítaní použila binomický test, ktorý

využíva priamu informáciu o počte pozitívnych buniek, v ktorých sa jednotliví pracovníci

odlišujú. Binomický testom môžeme overiť, či sa daní pracovníci odlišujú o menej ako k%.

V praxi sa všeobecne hovorí, že pracovníci laboratória by sa nemali na jednotlivých

preparátoch líšiť o viac ako 5%. Z matematického hľadiska teda overujeme hypotézu že p1

nášho binomického rozloženia >= p0 hypotetického binomického rozloženia Bi(n,p0), kde

p0=0.05. Dvaja pracovníci spočítali spoločne k preparátov. Ak spočítame všetkých

k rozdielov (vyjadríme to v počte buniek o ktoré sa dohromady líšia) a podelíme ich počtom

počítaných buniek n (n=k*200), dostaneme odhad p1.

Pre binomický test (výsledky viď. Tabuľka 5)som použila program R plus (R Developement

Core Team, 2003 ).

Tabuľka 5: Výsledky binomického testu.

pracovnícipočet

úspechov

početpreparátov

početbuniek π1 P testu výsledok

1 & 2 131 24 4800 0,027 2,63E-15 na hladine α zamietame H0

2 & 3 114 21 4200 0,027 9,06E-14 na hladine α zamietame H0

1 & 3 101 21 4200 0,024 < 2,2E-16 na hladine α zamietame H0

65

Bodový graf

pr1 pr2 pr30 5 10 15 20 25 30 35

poradové číslo

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

Per

cent

o po

zitív

nych

bun

iek

VÝSLEDKY

Ako vidíme, tento test nepreukázal na hladine významnosti 0,05 rozdiel medzi žiadnou

z dvojíc. Vo všetkých troch prípadoch zamietame hypotézu že hodnota p1 je väčšia ako 0,05

v prospech alternatívnej hypotézy: skutočná pravdepodobnosť p1 je nižšia ako 0,05.

Ďalej som otestovala pracovníkov nasledujúcimi testami. Všetkých testovaných pracovníkov

dokopy Friedmanovou ANOVOU a potom každú dvojicu zvlášť Wilcoxonovým párovým

testom. Výsledky viď nasledujúce tabuľky.

Tabuľka 6: Výstup z programu STATISTICA, Friedmanova ANOVA pre porovnanie všetkých troch

pracovníkov.

Tabuľka 7: Výstup z programu STATISTICA, Wilcoxonov párový test porovnávajúci dvojice pracovníkov

Vidíme, že Friedmanov test nepreukázal odlišnosť, zatiaľčo Wilcoxonov párový test

preukázal (možno aj vzhľadom k ďalším zahrnutým pozorovaniam) rozdiel medzi

pracovníkmi 2 a 3.

1.1.4. Odporúčaný postup pre testovanie pracovníkov

Pri testovaní pracovníkov je potrebné stanoviť experiment ako párový, takže testované

preparáty by mali byť spočítané všetkými alebo aspoň dvoma testovanými pracovníkmi.

Binomický test je dobrý z toho hľadiska, že využíva inú informáciu ako ostatné uvažované

testy. Hlavne teda priamu informáciu o počte buniek v rozdieloch. Na druhú stranu neuvažuje

možnú variabilitu vnútri súboru preparátov. Naopak s touto variabilitou počíta Friedmanova

ANOVA, ktorou sa dá porovnávať viac pracovníkov naraz. Testuje, či sú dané výbery

z rovnakého rozdelenia, avšak zasa nevyužíva informáciu o počte buniek. Wilcoxonov test,

66

Friedmanova ANOVA a Kendallov koeficient zhodyANOVA chí-kv. (N = 17, sv = 2) = 2,425532 p < ,29737Koeficient zhody = ,07134 priem. poradie r = ,01330

PremennáPriemerné

poradieSúčetporadí

Priemer Sm.Odch.

123

1,970588 33,50 0,268829 0,3779861,794118 30,50 0,262647 0,3911332,235294 38,00 0,282647 0,399571

Wilcoxonov párový testOznačené testy sú významné na hladine p <,05000

Dvojica laborantovPočet

platnýchT Z Úroveň p

1 & 22 & 31 & 3

24 65 0,54 0,586221 20 2,27 0,023121 32 1,32 0,1874

VÝSLEDKY

ktorý testuje podobne ako binomický len dvojicu pracovníkov, môže byť použitý, ak vyjde

Friedmanov test významne, na zistenie, ktorá z dvojíc sa líši. Keďže ale rovnako ako

Friedmanov test nevyužíva priamu informáciu o počte buniek, je vhodné použiť kombináciu

2 vyššie uvedených testov a to binomického a Friedmanovho. Metodika testovania zhody

pracovníkov teda môže obsahovať nasledujúce testy v uvedenom poradí:

i) Friedmanov test – ak n≥3 pre otestovanie n pracovníkov

ii) Binomický test – pokiaľ n=2

- v prípade zamietnutia hypotézy Friedmanovým testom môže určiť

dvojicu ktorá sa odlišuje, alebo nepotvrdiť zamietnutie hypotézy

– v prípade nezamietnutia hypotézy Friedmanovým testom spresňuje

výsledok (Friedman nemusel mať dostatok dát)

Ak obidva testy nepotvrdia odlišnosť, pracovníci sa nelíšia. Ak nepotvrdí zhodu aspoň jeden

z nich, je potrebná buď väčšia vzorka (Friedmanov test), alebo sa pracovníci naozaj líšia

(Friedman, binomický test).

1.2. Výpočet deliacej hranice pre ES-FISH aplikovanú na

detekciu Ph chormozómu u pacientov s očakávanou

CML

1.2.1. Dátový súbor pre výpočet deliacej hranice

Pretože ES-FISH je metóda s vysokou presnosťou (od výrobcu 98%), pri výpočte

veľkosti vzorky som vzhľadom k možnej odchýlke od skutočnosti spôsobenej inými faktormi

predpokladala diskriminačnú schopnosť (A) okolo 90% (A=0,9). Na základe vzťahu (0.0)

som vypočítala z očakávanej smerodatnej odchýlky SE(A) veľkosť vzorky pre experiment.

Pri n=40 (nA=20, nN=20) vychádzala smerodatná odchýlka dostatočne malá SE(A) = 0.051.

Preto, ale aj pre nedostatok zdravej kostnej drene bola stanovená veľkosť vzorky na 20+20.

67

VÝSLEDKY

Tabuľka 8: Súbor dát pre stanovenie deliacej hranice (cutoff levelu) pre ES-FISH aplikovanúna detekciu Ph chromozómu u pacientov s očakávanou CML.

Legenda: pozn. ~ znamená overenie skutočnosti: PCR ~ overené PCR, Kon. ~ kontrolná vzorka, pred.~ predpoklad.

č.vz. %pozit. b. skutočnosť pozn. č.vz. %pozit. b. skutočnosť pozn.

1 0,0% 0 PCR 21 1,00% 1 PCR

2 0,0% 0 PCR 22 2,00% 1 PCR

3 0,0% 0 PCR 23 2,00% 1 PCR

4 0,0% 0 PCR 24 11,00% 1 PCR

5 0,0% 0 Kon. 25 16,00% 1 PCR

6 0,0% 0 Kon. 26 13,00% 1 PCR

7 0,0% 0 Kon. 27 27,50% 1 Pred.

8 0,0% 0 Kon. 28 32,00% 1 Pred.

9 0,00% 0 Kon. 29 40,00% 1 Pred.

10 0,00% 0 Kon. 30 51,00% 1 Pred.

11 0,00% 0 Kon. 31 74,00% 1 Pred.

12 0,50% 0 Kon. 32 76,00% 1 Pred.

13 0,50% 0 Kon. 33 82,00% 1 Pred.

14 0,50% 0 PCR 34 82,00% 1 Pred.

15 1,00% 0 Kon. 35 83,00% 1 Pred.

16 1,50% 0 PCR 36 86,00% 1 Pred.

17 2,00% 0 PCR 37 90,50% 1 Pred.

18 3,00% 0 Kon. 38 91,50% 1 Pred.

19 3,50% 0 PCR 39 94,00% 1 Pred.

20 0,0% 1 PCR 40 98,00% 1 Pred.

Súbor dát (Tabuľka 8) sa teda skladal zo 40 vzoriek kostnej drene, ktoré boli pomocou

ES-FISH vyšetrené na prítomnosť Ph chromozómu. Každá KD pochádzala od iného pacienta.

19 vzoriek bolo negatívnych, a 21 pozitívnych.

Vzorky počítali tri pracovníčky OLG (predtým otestované na zhodu v počítaní Friedmanovým

a binomickým testom) a to nasledovným postupom:

1) na každom sklíčku bolo z 3 odlišných sektorov spočítaných dokopy 200 hodnotiteľných

buniek,

2) z nich bol stanovený podiel pozitívnych buniek, vyjadrený v percentách

3) u pacientov s nízkymi alebo nulovými hodnotami pozitívnych buniek (0-10%) sa diagnóza

upresňovala kvalitatívnou a kvantitatívnou PCR. Tí, ktorí mali výsledok negatívny boli

zaradení do negatívnej skupiny. Väčšinou sa jednalo o pacientov ktorých KD bola poslaná

na vylúčenie diagnózy

68

VÝSLEDKY

4) negativita kontrolných vzoriek tak bola potvrdená kvalitatívnou a kvantitatívnou Real-time

PCR u 8 prípadov, u 12 prípadov sa jednalo o KD jedincov s u ktorých prítomnosť

Ph chromozómu nebola predpokladaná, a mali zároveň normálny karyotyp

5) do pozitívnej skupiny boli zaradení jedinci s nízkou pozitivitou FISH, ale s pozitívnou

Real-time PCR (väčšinou pacienti v terapii), a pacienti s vysokými percentami (>20%)

pozitívnych buniek.

1.2.2. Popisná štatistika

Popisnú štatistiku (Tabuľka 9) som spracovala v programe STATISTICA. Histogram

četností percent pozitívnych buniek v pozitívnej a negatívnej skupine zobrazuje Graf 6.

Tabuľka 9: Popisná štatistika súboru pre stanovenie deliacej hranice

Graf 6: Histogram četností percent pozitívnych buniek datového súboru pre stanovenie deliacejhranice

69

Popisné štatistiky

% poz. bun.N Medián Modus Četnost

moduMin Max Spodní

kvartilHorníkvartil

Rozptyl Sm. odch.

negatívnipozitívni

19 0,00 0,00 11 0,00 0,035 0,000 0,010 0,000126 0,01120621 0,510 0,82 2 0,00 0,980 0,160 0,830 0,131749 0,362972

Histogram (stanovenie cutoff levelu)

negatívna skupina pozitívna skupina-0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0


0

2

4

6

8

10

12

Poče

t poz

orov

aní

VÝSLEDKY

1.2.3. Stanovenie deliacej hranice pomocou ROC analýzy

Pre ROC analýzu som použila software MedCalc. Graf som vypracovala s použitím

softwaru STATISTICA. Výsledky ROC analýzy viď Tabuľka 10, Príloha 6. ROC krivka je

znázornená na grafe 7.

Z výsledkov Tabuľky 10 je viditeľné, že deliaca hranica na hladine 3,5% má najvyššiu

mieru špecificity (TNF). Noví pacienti s Ph chromozómom majú na začiatku diagnózy %

pozitívnych buniek veľmi vysoké (90-100%). Pozitívni pacienti s veľmi nízkymi percentami

pozitívnych buniek sú prevažne pacienti v liečení, u ktorých sa nedostavila kompletná

remisia po terapii, a pretrváva u nich reziduálna choroba. Títo pacienti sú však permanentne

pod dohľadom lekárov, a ich kostná dreň je posielaná na vyšetrenia pravidelne. Keď

označíme takéhoto pacienta pomocou stanovenej deliacej hranice za negatívneho, prípadný

relaps (v ktorom sa objavujú omnoho vyššie percentá pozitívnych buniek) sa teda u nich

zachytí pri nasledujúcom vyšetrení.

Naopak označenie zdravého pacienta za pozitívneho má istotne nepríjemnejšie

následky, aj napriek tomu, že sú percentá nízke. Pre pacienta to môže znamenať podstúpenie

ďalších zbytočných vyšetrení a opakovaný odber kostnej drene pre overenie diagnózy.

Z tohoto hľadiska je teda lepšie stanoviť striktnejšiu deliacu hranicu ktorá minimalizuje

falošne pozitívny podiel a teda maximalizuje percento správne zaradených negatívnych

pacientov (špecificitu).

70

ROC krivka (ES-FISH)

0 20 40 60 80 100

100 - Špecificita

0

20

40

60

80

100

Sen

zitiv

ita

Graf 7: ROC krivka pre ES-FISH aplikovanúna detekciu Ph chromozómu u pacientovs očakávanou CML.

VÝSLEDKY

Index plochy pod krivkou (Graf 7) vyjadrujúci diagnostickú presnosť testu má hodnotu

0.94, čo znamená, že presnosť ES-FISH aplikovanej na Ph preparáty je pre dané laboratórium

94 % (95%IS: 85,2%; 99,75%). Inak povedané, pravdepodobnosť, že v náhodne vybranej

dvojici (Ph-, Ph+) určí táto metóda obidve správne je až 94%. Ešte z iného pohľadu to

znamená, že pozitívni pacienti majú v 94 % prípadov vyššie počty pozitívnych buniek ako

negatívni. Smerodatná odchýlka je 0,036. S deliacou hranicou 3,5% je u tohto testovacieho

súboru zaradených správne až 100% negatívnych pacientov, a 81 % pozitívnych pacientov.

71

VÝSLEDKY

2. Predikčná analýza pacientov s fenotypovými

prejavmi del22q11 pomocou logistickej regresie

V druhej časti diplomovej práce som sa snažila zefektívniť molekulárne cytogenetické

vyšetrenia pacientov s klinickými prejavmi mikrodelecie 22q11.2, a to určením

najvýznamnejších fenotypových prejavov ktoré sa podieľajú na predikcii prítomnosti tejto

mikrodelecie. Pre predikčnú analýzu som použila logistickú regresiu a ROC analýzu.

Výsledky popisujem v nasledujúcich kapitolách.

2.1. Dátový súbor

Súbor dát sa skladal z pacientov vyšetrených na prítomnosť mikrodelecie 22q11.2

na OLG FN Brno v rokoch 1997-2004. Z celkového počtu vyšetrených 351 pacientov,

podozrivých na prítomnosť delecie 22q11.2 na základe klinických príznakov, z ktorých

u 20-tich (6%) bola táto mikrodelecia potvrdená, bolo zaradených do analýzy 186.

Zo zvyšných 165 pacientov bolo 155 vyradených z dôvodu nedostatku informácií (pacienti

z iných okresov bez zdravotnej dokumentácie, prípadne UPT) a 10 z dôvodu prítomnosti

iných chromozómových aberácií podmieňujúcich fenotyp (+21, rôzne prestavby).

U zaradených pacientov boli sledované najtypickejšie fenotypové prejavy charakteristické pre

syndróm CATCH22, ako vrodené srdcové vady, palatálne abnormality, imunodeficiencia,

hypokalcémia, psychomotorická retardácia, stigmatizácia a podobne.

2.2. Popisná štatistika

Výsledky popisnej štatistiky spracovanej v programe STATISTICA zobrazuje Tabuľka 11.

2.3. Výsledky

Do logistickej regresie som z potenciálnych prediktorov na začiatok vybrala tie

fenotypové prejavy, ktoré sú pre del22q11 najcharakteristickejšie. Závislá premenná Y

predstavovala prítomnosť mikrodelecie 22q11.2 (1-delecia, 0-normálny karyotyp). Kovariáty

boli kódované 0 a 1, pričom 1- znamená prítomnosť fenotypového prejavu a 0 – zas jeho

neprítomnosť :

72

VÝSLEDKY

Tabuľka 11: Popisné štatistiky dátového súboru pacientov vyšetrených na deleciu 22q11 pre logistickúregresiu.

X1 – Konotrunkálna malformácia (Konotr) (0 – prítomnosť inej srdečnej vady, alebo

neprítomnosť žiadnej VSV; 1– jedna z nasledujúcich konotrunkálnych malformácií: FAT –

fallotova tetralógia, DPK – dvojvýtkoá pravá komora, PA+DKS – pulmonálna atrézia

s defektom komorového septa, TAC – spoločný arteriálny trunkus, IAO – interupcia

aortálneho oblúka)

X2 – Imunodeficiencia (ID) (1- v prípade prítomnosti aspoň jedného z nasledujúcich prejavov:

znížené počty T-lymfocytov, znížené hladiny imunoglobulínov, časté infekcie, 0-naopak)

X3 - Palatálna abnormalita (palatal) (0 – neprítomnosť; 1- prítomnosť aspoň jedného

z nasledujúcich prejavov: rázštep podnebia, porucha reči; kongenitálny stridor)

X4 – PMR (PMR) (1- v prípade psychomotorickej alebo mentálnej retardácie; 0- PMR vývin

73

Popisné štatistiky

PremennáN platných Medián Modus Četnosť

móduSúčet Min Max pozn.

delstigmociusiustacelonosbradakrkhlavaVCCKonotrFATIAOTACDPKTVCSPPADKSMAPCADKSCoAspokomMATAVTRANMADSSHLSHAOSAPRAOPluHypImunohypokPMR

185 0 0 165 20 0 1 delecia 22q11179 1 1 91 91 0 1 stigmatá177 0 0 124 53 0 1 stigmatizované oči177 0 0 130 47 0 1 stigmatizované uši177 0 0 150 27 0 1 stigmatizované ústa177 0 0 161 16 0 1 stigmatizované čelo177 0 0 142 35 0 1 stigmatizovaný nos177 0 0 159 18 0 1 stigmatizovaná brada177 0 0 162 15 0 1 stigmatizovaný krk177 0 0 162 15 0 1 stigmatizovaná hlava185 1 1 179 179 0 1 vrodená srdcová vada185 0 0 137 48 0 1 konotrunkálna malformácia185 0 0 160 25 0 1 Fallotova tetralógia185 0 0 179 6 0 1 Inerupcia aortálneho oblúku185 0 0 181 4 0 1 spoločný arteriálny trunkus185 0 0 179 6 0 1 dvojvýtoková pravá komora185 0 0 164 21 0 1 transpozícia veľkých ciev185 0 0 167 18 0 1 stenóza plúcnice185 0 0 178 7 0 1 pulmonálna atrézia s defektom komorového septa185 0 0 181 4 0 1 hlavné aortopulmonálne korateláry185 0 0 134 51 0 1 defekt komorového septa185 0 0 172 13 0 1 Koarktácia aorty185 0 0 178 7 0 1 spoločná komora185 0 0 183 2 0 1 mitrálna atrézia185 0 0 172 13 0 1 defekt atrioventrikulárneho septa185 0 0 184 1 0 1 trikuspidálna anomália185 0 0 181 4 0 1 mitrálna atrézia185 0 0 165 20 0 1 defekt sieňového septa185 0 0 175 10 0 1 hypoplázia ľavého srdca185 0 0 184 1 0 1 hypoplázia aortálneho oblúka185 0 0 173 12 0 1 aortálna stenóza185 0 0 182 3 0 1 pravostranný aortálny oblúk185 0 0 180 5 0 1 pľúcna hypertenzia162 0 0 143 19 0 1 imunodeficiencia158 0 0 145 13 0 1 hypokalcémia alebo skolióza172 0 0 150 22 0 1 psychomotorická alebo mentálna retardácia

VÝSLEDKY

v norme)

X5 - hypokalcémia (hypok) (1-v prípade prítomnosti aspoň jedného z nasledujúcich prejavov:

novorodenecké hypokalcemické kŕče, nízke hladiny Ca++ a Ca v sére, skolióza; 0 – naopak)

X6 - stigmatizácia (stigm)

Zo stigmatizácie boli daľej vybrané:

X7 – stigmatizácia očí (oci) (1- v prípade akejkoľvek stigmatizácie očí - hypertelorizmus,

hypotelorizmus, epicanthy, mongoloidné-antimongoloidné postavenie očných štrbín, 0- bez

stigmatizácie)

X8 – uši (usi) (1- zahŕňa: dysplastické, nízkoposadené, malé alebo príliš veľké ušné boltce,

alebo inú stigmatizáciu uší; 0- bez stigmatizácie)

X9 – krk (krk) (1- krátky krk alebo pterygium coli, 0 - naopak)

X10 – anomálne ryhy na ploskách (anryh) (1- prítomnosť; 0-neprítomnosť)

Ako som už spomínala, logistický regresný model som počítala pomocou programu R-

plus. Po odhade chýbajúcich hodnôt pomocou metódy mnohonásobného doplňovania som

začala vytvárať logistický regresný model. Začínala som od úplného modelu, do ktorého som

zahrnula všetky vyššie spomínané kovariáty. Do modelu som samozrejme nezahrnula celkové

a ich parciálne kovariáty spoločne (stigmatá spolu s kovariátou stigmatizácia uší, očí... atd.,

Konotr spolu s jednotlivými druhmi konotrunkálnych malformácií).

Zisťovala som tiež, či sa medzi jednotlivými kovariátami vyskytujú prípadné interakcie, a či

sú pre model významné. Nakoniec som model zvalidovala, aby som zistila, ako by sedel na

testovacom súbore. Ku každej validácii som vykreslila kalibračné krivky.

Prvý model znázorňuje objekt Model 1. Parameter Model L.R. Značí hodnotu LR

štatistiky pre celý model, a P je dosiahnutá hladina významnosti pre LR test. C je plocha pod

príslušnou ROC krivkou, Dxy Somerov diskriminačný koeficient a R2 index merajúci

predikčnú silu modelu.

74

VÝSLEDKY

Model 1: Úplný model 1

formula: del~Konotr+Imuno+palatal+hypok+PMR+stigm

Model L.R. s.v. P C Dxy R2

83.7 6 0 0.969 0.938 0.732

Beta S.E. Wald Z P

Intercept -7.8743 2.324 -3.39 0.0007

Konotr 3.0965 1.202 2.58 0.0100

Imuno 4.5898 1.421 3.23 0.0012

palatal 1.1618 1.204 0.97 0.3345 *

hypok 2.8541 1.590 1.79 0.0727 *

PMR -0.2717 1.134 -0.24 0.8106 *

stigm 2.2857 1.409 1.62 0.1048 *

Nevýznamné vychádzajú premenné PMR, palatal, stigm, hypok. Vidíme, že hodnota

R2 vyjadrujúca prediktívnu silu modelu je dosť vysoká (0,732), takže sa dá povedať, že model

má aj napriek prebytočným kovariátam veľmi dobrú predikčnú silu. Plocha pod krivkou

C=0,969 a Somerovo Dxy=0,938 značia výbornú diskriminačnú schopnosť modelu. Ďalej som

postupne odstraňovala každú z nevýznamných premenných z modelu. Na objektoch Model 2

a Model 3 môžeme sledovať ako sa model menil.

Model 2:

formula: del~Konotr+Imuno+palatal+hypok+stigm


83.30 5 0 0.968 0.936 0.73

Beta S.E. Wald Z P

Intercept -7.836 2.316 -3.38 0.0007

Konotr 3.112 1.193 2.61 0.0091

Imuno 4.497 1.341 3.35 0.0008

palatal 1.151 1.191 0.97 0.3341 *

hypok 2.790 1.568 1.78 0.0752 *

stigm 2.225 1.391 1.60 0.1098 *

75

VÝSLEDKY

Model 3:

formula: del~Konotr+Imuno+hypok+stigm


81.85 4 0 0.966 0.932 0.72

Beta S.E. Wald Z P

Intercept -7.646 2.246 -3.40 0.0007

Konotr 2.938 1.133 2.59 0.0095

Imuno 4.543 1.314 3.46 0.0005

hypok 2.889 1.522 1.90 0.0576 *

stigm 2.341 1.390 1.68 0.0923 *

Vidíme, že po odstránení premenných PMR a palatal sa zvýšila významnosť

premenných stigm a hypok. Pre istotu som ešte otestovala prípadné interakcie medzi

kovariátami (objekty Interakcie 1 – Interakcie 3).

Interakcie 1:

formula : del~Konotr+Imuno+hypok*stigm


82.25 5 0 0.966 0.933 0.722

Beta S.E. Wald Z P

Intercept -7.962 6.326 -1.26 0.2082

Konotr 2.913 1.131 2.58 0.0100

Imuno 4.540 1.321 3.44 0.0006

hypok 1.262 43.00 0.03 0.9766 *

stigm 2.690 6.062 0.44 0.6572 *

hypok * stigm 1.494 43.006 0.03 0.9723 *

76

VÝSLEDKY

Interakcie 2:

formula: del ~ Konotr * stigm * Imuno + palatal * hypok * Imuno


86.11 13 0.03 0.26 0.252 0.741

Beta S.E. Wald Z P

Intercept -11.6448 17.99 -0.65 0.5173

Konotr 4.0806 35.00 0.12 0.9072

stigm 3.2582 21.46 0.15 0.8793

Imuno 1.0226 83.20 0.01 0.9902

palatal -4.0561 50.08 -0.08 0.9355

hypok -0.5469 50.28 -0.01 0.9913

Konotr * stigm 2.0147 36.94 0.05 0.9565

Konotr * Imuno 5.7163 90.06 0.06 0.9494

stigm * Imuno 4.9355 86.07 0.06 0.9543

palatal * hypok 2.9659 114.82 0.03 0.9794

Imuno * palatal 6.6280 53.46 0.12 0.9013

Imuno * hypok 13.5499 123.21 0.11 0.9124

Konotr * stigm * Imuno -7.8832 92.84 -0.08 0.9323

Imuno * palatal * hypok -1.9235 839.94 0.00 0.9982

Interakcie 3:

formula: del ~ PMR * Konotr + PMR * Imuno


69.49 5 0 0.947 0.893 0.63

Beta S.E. Wald Z P

Intercept -5.0747 1.0810 -4.69 0.0000

PMR -2.8310 22.0458 -0.13 0.8978

Konotr 2.2812 0.9274 2.46 0.0139

Imuno 4.1484 1.1701 3.55 0.0004

PMR * Konotr -0.8558 1.7143 -0.50 0.6176

PMR * Imuno 3.6914 2 2.0619 0.17 0.8671

Vidíme, že pre model nie sú významné žiadne z testovaných interakcií. Ďalej som teda

postupne z modelu odstránila premennú stigm a premennú hypok a získala som 3 modely:

77

VÝSLEDKY

Model 4:

formula: del~Konotr+Imuno+hypok


75.9 3 0 0.95 0.90 0.68

Beta S.E. Wald Z P

Intercept -5.542 1.1569 -4.79 0.0000

Konotr 2.355 0.8794 2.68 0.0074

Imuno 4.311 1.1220 3.84 0.0001

hypok 2.929 1.3137 2.23 0.0258

Model 5:

formula: del~Konotr+Imuno+stigm


75 3 0 0.959 0.92 0.67

Beta S.E. Wald Z P

Intercept -6.939 1.8357 -3.8 0.0002

Imuno 4.512 1.2028 3.8 0.0002

Konotr 2.537 0.9788 2.6 0.0095

stigm 2.326 1.1208 2.1 0.0380

Všimnime si, že premenné stigm a hypok sú významné keď sa v modeli nevyskytujú

spoločne (interakcie ale vyšli nevýznamne). Takisto si ale všimnime vysoké hodnoty

smerodatných odchýlok ich parametrov.

Po ponechaní len premenných Imuno a Konotr som dostala Model 6.

Model 6:

formula: del~Konotr+Imuno


67.8 2 0 0.942 0.883 0.617

Beta S.E. Wald Z P

Intercept -4.881 0.9547 -5.11 0.0000

Konotr 1.995 0.7504 2.66 0.0078

Imuno 4.315 1.0063 4.29 0.0000

78

VÝSLEDKY

Vidíme, že charakteristiky modelu 9 sa veľmi nelíšia od charakteristík modelov 5 a 6.

Ďalším krokom bolo skúsiť namiesto premennej stigm dosadiť jej jednotlivé parciálne

premenné. Model so všetkými uvažovanými premennými vyšiel nevýznamne (viď Model 7).

Po postupnom odstránení nevýznamných premenných som dostala konečný model podobný

modelu 5 (viď Model 8).

Model 7:

formula: del~Konotr+Imuno+brada+oci+usi+krk+anryh


82.12 7 0 0.967 0.934 0.721

Beta S.E. Wald Z P

Intercept -8.9792 15.786 -0.57 0.5695

Konotr 2.5874 1.011 2.56 0.0105

Imuno 7.4226 15.745 0.47 0.6373 *

brada 4.0985 15.673 0.26 0.7937 *

oci -0.9098 1.065 -0.85 0.3931 *

usi 1.3388 1.164 1.15 0.2502 *

krk 1.7504 1.266 1.38 0.1666 *

anryh 0.9885 1.491 0.66 0.5074 *

Model 8:

formula: del~Konotr+Imuno+usi


76 3 0 0.956 0.912 0.678

Beta S.E. Wald Z P

Intercept -5.949 1.3070 -4.55 0.0000

Konotr 2.173 0.8199 2.65 0.0081

Imuno 4.499 1.2097 3.72 0.0002

usi 1.879 0.8404 2.24 0.0254

Pre validáciu modelov 4,5,6 som použila funkciu validate.lrm a modely s rovankými

kovariátami vytvorené na modálnej matici. Tak som dostala modely s hodnotami odhadnutých

koeficientov veľmi podobnými koeficientom modelov odhadnutých metódou mnohonásobnej

imputácie. Tabuľky 12 až 14 uvádzajú porovnanie koeficientov a štatistík týchto modelov.

79

VÝSLEDKY

Tabuľka 12: Porovnanie koeficientov a štatistík Modelu 4 (vypočítaného s využitím mnohonásobnejimutácie (mult)) a modelu 4.2. s rovnakými kovariátami, avšak vypočítaného využitím modálnej matice(lrm).

Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult lrm mult lrm mult

Intercept -6,303 -5,542 1,223 1,157 -5,15 -4,79 0 0Konotr 2,226 2,355 0,866 0,879 2,57 2,68 0,01 0,0074Imuno 5,515 4,311 1,166 1,122 4,73 3,84 0 0,0001hypok 2,894 2,929 1,622 1,314 1,78 2,23 *

0,074 0,03

štatistikylrm mult

Model LR 86,56 75,90P 0,00 0,00C 0,98 0,95Dxy 0,95 0,90R2 0,75 0,68

Tabuľka 13: Porovnanie koeficientov a štatistík Modelu 5 a modelu 5.2.

Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult. lrm mult. lrm mult.

Intercept -8,568 -6,939 2,127 1,836 -4,03 -3,8 0,0001 0,0000Konotr 2,866 2,537 1,132 0,979 2,53 2,6 0,0114 0,0095Imuno 5,895 4,512 1,327 1,203 4,44 3,8 0,0000 0,0002stigm 2,72 2,326 1,233 1,120 2,21 2,1 0,0273 0,0000

štatistikylrm mult.

Model LR 89,36 75,00P 0,00 0,00C 0,98 0,96Dxy 0,96 0,92R2 0,77 0,67

Tabuľka 14: Porovnanie koeficientov a štatistík Modelu 6 a modelu 6.2.

Beta Smerodatná odchýlka Wald Z Plrm mult lrm mult lrm mult lrm mult

Intercept -5,873 -4,881 1,134 0,955 -5,18 -5,11 0,0000 0,0000Konotr 2,004 1,995 0,801 0,75 2,5 2,66 0,0123 0,0078Imuno 5,483 4,315 1,111 1,006 4,93 4,29 0,0000 0,0000

štatistikylrm mult

Model LR 82,30 67,80P 0,00 0,00C 0,97 0,94Dxy 0,95 0,88R2 0,72 0,62

Vidíme, že štatistiky a odhadnuté koeficienty sú v rámci jednotlivých typov modelov

80

VÝSLEDKY

podobné.

Modely odvodené z modálnej matice dát som pomocou funkcie validate.lrm

validovala a vo všetkých troch sledovala korigované štatistiky. Výstupy jednotlivých validácií

ukazujú objekty Validácia 1 až Validácia 3. Stĺpec pôvodné značí štatistiky pôvodného

modelu, trénovacie sú priemery štatistík modelov vytvorených na bootstrapovej vzorke a test

ukazuje priemery štatistík týchto modelov aplikovaných na pôvodné dáta. Optimizmus je

veličina ktorá vznikne rozdielom trénovacie – test a veličina korigované udáva korigované

štatistiky, vypočítané vzťahom pôvodné – optimizmus.

Validácia 1: Validácia Modelu 4.2.

pôvodné trénovacie test optimizmus korigované

Dxy 0.9530 0.9525 0.9534 -0.0009 0.9540

R2 0.7535 0.7638 0.7440 0.0198 0.7337

g0 0.0000 0.0000 -0.0467 0.0467 -0.0467

g1 1.0000 1.0000 0.8852 0.1148 0.8852

Emax 0.0000 0.0000 0.0350 0.0350 0.0350



Dxy 0.9621 0.9577 0.9621 -0.0043 0.9664

R2 0.7724 0.7630 0.7507 0.0123 0.7601

g0 0.0000 0.0000 0.0443 -0.0443 0.0443

g1 1.0000 1.0000 0.8735 0.1265 0.8735

Emax 0.0000 0.0000 0.0375 0.0375 0.0375



Dxy 0.9467 0.9462 0.9467 -0.0005 0.9471

R2 0.7243 0.7407 0.7164 0.0242 0.7001

g0 0.0000 0.0000 -0.0322 0.0322 -0.0322

g1 1.0000 1.0000 0.9051 0.0949 0.9051

Emax 0.0000 0.0000 0.0275 0.0275 0.0275

81

VÝSLEDKY

Vidíme, že posledný model zahŕňajúci len premennú Konotr a Imuno má najvyššiu

hodnotu g1 a to 0,905, najnižšiu hodnotu Emax = 0,0275 a najnižšiu aboslútnu hodnotu g0

Grafy kalibrovaných pravdepodobností oproti pôvodným predikovaným pravdepodobnostiam

viď. Príloha 2. Vo všetkých troch prípadoch vidíme, že modely sedia veľmi dobre.

V Prílohe 3 pre porovnanie uvádzam Model 9 a výstupy jeho validácie. Tento model je

príkladom zle navrhnutého modelu, čo sa prejavilo nielen v nízkych hodnotách Waldových

štatistík (a teda vysokých hodnotách p hodnôt), ale aj v zmenšení plochy pod krivkou,

a konečne prinízkymi či privysokými hodnotami korigovaných štatistík ktoré sú výstupom

validácie (Dxy=0.17042, R2=0.02055, g0 = -0.83407, g1 = 0.59368 ).

Pretože modely 4.2, 5.2 a 6.2 sú si veľmi podobné, aby som zistila ktorý z nich je

najvhodnejší, urobila som ROC analýzu na všetkých troch a porovnala percentá správne

zaradených pozitívnych pacientov a percentá falošné pozitívnych pacientov u všetkých troch

modelov. Ako deliace hranice som použila predikované pravdepodobnosti pacientov.

Tabuľka 15 zobrazuje predikované pravdepodobnosti Modelu 4.2 a Tabuľka 15.2 zas

špecificity a senzitivity príslušné k jednotlivým deliacim hraniciam.

Tabuľka 15: Predikované pravdepodobnosti Modelu 4.2.

Premennáporadové číslo

Konotr Imuno hypok Predikovanépravdepodobnosti

* 1 0 0 0 0,00182 1 0 0 0,01673 0 0 1 0,03204 1 0 1 0,23455 0 1 0 0,31266 1 1 0 0,80817 0 1 1 0,89148 1 1 1 0,9870

Tabuľka 15.2: Špecificity, senzitivity a príslušné deliace hraniceModelu 4.2.

hranica Špecificita Senzitivita>= 0.0018 0 ( 0; 0.0228) 1 (0.839; 1)> 0.0018 * 0,697 (0.623; 0.762) 1 (0.839; 1)> 0.0167 0,885 (0.827; 0.925) 0,95 (0.764; 0.997)> 0.032 0,933 (0.884; 0.962) 0,95 (0.764; 0.997)> 0.313 0,982 (0.948; 0.994) 0,75 (0.531; 0.888)> 0,808 1 (0.977; 1) 0,25 (0.112; 0.469)> 0.987 1 (0.977; 1) 0 (0; 0.161)

Všimnime si, že percento falošnej pozitivity je okolo 30%, pri 100% záchyte

82

VÝSLEDKY

pozitívnych pacientov. Kombinácie dvoch alebo troch fenotypových prejavov zahŕňajúce

Imuno dávajú najvyššie pravdepodobnosti (80% – 90%) prítomnosti mikrodelecie. Príslušnú

ROC krivku znázorňuje Graf 8.

Graf 8: ROC krivka Modelu 4.2

Z týchto tabuliek vidíme, že ak by sme chceli mať 100% záchyt pozitívnych pacientov

a čo najnižšiu falošnú pozitivitu, musíme ako cutoff level zobrať najnižšiu predikovanú

pravdepodobnosť, 0.18%. Takú pravdepodobnosť prítomnosti mikrodelecie 22q11 majú

pacienti, ktorí nemajú ani jeden z uvedených fenotypových prejavov. S touto deliacou

hranicou budeme teda za pozitívnych považovať pacientov s aspoň jedným z uvažovaných

prejavov.

Predikované pravdepodobnosti Modelu 5.2 ukazuje Tabuľka 16.


Premennáporadovéčíslo

Konotr Imuno stigm Predikovanépravdepodobnosti

1 0 0 0 0.00022 0 0 1 0.0029

* 3 1 0 0 0.00334 1 0 1 0.04835 0 1 0 0.06466 0 1 1 0.51207 1 1 0 0.54818 1 1 1 0.9485

83

ROC krivka (Model 4.2)

0,0 0,2 0,4 0,6 0,8 1,0

1-Špecificita

0,0

0,2

0,4

0,6

0,8

1,0

Sen

zitiv

ita

AUC = 0.9765152SE = 0.02393880IS 0.9504438; 0.9951923

VÝSLEDKY

Nahradením premennej hypok premennou stigm nám klesli predikované

pravdepodobnosti, ale, ako vidíme z tabuľky, klesla nám aj miera falošnej pozitivity na 16%.

Je to preto, že so stanovenou deliacou hranicou 0.33% (Tabuľka 16) považujeme

za negatívnych aj pacientov s len konotrunkálnou malformáciou alebo len so stigmatami. Graf

9 znázorňuje ROC krivku tohoto modelu.

Graf 9: ROC krivka Modelu 5.2.

Tabuľka 16.2: Špecificity, senzitivity a príslušné deliace hranice Modelu 5.2.

hranica Špecificita Senzitivita>=0,0002 0 (0; 0.023) 1 (0.839; 1)>0,0002 0,406 (0.334; 0.482) 1 (0.839; 1)>0,0029 0,745 (0.674; 0.806) 1 (0.839; 1)>0,0033 * 0,842 (0.779; 0.890) 1 (0.839; 1)>0,0483 0,933 (0.885; 0.962) 0,95 (764; 0.997)>0,0646 0,952 (0.907; 0.975) 0,95 (0.764; 0.997)>0,5120 0,982 (0.948; 0.994) 0,65 (0.433; 0.819)>0,5481 0,994 (0.966; 0.999) 0,5 (0.299; 0.701)>0,9485 1 (0.977 1) 0 (0; 0.161)

Pozrime sa ešte na hodnoty predpovedaných pravdepodobností modelu 6.2 (Tabuľka 17)



Konotr Imuno Predikovanépravdepodobnosti

* 1 0 0 0.00281 2 1 0 0.020463 0 1 0.403914 1 1 0.83408

84

AUC = 0.981SE = 0.0215620IS 0.961656 ; 0.995086

ROC krivka (Model 5.2.)

0,0 0,2 0,4 0,6 0,8 1,0

1-Špecificita

0,0

0,2

0,4

0,6

0,8

1,0

Sen

zitiv

ita

VÝSLEDKY

Pacient ktorý nemá ani vyššie popísanú konotrunkálnu srdcovú vadu, ani

imunodeficienciu má podľa nášho dátového súboru a tohoto modelu deleciu 22q11

s pravdepodobnosťou len okolo 0,3%. Naopak pacient iba s Imunodeficienciou má podľa

nášho dátového súboru túto deleciu s pravdepodobnosťou až 40%. Inak povedané, pacienti

s imunodeficienciou majú na základe tohoto modelu omnoho vyššiu pravdepodobnosť

prítomnosti mikrodelecie ako pacienti iba s konotrunkálnou malformáciou. Ak budeme brať

tieto pravdepodobnosti ako deliace hranice, dostaneme hodnoty senzitivity a špecificity

(Tabuľka 17.2) a ROC krivku (Graf 10).

Tabuľka 17.2: Senzitivity, Špecificity a hranice Modelu 6.2.

hranica Špecificita Senzitivita>=0.00281 0 (0; 0.023) 1 (0.839; 1)>0.00281 * 0,745 (0.674; 0.806) 1 (0.839; 1)>0.02046 0,933 (0.886; 0.962) 0,95 (0.764; 0.997)>0.40391 0.981 (0.949; 0.994) 0,65 (0.433; 0.819)>0.83408 1 (0.977; 1) 0 (0; 0.161)

Takže, podľa tohoto modelu, ak chceme mať čo najväčší záchyt pozitívnych

pacientov, hranicu si musíme stanoviť na hodnote 0,0281, čo znamená, že všetkých pacientov

ktorí majú predpovedanú pravdepodobnosť väčšiu ako 2,81% označíme za pozitívnych.

Rovnako ako v modeli 4.2 to budú všetci ktorí majú aspoň jeden z uvažovaných fenotypových

prejavov. S touto deliacou hranicou budeme mať podľa nášho datového súboru a tohoto

modelu takmer 100% úspešnosť záchytu skutočne pozitívnych pacientov a len 25% falošnej

pozitivity. Všimnime si, že na rozdiel od modelu 4.2 má tento nižšie percento falošnej

negativity.


85

ROC krivka (Model 6.2.)

0,0 0,2 0,4 0,6 0,8 1,0

1-Špecificita

0,0

0,2

0,4

0,6

0,8

1,0

Sen

zitiv

ita

AUC = 0.9733333SE = 0.0254556IS 0.9499463 ; 0.991573

VÝSLEDKY

Keďže prenatálnou diagnostikou sa z fenotypových prajavov dá zistiť jedine vrodená

srdcová vada (prítomnosť thymu ešte nemusí znamenať že pacient bude mať imunologické

makery v norme), zaujíma nás otázka, aké výsledky bude dávať model obsahujúci len

konotrunkálnu malformáciu. Pre zvýšenie počtu zachytených pozitívnych pacientov som

k tejto premennej pripojila premennú PRAO (prítomnosť pravostranného aortálneho oblúka)

a dostala tak premennú KonotrPRAO (= 1 v prípade jednej z vyššie uvedených

konotrunkálnych malformácií alebo prítomnosti pravostranného aortálneho oblúka;

0 - naopak).

Pravostranný aortálny oblúk sa vyskytol u 2 z pozitívnych pacientov, a je považovaný

za typickejší prejav mikrodelecie ako ostatné nekonotrunkálne srdcové vady. (Pre vyššie

uvažované modely táto modifikovaná premenná nemala veľký význam, pretože pre stanovené

hranice pozitivity nemenila záchyt pozitívnych pacientov – viď Model 10 - príklad

modifikovaného modelu 9.2. , v Prílohe 4)

Do trénovacieho súboru som zaradila navyše 19 vyšetrených plodov, ktoré skončili

potratom. Datový súbor sa mi teda zvýšil na 214 vyšetrených. Srdcové vady nemali žiadnu

chýbajúcu premenú, preto som model odhadovala priamo. S použitím premennej

KonotrPRAO vznikol Model 11.Model 11.

Formula: del ~ KonotrPRAO


25.08 1 0 0.781 0.563 0.239

Beta S.E. Wald Z P

Intercept -3.611 0.5067 -7.13 0

KonotrPRAO 2.555 0.5839 4.38 0

Validácia 5: Validácia Modelu 11.


Dxy 0.5629 0.5612 0.5629 -0.0017 0.5646

R2 0.2391 0.2462 0.2391 0.0071 0.2319

Intercept 0.0000 0.0000 0.0726 -0.0726 0.0726

Slope 1.0000 1.0000 1.0145 -0.0141 1.0141

Emax 0.0000 0.0000 0.0187 0.0187 0.0187

86

VÝSLEDKY

Kalibračná krivka k Validácii 5 viď Príloha 2.

Pozrime sa na predpovedané pravdepodobnosti (Tabuľka 18).

Tabuľka 18: Predikované pravdepodobnosti Modelu 14.


KonotrPRAO Predikovanépravdepodobnosti

1 0 0.0262 1 0.258

Vidíme, že ak sledujeme len premennú KonotrPRAO, tak v prípade jej prítomnosti u pacienta

je pravdepodobnosť že sa jedná o pacienta s 22q11.2 mikrodelečným syndrómom len 25.8%.

Tabuľka 18.2: Špecificity, senzitivity a príslušné deliace hranice Modelu 14.

hranica Špecificita Senzitivita>= 0.026 0 (0; 0.019) 1 (0.839; 1)> 0.026 * 0,763 ( 0.698; 0.817) 0,8 (0.584; 0.919)> 0.258 1 (0.981; 1) 0 (0; 0.161)

Z tabuľky senzitivít a špecificít vyplýva, že prípade, ak sa budú prenatálne vyšetrovať len

plody ktoré majú aspoň jednu vyššie definovanú konotrunkálnu malformáciu alebo

pravostranný aortálny oblúk (prípadne spoločne), tak sa na základe nášho dátového súboru

zachytí asi 80% skutočne pozitívnych pacientov.


87

AUC = 0.781SE = 0.062IS (0.680; 0.872)

ROC krivka (Model 14)

0,0 0,2 0,4 0,6 0,8 1,0

1-Špecificita

0,0

0,8

1,0

Sen

zitiv

ita

V. DISKUSIA

V dnešnej dobe, keď je stále viac vážnych chorôb spájaných s odchýlkami v genetickej

informácii, stúpa význam molekulárne cytogenetických technológií, pretože vyšetrenia zmien

v ľudskom karyotype pomaly vyžadujú takmer všetky medicínske odbory. Presnosť výsledkov

je dôležitá, pretože sa často jedná o vyšetrenia potvrdzujúce diagnózu, či monitorujúce

odpoveď na terapiu. Pri hodnotení mikroskopických preparátov sa tak vynárajú rôzne otázky,

ktoré s požiadavkou tejto presnosti úzko súvisia. Aký má byť počet buniek, ktoré hodnotiť,

aby mal test čo najvyššiu presnosť? Hodnotenie je často nielen časovo náročné, ale vyžaduje

si od pracovníkov istú skúsenosť. Ako určiť, že nový pracovník je už dostatočne skúsený, aby

mohol nastúpiť hodnotenie do praxe? A nakoniec, kedže u väčšiny testov sa stanovuje

percento pozitívnych buniek z celkového počtu hodnotených, je dôležité určiť hranicu,

pomocou ktorej budú pacienti určovaní za pozitívnych, prípadne negatívnych. To je len

niekoľko z otázok, na ktoré som sa snažila touto diplomovou prácou aspoň čiastočne

odpovedať.

V prvej časti diplomovej práce som sa pokúšala načrtnúť spôsob optimalizácie

hodnotenia mikroskopických preparátov a to jednak stanovením optimálneho počtu

počítaných buniek, jednak nájdením vhodného testu pre overenie presnosti hodnotenia

cytogenetických preparátov medzi pracovníkmi a jednak ukážkou spôsobu výpočtu deliacej

hranice pre cytogenetické diagnostické systémy na príklade ES-FISH aplikovanej na detekciu

Ph chromozómov.

Počet buniek som stanovila na 200, a to na základe dostupnej literatúry a periodík.

Dewald (2002) síce okrem minima 200 buniek odporúča najčastejšie 500 buniek pre dnešné

diagnostické systémy, ale Thall, Zimmermann, & Jacoby (1998) na základe sily testu takisto

odporúčajú 200 buniek, aby sa zachytili skutočne pozitívne bunky pod 5%. Pretože tieto

percentá vyvodili pre metódu S-FISH, ktorá má percento falošnej pozitivity až 10%, môžeme

predpokladať, že pre presnejšiu metódu, akou je ES-FISH, bude tento počet postačujúci na

záchyt ešte nižších percent skutočne pozitívnych buniek.

Pre stanovenie testu pracovníkov som otestovala pracovníkov OLG ktorí hodnotia

preparáty CML. A to binomickým testom, Friedmanovým a Wilcoxonovým párovým testom.

K binomickému testu s jednostrannou alternatívou, kde som testovala hypotézu, že

pravdepodobnosť úspechu (teda výskytu pozitívnej bunky v rozdiele medzi dvoma

pracovníkmi) p odhadnutého ako súčet všetkých rozdielov pracovníkov / k*200 (kde k je

88

DISKUSIA

počet preparátov ktoré hodnotili spoločne) je väčšia ako 5%, som pristúpila preto, že sa

hovorí, že pracovníci by sa nemali odlišovať o viac ako 5%. Pre všetky dvojice pracovníkov

som na základe tohoto testu hypotézu zamietla, v prospech alternatívnej hypotézy HA:

pracovníci sa líšia o menej ako 5%. Binomický test je dobrý z toho hľadiska, že využíva inú

informáciu ako ostatné uvažované testy. Hlavne teda priamu informáciu o počte buniek

v rozdieloch. Na druhú stranu neuvažuje možnú variabilitu vnútri súboru preparátov. Podiely

pozitívnych buniek na preparátoch sa pohybujú od 0 do 100 %. Niektorí pracovníci môžu

presnejšie hodnotiť preparáty s nízkymi, iní zas s vysokými percentami pozitívnych buniek.

S touto variabilitou počíta Friedmanova ANOVA, ktorou sa dá porovnávať viac pracovníkov

naraz. Tento test testuje, či sú dané výbery z rovnakého rozdelenia. Nevýhodou tohoto testu

je, že nepočíta s priamymi rozdielmi medzi pracovníkmi. To znamená, že ak máme dostatočne

symetrické dáta, aj napriek tomu, že sa pracovníci odlišujú o vysoké percentá, test hypotézu

nezmietne. V našom prípade výsledok vyšiel nevýznamne, s dosiahnutou hladinou testu skoro

30%, hypotézu sme teda nezamietli. Môže to znamenať ale aj to, že sme na zamietnutie

hypotézy nemali dostatočne veľkú vzorku.

Wilcoxonov párový test v predpokladoch počíta so symetriou rozdielov okolo

mediánu. V prípade malej vzorky tento predpoklad nemusí byť splnený. To mohla byť príčina

zamietnutia hypotézy o zhode pracovníkov 2 a 3. Pokiaľ ostatné testy hypotézy o zhode

nezamietli, je možno vhodné zvýšiť vzorku napočítaných preparátov. Príčinou mohlo byť aj

zahrnutie nových prípadov, ktoré Friedmanov test nemohol posúdiť (tieto prípady boli

spočítané len dvoma pracovníkmi). Veľkosť vzorky je dôležitá, v tomto prípade platí čím

viac, tým lepšie, 20 spoločne napočítaných vzoriek by malo byť aj vzhľadom

k asymptotickým predpokladom niektorých testov minimum. Wilcoxonov test, ktorý testuje

podobne ako binomický len dvojicu pracovníkov, môže byť použitý, ak vyjde Friedmanov test

významne, na zistenie, ktorá z dvojíc sa líši. Binomický test je však vzhľadom k informácii

ktorú používa v kombinácii s Friedmanovým testom vhodnejší. Metodika testovania zhody

pracovníkov môže obsahovať nasledujúce testy v uvedenom poradí:

i) Friedmanov test – ak n≥3 pre otestovanie n pracovníkov

ii) Binomický test – pokiaľ n=2

- v prípade zamietnutia hypotézy Friedmanovým testom môže určiť

dvojicu ktorá sa odlišuje, alebo nepotvrdiť zamietnutie hypotézy

- v prípade nezamietnutia hypotézy Friedmanovým testom spresňuje

výsledok (Friedman nemusel mať dostatok dát)

Ak obidva testy nepotvrdia odlišnosť, pracovníci sa nelíšia. Ak nepotvrdí zhodu aspoň jeden

z nich, je potrebná buď väčšia vzorka (Friedmanov test), alebo sa pracovníci naozaj líšia

89

DISKUSIA

(Friedman, binomický test).

Pri párovom experimente, kedy pracovníci hodnotia rovnaký preparát je potrebné vziať

do úvahy skutočnosť, že preparát sa časom „vysvieti“. Hodnotenie preparátu posledným

pracovníkom teda môže byť touto skutočnosťou negatívne ovplyvnené.

Významným záverom vyššie spomínaného testovania pracovníkov je fakt, že pre

používanie rovnakej deliacej hranice je potrebné aby mali rovnaké kritériá hodnotenia.

V prípade nezamietnutia hypotézy o zhode teda môže nový pracovník (testovaný oproti

skúsenému pracovníkovi) začať stanovený cutoff level používať.

Stanovenie deliacej hranice je dôležitou úlohou, pretože má určité klinické dôsledky.

Dewald (2002) odporúča na určenie cutoff levelu hornú hranicu intervalu spoľahlivosti pre

binomické rozloženie (vzorec 1.2), bez aproximácie na normálne rozloženie. Táto metóda je

síce nesporne lepšou alternatívou často používaného spôsobu X±3 , teda priemer +- 3

smerodatné odchýlky, avšak nevyužíva informáciu o parciálnych pozitívnych a negatívnych

presnostiach. ROC analýza tento problém rieši naozaj efektívne. Pomocou nej vyšla hodnota

cutoff levelu 3,5%, za predpokladu, že chceme mať najnižšie percento falošnej pozitivity.

Pri výpočte cutoff levelu pomocou intervalu spoľahlivosti by sme s naším dátovým súborom

stanovili cutoff level na 1,5%. To by znamenalo falošnú pozitivitu až 15%, na rozdiel

od takmer nulovej falošnej pozitivity s cutoff levelom 3,5%.

Pre vyšetrovanie pacientov s potenciálnou CML, ak chceme mať čo najnižšiu falošnú

pozitivitu, je, ako som už spomínala, vhodnejšie pohybovať sa na menej striktnej hranici.

V ostatných prípadoch to tak byť nemusí, voľba vhodnej hranice vždy záleží na klinických

dôsledkoch a prevalencii choroby. Ak sa jedná o chorobu s vysokou prevalenciou, chorobu

epidemiologickú, ale aj o chorobu s veľmi nízkou prevalenciou, ktorej neodhalenie však má

závažné následky, tak chceme mať čo najvyšší záchyt pozitívnych pacientov, a deliacu

hranicu posúvame smerom doľava, v prospech počtu zachytených pozitívnych pacientov. Ešte

je snáď potrebné pripomenúť, že ak stanovujeme deliacu hranicu pre určitú metódu, musíme

pre jej používanie v praxi hodnotiť rovnaký počet buniek na akom bola táto hranica

vypočítaná. Náš stanovený cutoff level 3,5% je vypočítaný na preparátoch s 200 hodnotenými

bunkami, preto sa nedá aplikovať na 100 alebo 500 buniek.

Mikrodelecia 22q11.2 je syndrómom ktorý sa prejavuje variabilným fenotypom.

Jednotlivé prejavy sa líšia pacient od pacienta, aj keď sú pre syndróm charakteristické.

Situáciu sťažuje fakt, že pacient s rovnakým fenotypovým prejavom nemusí mať danú

mikrodeleciu. V druhej časti diplomovej práce som sa preto snažila určiť najvýznamnejšie

90

DISKUSIA

fenotypové prejavy významné pre tento syndróm a na ich základe stanoveného modelu

predikovať pravdepodobnosti prítomnosti danej mikrodelecie.

Najvýznamnejšie vyšli premenné Konotr, Imuno, hypok a stigm. Model 4.2, zahŕňajúci

konotrunkálne abnormality (FAT, IAO, DPK, TAC, PA_DKS), imunodeficienciu

a hypokalcémiu (vrátane skoliózy), má najvyššie predikované pravdepodobnosti. Podľa tohoto

modelu má pacient s konotrunkálnou malformáciou a imunodeficienciou 80%

pravdepodobnosť prítomnosti mikrodelecie 22q11.2. Pacient len s imunodeficienciou

a hypokalcémiou (pozor, to že nemá konotrunkálnu malformáciu neznamená, že nemá inú

srdcovú vadu) má pravdepodobnosť vyššiu o skoro 10% (89%). Najvyššiu pravdepodobnosť

má samozrejme pacient so všetkými tromi fenotypovými prajavmi – až 99%. Oproti tomu

model 5.2., ktorý namiesto premennej hypokalcémia uvažuje sigmatá, dáva výrazne nižšie

pravdepodobnosti pri dvoch prítomných fenotypových prejavoch. Pacient s imunodeficienciou

a stigmatami má pravdepodobnosť mikrodelecie 51%, pacient s konotrunkálnou

malformáciou a imunodeficienciou len o málo viac: 55%. Pri všetkých prejavoch sa

pravdepodobnosť zvýši až na 95%. Posledný model 9.2., uvažujúci len konotrunkálnu

malformáciu a imunodeficienciu dáva tiež nižšie pravdepodobnosti prítomnosti mikrodelecie,

a to 2% ak má pacient len konotrunkálnu malformáciu, 40% v prípade imunodeficiencie,

a 83% v prípade obidvoch malformácií.

Tabuľka 19:Porovnanie predpovedaných pravdepodobností mikrodelecie 22q11 jednotlivých modelov.

fenotypový prejav

Predpovedaná pravdepodobnosť mikrodelecie 22q11.2

Model 4.2Konotr+Imuno

+hypok


+stigm


Model 3.2všetky štyri

prejavyžiadny 0,02% 0,02% 0,28% 0,02%Konotr 2% 0,3% 2% 0,35%Imuno 31% 6,5% 40% 5%hypok 3% 0,25%stigm 0,3% 0,20%Konotr + Imuno 81% 55% 83% 55%Konotr + hypok 23,5% 5,50%Konotr + stigm 5,0% 4%Imuno + hypok 89% 48%Imuno+stigm 51% 41%hypok + stigm 3%Konotr + Imuno + hypok 99% 95%Konotr + Imuno + stigm 95% 94%Konotr + hypok +stigm 42%Imuno + hypok + stigm 92%Konotr + Imuno+hypok+stigm 99,60%

Legenda: Konotr – kovariáta značiaca prítomnosť konotrunkálnej malformácie FAT, DPK, IAO, PA+DKS a TAC; Imuno –

prítomná imunodeficiencia (znížené počty T-lymfocytov, znížené hladiny imunoglobulínov, časté infekcie); stigm – prítomná

stigmatizácia; hypok – hypokalcémia (novorodenecké hypokalcemické kŕče, nízke hladiny Ca++ a Ca v sére, skolióza)

91

DISKUSIA

Kedže premenné hypok a stigm vychádzajú spoločne v modeli 3 nevýznamne, ale

predsa len sú dôležité, uvádzam v Tabuľke 19, ktorá zhŕňa pravdepodobnosti všetkých troch

vyššie uvedených modelov, pre porovnanie pravdepodobnosti v prípade uvažovania všetkých

štyroch premenných (podľa modelu 3.2 – viď príloha 5).

Treba si uvedomiť, že pravdepodobnosti sa týkajú výlučne daného modelu.

Ak berieme do úvahy model 4.2., ktorý neuvažuje premennú stigmatizácia, znamená to, že na

tejto premennej nezávisí. Je teda jedno, či pacient so všetkými tromi uvažovanými prejavmi

(Konotr+Imuno+hypok) je stigmatizovaný alebo nie. Pravdepodobnosť že má mikrodeleciu je

stále 99%. Naopak, model 3.2 uvažuje pri prítomnosti len týchto troch prejavov stigmatizáciu

nulovú.

Interpretácia týchto modelov musí byť opatrná, hlavne preto, že v dátovom súbore sa

vyskytovali chýbajúce premenné. Metóda odhadu, ktorú som použila je síce robustná, a má

dobré výsledky, predsa len to však nemusí byť úplne podľa skutočnosti. Porovnajme

pravdepodobnosti jednotlivých prejavov nášho dátového súboru doplneného mnohonásobnou

imputáciou s pravdepodobnosťami uvádzanými v literatúre:

Tabuľka 20: Porovnanie pravdepodobností výskytu jednotlivých prejavov u pacientov s del22q11.2 unášho dátového súboru s pravdepodobnosťami uvádzanými v literatúre.

náš súbor literatúra zdroj

* stigm 85% 100% (Wilson a spol, 1993)VCC 95% 78-85% (McDonald-McGinn, 2003; Earing, 2003)* Imuno 95% 77% (Smith a kol, 1998; Sullivan a kol, 1998)* hypok 48% 30% (McDonald-McGinn 2003)* palatal 20% 67% (McDonald-McGinn, 2003)

Premenné označené hviezdičkou obsahovali chýbajúce hodnoty. Percentá sú celkom

podobné, snáď až na palatálnu abnormalitu. V tejto premennej však boli doplnené len 2

hodnoty.

Z hľadiska percenta záchytu pozitívnych pacientov je najlepším modelom model 5.2.,

ktorý má pri 100% záchyte pozitívnych pacientov zo všetkých modelov najnižšiu falošnú

pozitivitu, 16%, s hranicou keď za pozitívnych pacientov považujeme všetkých, ktorí majú

buď samostatnú imunodeficienciu alebo aspoň 2 z uvažovaných fenotypových prejavov.

Pre prenatálnu diagnostiku majú význam hlavne srdcové vady. V modeli 11, kde

uvažujeme spojenú premennú KonotrPRAO, má pacient v prípade prítomnosti konotrunkálnej

92

DISKUSIA

malformácie či pravostranného oblúka, pravdepodobnosť mikrodelecie 22q11.2 len 25,8%.

Ak sa bude sledovať len táto premenná, prenatálnou diagnostikou sa zachytí 80% pacientov

s týmto syndrómom, len s 25% falošnej pozitivity, na rozdiel od sledovania všetkých

pacientov s akoukoľvek vrodenou srdcovou vadou, kedy sa nám síce zvýši záchyt pozitívnych

pacientov na 95%, avšak zbytočne vyšetríme až 74% skutočne negatívnych pacientov.

Nakoniec treba ešte upozorniť, že logistický regresný model je citlivý na prevalenciu

choroby v danej populácii. Ak by sme stanovené modely aplikovali na populáciu s inou

prevalenciou choroby, mohlo by sa to prejaviť na klinicky dôležitých chybách v presnosti

logistického regresného modelu. Morise a kol.(1999) diskutujú vo svojom článku možnosť

úpravy logistického regresného modelu tak, aby sa minimalizoval vplyv prevalencie

v populácii na ktorú je aplikovaný.

93

VI. ZÁVER

Cieľom prvej časti mojej diplomovej práce bolo ukázať možnosti optimalizácie

molekulárne cytogenetického laboratória riešením niekoľkých otázok, ktoré pri praxi

vznikajú, a to konkrétne:

1. určením počtu hodnotených buniek

2. navrhnutím štatistického testu pre overenie presnosti hodnotenia chromozómových

abnormalít metódou interfáznej FISH

3. navrhnutím vhodnej metódy a stanovením deliacej hranice pre hodnotenie cytogenetických

preparátov

1. Počet hodnotených buniek som vzhľadom k presnosti a časovej náročnosti stanovila

na 200

2. Metodika testovania zhody laborantov môže obsahovať nasledujúce testy v uvedenom

poradí:

i) Friedmanov test

ii) Binomický test (+ prípadne Wilcoxonov test)

U testovaných laborantov testy nepreukázali odlišnosť (s výnimkou Wilcoxonovho testu),

môžu teda používať tú istú stanovenú deliacu hranicu.

3. Deliacu hranicu pre ES FISH aplikovanú na detekciu Ph chromozómu som pomocou ROC

analýzy stanovila na 3,5%, s 19% falošnou negativitou a 100% pravdivou negativitou.

4. ROC analýzu odporúčam ako najpresnejšiu z uvažovaných metód pre stanovenie deliacej

hranice. V prípade absencie zlatého štandardu, potvrdzujúceho či vyvracajúceho výsledok

diagnostického testu je možné stanoviť deliacu hranicu pomocou hornej hranice intervalu

spoľahlivosti pre binomické rozloženie, bez aproximácie na normálne rozloženie. Táto

metóda je presnejšia ako často používaný vzťah X±3 .

V druhej časti som sa zamerala na predikciu pacientov s mikrodeleciou 22q11.2

na základe fenotypových prejavov pomocou logistickej regresie.

Ako najvýznamnejšie premenné sa ukázali konotrunkálna malforácia (FAT, IAO,

DPK, PA_DKS, TAC), imunodeficiencia, hypokalcémia a stigmatá. Dostala som 3 modely, z

94

ZÁVER

ktorých sa, z hľadiska záchytu pozitívnych pacientov, ako najefektívnejší javí model

uvažujúci premenné konotrunkálna malformácia, imunodeficiencia a stigmatá. Najvyššie

predikované pravdepodobnosti prítomnosti mikrodelecie 22q11.2 dáva model uvažujúci

namiesto premennej stigmatá premennú hypokalcémia. Inak povedané, pre zvýšenie záchytu

pozitívnych pacientov je lepšie sledovať znaky konotrunkálna malformácia, imunodeficiencia

a stigmatizácia, v každom prípade pacienti u ktorých sa vyskytujú kombinácie fenotypových

prejavov konotrunkálna malformácia, imunodeficiencia a hypokalcémia, majú

pravdepodobnosť prítomnosti mikrodelecie 22q11.2 vyššiu ako tí ú ktorých sa sleduje

namiesto hypokalcémie len mikrodelecia.

Ak sa pri prenatálnej diagnostike budeme na základe modelu sledujúceho len srdcovú

vadu zameriavať len na plody s konotrunkálnou malformáciou alebo pravostranným

aortálnym oblúkom, budeme mať 80% záchyt pozitívnych prípadov pri 25% falošnej

pozitivity. Takže sa nám síce zníži počet zachytených pozitívnych prípadov, z pôvodných

95%, ako je to pri vyšetrovaní všetkých plodov s vrodenou srdcovou vadou, avšak zníži sa aj

percento falošne pozitívnych prípadov, z pôvodných 74% na 25%.

95

VII. SUMMARY

STATISTICAL APPROACH TO MOLECULAR

CYTOGENETIC ANALYSIS OF GENETIC

PATHOLOGICAL STATES

The first goal of my diploma dissertation was to show possibilities of optimalization of

molecular cytogenetic laboratory by solving several questions resulting from laboratory

practice, namely by:

1. setting the number of scored cells

2. determining statistical test for laboratory personnel

4. assessing cut-off level on example of ES-FISH applied to detection of Ph chromosome in

patients with expected CML.

1. I have set the number of cells to score to 200, according to accuracy and time potential.

2. The methodology for statistical testing the agreement of scoring cells of laboratory

personnel should include these statistical tests respectively:

i) Friedman ANOVA

ii) Binomial test (+ possibly Wilcoxon rank test)

These statistical tests showed no significant difference between techniciens in tested group,

except of Wilcoxon rank test between 2nd and 3rd, so they can use the same cut-off level.

3. I have asssesed the cut-off level of 3,5% for ES-FISH applied to detection of Ph

chromosome, with 19% of false negative rate and approximately 100% of true negative

rate, using ROC analysis.

4. ROC analysis is probably the most accurate method for estimation of cut-off level. In case

of missing gold standard, used for confirmation of diagnosis assessed by diagnostic test,

method using upper limit of assymetric binomial confidence interval is more convenient

than usually used X±3 .

The goal of second part of my diploma dissertation was prediction of patients with

microdeletion syndrome according to phenotype manifestation, by using a logistic regression.

96

SUMMARY

In fitted models the most significant covariates were conotruncal malformations (TOF,

IAA, DORV, PA_VSD, TAC), immunodeficiency, hypocalcaemia and abnormal facies.

I have fit 3 models, which from the point of sensitivity, the most effective was the model

assuming covariates conotruncal malformation, immunodeficiency and abnormal facies. The

highest probabilities gives the model assuming hypocalcaemia instead of facial anomalies.

In prenatal diagnosis, using model with only one covariate which includes conotruncal

anomalies or righ sided aortic arch, the 80% sensitivity and 25% of false positivity will be

achieved, if examined fetuses with these covariate present. Albeit the number of positive

cases recorded decreases (from 95% in case of examining all patients with congenital heart

disease), the false positive fraction rapidly decreases too, from 74% to approximately 25%.

97

ZOZNAM POUŽITEJ LITERATÚRY

VIII. ZOZNAM POUŽITEJ

LITERATÚRY

1. Anděl, Jiří (1985). Matematická statistika. Praha, SNTL. 226-234.

2. Bamber, D. (1975). The area above ordinal dominance graph and the area below the

receiver operating graph. Journal of Mathematics in Psychology 12: 387-415.

3. Budarf, M.L., Konkle, B.A., Ludlow, L.B., Michaud, D., Li, M., Yamashiro, D.J.,

McDonald-McGinn, D., Zackai, E.H., Driscoll, D.A.(1995). Identification of a patient

with Bernard-Soulier syndrome and a deletion in the DiGeorge/velo-cardio-facial

chromosomal region in 22q11.2. Hum Mol Genet 4: 763-766.

4. Bu n o , I., Wyatt, W.A., Zinsmeister, A.R., Dietz-Band, J., Silver, R.T., Dewald,

G..W. (1998). A special fluorescent in-situ hybridization technique to study peripheral

blood and assess the effectiveness of interferon therapy in chronic myeloid leukemia.

Blood 92: 2315-2321.

5. Burn, J., Takao, A., Wilson, D., Cross., I., Momma, K., Wadey, R., Scambler, P.,

Goodship, J. (1993). Conotruncal anomaly face syndrome is associated with deletion

within chromosome 22q11. J Med Genet 30: 822-824

6. Dewriendt, K., Swillen, A., Fryns, JP., Proesmans, W., Gewillig, M. (1996). Renal and

urological tract malformations caused by a 22q11 deletion. J Med Genet 33:349.

7. Dewald, Gordon W. (2002). Intherphase FISH studies of Chronic Myeloid Leukemia. In

Methods in Molecular Biology, 204: Molecular Cytogenetics: Protocols and Applications;

311-342.

8. Dewald G.W., Stallard R., Al Saadi A., et al. (1998a). Multicenter investigation with

interphase fluorescence in situ hybridization using X- and Y- chromosome probes. Am. J.

Med. Genetics 76: 318-326.

98


9. Dewald, Gordon W., Wyatt, William A., Juneau, Amy L., Carlson, Richard O.,

Zinsmeister, Alan R., Jalal, Syed M., Spurbeck, Jack L., Silver, Richard T. (1998b).

Highly Sensitive Fluorescence In Situ Hybridization Method to Detect Double BCR/ABL

Fusion and Monitor Response to Therapy in Chronic Myeloid Leukemia. Blood 91, No. 9

(May 1): 3357-3365.

10. Driscoll, D.A., Spinner, N.B., Budarf M.L., McDonald-McGinn, D.M., Zackai, E.H.,

Goldberg, R.B., Shprintzen, R.J., Saal, H.M., Zonana, J., Jones, M.C., a kol. (1992).

Deletions and microdeletions of 22q11.2 in velo-cardio-facial syndrome. Am J Med Genet

44:261-268.

11. Earing, M., Ackerman, M.J., DriscollBidarf, D.J. (2002). Cardiac Phenotype in the

chromosome 22q11.2 microdeletion syndrome. Progress Pediatr Cardiol 15: 119-123

12. Eastmond, DA, Schuler, M, Rupa, DS. (December 1995). Advantages and limitations of

using fluorescence in situ hybridization for the detection of aneuploidy in interphase human

cells. Mutat Res. 348(4):153-62.

13. Egan, James P.(1975). Signal Detection Theory and ROC Analysis. Academic Press,

New York, 277 s.

14. Faderl S., Talpaz M, Estrov Z a kol. (1999) The biology of chronic myeloid leukemia.

New Engl J Med 341: 164-172

15. Goodship, J., Cross, I., LiLing, J., Wren, C. (October 1998). A population study of

chromosome 22q11 deletions in infancy. Arch Dis Child 79(4):348-51.

16. Green, D, Swets, J. (1966). Signal detection theory and psychophysics. John Wiley and

Sons, New York , 45-49.

17. Hanley, James A. & McNeil, Barbara J. (1982). The meaning and Use of the Area

under a Receiver Operating Characteristic (ROC) Curve. Radiology 143: 29-36.

99


18. Hanley, James A. & McNeil, Barbara J.(1983). A Method of Comparing the Areas

under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology

148: 839-843.

19. Harrell, Frank E., Jr. (2001). Regression Modeling Strategies. With Applications to

Linear Models, Logistic Regression and Survival Analysis. Springer, Springer Series in

Statistics, New York.

20. Hopman, A.H.N., Raap, A.K., Landegent, J.E., Wiegaut, J., Boerman, R.M., van der

Ploeg, M. (1988): Nonradioactive in-situ hybridization. In: van Loeuwen, Buigs, Pool,

Pach: Molecular Neuroanatomy. Elsevier Science Publishers B.V.(Medical Division): 43-

68.

21. Hučín, B. (2002). Dětská kardiochirurgie. Avicenum, Praha.

22. Jičínská, H., Marek, J., Bryšová, V., Gaillyová, R., Kuglík, P., Tláskal, T., Litzman,

J., Tax, P., Navrátil, J. (1998). Delece chromozomu 22q11 u vrozených srdečních vad. Čs

Pediat 53: 659-664.

23. Kallioniemi, A, Kallioniemi, OP, Waldman, FM, Chen, LC, Yu, LC, Fung, YK,

Smith, HS, Pinkel, D, Gray, JW. (1992). Detection of retinoblastoma gene copy number

in metaphase chromosomes and interphase nuclei by fluorescence in situ hybridization.

Cytogenetics and Cell Genetics 60(3-4):190-193.

24. Kuglík, Petr, Oltová, Alexandra (2003). Co nabízí současná cytogenetická diagnostika.

Živa 4: 147-149.

25. Kurzrock, R, Gutterman, JU, Talpaz, M.(1988). The molecular genetics of Philadelphia

chromosome-positive leukemias. N Engl J Med 319: 990-998

26. Landegend, J.E., Jansen de Wal, N., Baan, R.A., Hoeijmarkes, J.H.J., van der Ploeg,

M. (1984). 2-acetylaminofluorene-modified probes for the indirect hybridocytochemical

deletion of specifif nucleic acid sequencies. Exp Cell Res 153, 61-72.

100


27. Lemeshow, Stanley & Hosmer, David W., Jr. (February, 1998, posting date). Logistic

regression, p. 1-11. In Encyclopaedia of Biostatistics, 1st ed. [Online.] Wiley, London.

http://www.wiley.co.uk./eob/sample4.pdf. [13 January 2004, last date accessed]

28. Matsuoka, R., Takao, A., Kimura, M., Imamura, S., Kondo, C., Joh-o, K., Ikeda, K.,

Nishibatake, M., Ando, M., Momma, K. (1994). Confirmation that the conotruncal

anomaly face syndrome is associated with a deletion within 22q11.2. Am J Med Genet

53:285-289.

29. Mayer, Jiří, Starý, Jan a kol. (2002). Leukemie. Grada Publishing, Praha, 392 s.

30. McCullagh, P. & Nelder, J. (1983) Generalized Linear Models. Chapman and Hall,

London

31. McDonald-McGinn, Donna M., Driscoll, DA., Bason, L., Christensen, K., Lynch, D.,

Sullivan, K., Canning, D., Zavod, W., Quinn, N., Rome, J. (1995). Autosomal dominant

„Opitz“ GBBB syndrome due to a 22q11.2 deletion. Am J Med Genet 59: 285-289.

32. McDonald-McGinn, Donna M., Kirschner, R., Goldmuntz, E., a kol. (1999).

Craniosynostosis:another feature of the 22q11.2. deletion syndrome. Platform presentation,

56th Annuall

33. McDonald-McGinn, Donna M., Emanuel, Beverly, S., Yackai, Elaine, H. (23 July

2003, last update). 22q11 Deletion Syndrome. [Online] http://www.geneclinics.org/

[11 October 2003, last date accessed]

34. Metz, Charles E. (October 1978). Basic Principles od ROC analysis. Seminars in Nuclear

Medicine VIII, No. 4:283-298.

35. Michalová, Kyra (1999). Úvod do lidské cytogenetiky. Institut pro další vzdělávání

pracovníků ve zdravotnictví, Brno.

36. Morise, Anthony P., Diamond, George A., Detrano, Robert, Bobbio, Marco, Gunel,

Erdogan (1999). The Effect of Disease-prevalence Adjustments on the Accuracy of a

Logistic Prediction Model. Medical Decision Making 16., No 2: 133-142

101


37. Nagelkerke, N.J.D. (1991). A note on a general definition of the coefficient of

determination. Biometrika 78: 691-692.

38. Nowell, PC, Hungerford, DA. (1960). A minute chromosome in human chronic

granulocytic leukemia. Science 132:1497-1497.

39. Pardue, M. and Gall, J. (1969). Molecular hybridization of radioactive DNA to the DNA

of cytological preparations. Proceedings of the National Academy of Sciences (PNAS) 64:

600-604.

40. Pinkel, D, Straume, T., Gray, J.W. (1986). Cytogenetic analysis using quantitative,

high-density, fluorescence hybridization. Proc Natl Acad Sci USA 83: 2934-2938.

41. Ryan, AK, Goodship, JA, Wilson, DI, Philip, N., Levy, A., Seidel, H., Schuffenhauer,

S., Oechsler, H., Belohradsky, B., Prieur, M., Aurias, A., Raymond, FL., Clayton-

Smith, J., Hatchwell, E., McKeown, C., Beemer, FA., Dallapiccola, B., Novelli, G.,

Hurst, JA., Ignatius, J., Green, AJ., Winter, RM., Brueton, L., Brondum-Nielsen, K.,

Stewart, F., Van Essen, T., Patton, M., Paterson, J., Scambler, PJ. (1997). Spectrum of

clinical features associated with interstitial chromosome 22q11 deletion: a European

collaborative study. J Med Genet 34:798-804.

42. Schröck, Evelin, Veldman, Tim, Padilla-Nash Yi Ning, Hesed, Spurbeck, Jack, Jalal,

Syed, Shaffer, Lisa G., Papenhausen, Peter, Kozma, Chahira, Phelan, Mary C.,

Kjeldsen, Eigil, Schonberg, Stephen A., O’Brien, Patricia, Biesecker, Les, du Manoir,

Stan, Ried, ,Thomas (1997). Spectral karyotyping refines cytogenetic diagnostics of

constitutional chromosomal abnormalities. Human Genetics 101 : 255–262.

43. Smith C.A., Driscoll D.A., Emanuel, B.S., McDonald-McGinn D.M., Zackai, E.H.,

Sullivan, K.E. (1998). Increased prevalence of Immunoglobulin A deficiencz in patients

with the chromosome 22q11.2 deletion syndrome (DiGeorge syndrome/velocardiofacial

syndrome). Clin Diagn Lab Immunol 5: 415-417

44. Sullivan, K.E., Jawad, E.F., Randall, P., Driscoll, D.A., Emanuel, B.S., McDonald-

McGinn, D.M., Zackai, E.H. (1998). Lack of correlation between impaired T cell

production, immunodeficiency, and other phenotypic features in chromosome 22q11.2

deletion syndromes. Clin Immunol Immunopathol 86:141-146

102


45. Swets, John A. (1988). Measuring the Accuracy of Diagnostic Systems. Science 240:

1285-1293.

46. Swiger, R.R., Tucker, J.D. (1996). Fluorescence in-situ hybridization. Environmental

and Molecular Mutagenesis 27: 245-254.

47. Thall, Peter F., Jacoby, Derek, Zimmerman, Stuart O. (1996): Estimating Genomic

Category Probabilities from Fluorescent in situ Hybridization Counts with

Misclassification. Appl Statist. 45, No. 4: 431-446.

48. Van der Velden, V.H.J., Hochhaus, A., Cazzaniga, G., Szczepanski, T., Gabert, J.,

Van Dongen, J.J.M. (2003). Detection of minimal residual disease in hematologic

malignancies by real-time quantitative PCR:principles, approaches, and laboratory aspects.

Leukemia 17:1013-1034.

49. Weinzimer, S.A., McDonald-McGinn, D.M., Driscoll, D.A., Emanuel, B.S., Zackai,

E.H., Moshang, T., Jr (1998). Growth hormone deficiency in patients with 22q11.2

deletion: expanding the phenotype. Pediatrics 101: 929-932.

50. Wulfsberg, E.A., Leana-Cox, J., Neri, G. (1996). What's in a name? Chromosome 22q

abnormalities and the DiGeorge, velocardiofacial, and conotruncal anomalies face

szndromes. AM J Med Genet 65: 317-319.

51. Yamagishi, H., Garg, V., Matsuoka, R., Thomas, T., Srivastava, D. (1999). A

molecular pathway revealing a genetic basis for human cardiac and craniofacial defects.

Science 283: 1158-1161.

52. Zvára, Karel (2001). Biostatistika. Univerzita Karlova, Praha.

53. Zweig, Mark H. & Campbell, Gregory (1993). Receiver-Operating Characteristic

(ROC) Plots: A Fundamental Evaluation Tool in Clinical Medicine.Clnical Chemistry

39/4: 561-577.

103


webové stránky:

www 1: Specifický inhibitor BCR-ABL tyrosinkinázy v léčbě chronické myeloidníleukémie, MEDICÍNA 5 / Roč. VIII / Strana 18 [online] http://www.zdrava-rodina.cz/med/med0501/med0531.html [21 January 2004, last date accessed]

www 2: 22q11 deletion syndrome - The kowledge database of the Swedish NationalBoard of Health and Welfare on rare diseases. 3.2.2003, document date. [online]http://www.sos.se/smkh/2003-110-6/2003-110-6.htm [13. March 2004, last date accessed]

Software

R Development Core Team (version 1.8.1, 2003). R: A language and environment forstatistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-00-3, URL: http://www.R-project.org

StatSoft, Inc. (version 6, 2003). STATISTICA Cz [Softwarový systém na analýzu dat],URL: http://www.statsoft.cz

Frank Schoonjans (version 7.2.1.0., 2003). MedCalc., URL: http://www.medcalc.be

104

IX. PRÍLOHY

Príloha 1: Fotografie z fluorescenčného mikroskopu.

Obrázok 5: Interfázna bunka s negatívnym (a) a pozitívnym (b) signálom Ph chromozómu. Použitá

sonda: Vysis LSI bcr SpectrumGreen/ abl SpectrumOrange ES probe.

a)

b)

Obrázok 6: 22q11.2 negatívne (a) a pozitívne (b) metafázne fluorescenčné signály sondy

Vysis LSI N25(22q11.2) SpectrumRed/LSI ARSA(22q13) SpectrumGreen DNA Probe

a)

b)

Príloha 2: Kalibračné krivky modelov 4.2, 5.2 a 6.2 a 11.

Graf 12: Kalibračná krivka modelu 4.2.

Graf 13: Kalibračná krivka Modelu 5.2

ideálkalibrácia4.20,0018

0,31260,8081

0,89140,9870

Predikované 4.2

0,0018

0,3126

0,8081

0,8914

0,9870

Kal

ibro

vané

ideál kalibrácia5.20,0002 0,5120 0,9485

predikované 5.2

0,0002

0,5120

0,9485

Kal

ibro

vané

Graf 14: Kalibračná krivka Modelu 6.2.:

Graf 15: Kalibrácia Modelu 11

ideál Kalibrácia6.20,0028 0,4039 0,8341

Predikované 6.2

0,0047

0,4050

0,8068

Kal

ibro

vané

ideál Kalibrácia 110,0263 0,2581

Predikované 11

0,0269

0,2693

Kal

ibro

vané

Príloha 3:

Model 9:

formula: del~VCC+PMR+palatal


6.68 3 0.0827 0.613 0.227 0.072

Beta S.E. Wald Z P

Intercept -2.7786 1.3020 -2.13 0.0328

VCC 0.3566 1.2795 0.28 0.7805

PMR 0.9678 0.5920 1.63 0.1021

palatal 1.4412 0.7176 2.01 0.0446

Validácia 4: Validácia Modelu 9.


Dxy 0.2267 0.2276 0.17139 0.0563 0.1704

R2 0.0715 0.0911 0.04016 0.0510 0.0206

g0 0.0000 0.0000 -0.83407 0.8341 -0.8341

g1 1.0000 1.0000 0.59368 0.4063 0.5937

Emax 0.0000 0.0000 0.30347 0.3035 0.3035

Graf 16: Kalibračná krivka Modelu 9.:

ideálKalibrácia 90,0585 0,1894 0,2727 0,4086 0,4968

Predikované 9

0,0585

0,1894

0,2727

0,4086

0,4968

Kal

ibro

vané

Príloha 4: Modifikácia modelu 10 zámenou premennej Konotr za premenné

KonotrPRAO.

Použitím fit.mult.impute procedúry som dostala Model 10, a vytvorením toho istého

modelu na doplnenej datovej matici pomocou modusov (digeorgeAI3) som dostala Model

10.2. Ten som zvalidovala (viď Validácia 4). Predikované hodnoty modelu 10.2 vidíme v

Tabuľke21. ROC krivku zobrazuje Graf 17 a príslušné hodnoty špecificít a senzitivít

vzhľadom k zvolenej deliacej hranici zobrazuje Tabuľka21.2.

Model 10: Model vybudovaný pomocou funkcie fit.mult.impute

formula: del~KonotrPRAO+Imuno

Model L.R. s.v. P C Dxy R2 71.2 2 0 0.953 0.907 0.643

Beta S.E. Wald Z P Intercept -5.105 0.9808 -5.21 0.0000KonotrPRAO 2.028 0.7714 2.63 0.0086Imuno 4.572 1.0085 4.53 0.0000

Model 10.2. Model na modálnej matici dát

formula: del~KonotrPRAO+Imuno

Model L.R. s.v. P C Dxy R2 82 2 0 0.97 0.95 0.72

Beta S.E. Wald Z P Intercept -5.887 1.1368 -5.2 0.000KonotrPRAO 1.998 0.8006 2.5 0.013Imuno 5.500 1.1122 4.9 0.000


pôvodné trénovacie test optimizmus korigované Dxy 0.946 0.945 0.943 0.0022 0.944 R2 0.724 0.741 0.712 0.0294 0.695 Intercept 0.000 0.000 0.129 -0.1287 0.129 Slope 1.000 1.000 0.763 0.2366 0.763 Emax 0.000 0.000 0.083 0.0833 0.083

Korigované štatistiky, a hlavne parametre z kalibračnej rovnice sú horšie ako v prípade

modelu bez PRAO.

Predikované pravdepodobnosti Modelu 10.2 udáva Tabuľka.

Tabuľka 21: Predikované pravdepodobnosti Modelu 10.2

KonotrPRAO Imuno predikovane1 0 0 0.00202 1 0 0.02313 0 1 0.31354 1 1 0.8466

Tabuľka 21.2:Senzitivity, špecificity a príslušné deliace hranice Modelu13.2

hranica Špecificita Senzitivita>= 0.0020 0 (0; 0.0194) 1 (0.839; 1)> 0.0020 * 0.739 (0.673; 0.796) 1 (0.839; 1)> 0.0231 0.933 (0.889; 0.960) 0.95 (0.764; 0.997)> 0.3135 0.982 (0.952; 0.993) 0.75 (0.531; 0.888)> 0.8466 1 (0.981; 1) 0 (0; 0.161)

Graf 17: ROC krivka Modelu 13.2 a Modelu 13 aplikovaných na dáta digeorgeAI3.

Rozdiel modelu 10 oproti modelu 9.2 spočíva v tom, že v modeli 13 sa nám zvýšila senzitivita

na 75%, v prípade, že za pozitívnych budeme považovať pacientov len s obidvoma

uvažovanými fenotypovými prejavmi (KonotrPRAO a Imuno).

ROC krivka (Model 13)

0,0 0,2 0,4 0,6 0,8 1,0

1-Špecificita

0,00

0,75

0,95

Sen

zitiv

ita

AUC = 0.977SE = 0.0237IS (0.953; 0.993)

Príloha 5. Model využívajúci všetky 4 premenné, vystavaný na modálnej matici dát.

Model 3.2:

formula: del~Konotr+Imuno+hypok+stigm


92.1 4 0 0.984 0.968 0.791

Beta S.E. Wald Z P

Intercept -8.770 2.194 -4.00 0.0001

Konotr 3.101 1.209 2.56 0.0103

Imuno 5.884 1.347 4.37 0.0000

hypok 2.821 1.968 1.43 0.1517 *

stigm 2.535 1.281 1.98 0.0479 *

Tabuľka 10: Výsledok ROC analýzy výpočtu deliacej hranice pre ES-FISH aplikovanú na detekciu Ph chromozómu u pacientov s CML

POZITÍVNA SKUPINA NEGATÍVNA SKUPINApozitivita = 1 pozitivita = 0 NN = 21 NA = 19

Plocha pod ROC krivkou = 0,940Štandardná chyba = 0,03995% Interval spoľahlivosti = 0,816 do 0,989

Sens. = SenzitivitaSpec. = Špecificita+LR = Pozitívne „likelihood ratio“-LR = Negatívne „likelihood ratio“

Hranica Sens. (95% C.I.) Spec. (95% C.I.) +LR -LR>=0 100,0 ( 83,7-100,0) 0,0 ( 0,0- 17,8) 1> 0 95,2 ( 76,1- 99,2) 57,9 ( 33,5- 79,7) 2,26 0> 0,005 95,2 ( 76,1- 99,2) 73,7 ( 48,8- 90,8) 3,62 0,06> 0,01 90,5 ( 69,6- 98,5) 78,9 ( 54,4- 93,8) 4,3 0,12> 0,015 90,5 ( 69,6- 98,5) 84,2 ( 60,4- 96,4) 5,73 0,11> 0,02 81,0 ( 58,1- 94,4) 84,2 ( 60,4- 96,4) 5,13 0,23> 0,025 81,0 ( 58,1- 94,4) 89,5 ( 66,8- 98,4) 7,69 0,21> 0,03 81,0 ( 58,1- 94,4) 94,7 ( 73,9- 99,1) 15,38 0,2> 0,035 * 81,0 ( 58,1- 94,4) 100,0 ( 82,2-100,0) 0,19> 0,11 76,2 ( 52,8 - 91,7) 100,0 ( 82,2-100,0) 0,24> 0,13 71,4 ( 47,8- 88,6) 100,0 ( 82,2-100,0) 0,29> 0,16 66,7 ( 43,0- 85,4) 100,0 ( 82,2-100,0) 0,33> 0,275 61,9 ( 38,5 - 81,8) 100,0 ( 82,2-100,0) 0,38> 0,32 57,1 ( 34,0- 78,1) 100,0 ( 82,2-100,0) 0,43> 0,4 52,4 ( 29,8- 74,3) 100,0 ( 82,2-100,0) 0,48> 0,51 47,6 ( 25,7- 70,2) 100,0 ( 82,2-100,0) 0,52> 0,74 42,9 ( 21,9- 66,0) 100,0 ( 82,2-100,0) 0,57> 0,76 38,1 ( 18,2- 61,5) 100,0 ( 82,2-100,0) 0,62> 0,82 28,6 ( 11,4- 52,2) 100,0 ( 82,2-100,0) 0,71> 0,83 23,8 ( 8,3- 47,2) 100,0 ( 82,2-100,0) 0,76> 0,86 19,0 ( 5,6- 41,9) 100,0 ( 82,2-100,0) 0,81> 0,905 14,3 ( 3,2- 36,4) 100,0 ( 82,2-100,0) 0,86> 0,915 9,5 ( 1,5- 30,4) 100,0 ( 82,2-100,0) 0,9> 0,94 4,8 ( 0,8- 23,9) 100,0 ( 82,2-100,0) 0,95> 0,98 0,0 ( 0,0- 15,6) 100,0 ( 82,2-100,0) 1

Príloha 6.

MASARYKOVA UNIVERZITA BRNO Prírodovedecká fakulta …btr.iba.muni.cz/res/file/EvaBudinska-diplomaThesis.pdfchromozómov v karyotype človeka. Molekulárna cytogenetika prináša

Documents