Titlu proiect: INFRASTRUCTURA DE SUPORT PENTRU … INDISIO Etapa IV (2017... · Perceptronul Multinivel (Multilayer Perceptron) ... date a sistemului creat, cat si in alte formate

RAPORT ŞTIINŢIFIC ŞI TEHNIC

Etapa IV (Ianuarie-Iunie 2017)

Titlu proiect: INFRASTRUCTURA DE SUPORT PENTRU

DIAGNOSTIC IMAGISTIC INTELIGENT

Contractul de finanțare nr: 209/2014

Director: Prof. Univ. Dr. Cristin Constantin Vere

REZUMAT ETAPĂ: A patra etapă a proiectului – Finalizarea aplicatiei INDISIO s-a întins pe 6 luni

(ianuarie‐ Iunie 2017) şi a inclus sase activități: Includere pacienti, investigatii si monitorizare

(activitatea 4.1), Finalizarea si testarea modelului ANN (activitatea 4.2), Finalizare

clasificator leziuni (activitatea 4.3), Finalizare sistem INDISIO (activitatea 4.4), Diseminare

(activitatea 4.5) și Urmărire patent (activitatea 4.6).

În cadrul primei activități (activitatea 4.1), unitatea coordonatoare și partenerul medical

SCJU Craiova au continuat includerea în studiu a pacienților și a fost finalizată baza de date

securizată conținând filmeleWCE. A fost finalizat modulul de inteligență artificială bazat pe

rețele neuronale (ANN), conform activității 4.2. Clasificatorul lezional (activitatea 4.3) a fost

finalizat în colaborare cu Aptus Software SRL, partenerul comercial, care a folosit imaginile

obținute în urma investigațiilor pentru antrenarea sistemului de recunoaștere a imaginilor. Prin

interacțiunea celor două, combinate cu interfața grafică și baza de date complexă deja

dezvoltate, a fost finalizat sistemul INDISIO, conform activității 4.4.

Au fost astfel obținute livrabilele corespunzătoare etapei: baza de date securizata cu

filmele WCE, software-ul INDISIO și manualul aferent acestuia, cât și un articol științific

original.

Rezultatele au fost diseminate (activitatea 4.5) prin publicarea unei monografii într-o

editură internațională și a unui articol într-o revistă indexată ISI. A fost urmărită cererea de

acordare a unui brevet de invenție de către OSIM, care a fost re-introdusă, conform activității

4.6.

A4.1 Includere pacienti, investigatii si monitorizare

Am continuat recrutarea pacienților care îndeplinesc criteriile de includere enunțate în

etapele anterioare. Datorită întârzierii finanțării au fost achiziționate 15 videocapsule

endoscopice în cursul lunii Iulie, pacienții fiind în curs de investigare. Am folosit pentru

includerea caracteristicilor acestora baza de date securizată, cu capacitate de stocare multimedia

a filmelor WCE.

Baza de date securizata cu filmele WCE

Baza de date este funcțională și cuprinde datele clinice, paraclinice și imagistice ale

pacienților incluși în studiu. Nu conține informații de identificare directă și este protejată prin

sisteme de autentificare cu dublă cheie și criptare pe 64 de biți.

Au fost adăugate o serie de facilități, cum ar fi posibilitatea adăugării diagnosticelor dintr-

o listă standardizată, conform codificării internaționale ICD-10 (codificare standardizată a

denumirilor de boală, adoptată la nivelul României și internațional – majoritar în spațiul UE).

De asemenea, se poate controla înregistrarea video încărcată – selectată în mod automat de

către aplicație din înregistrarea WCE – și se pot revizui manual cadrele de interes, procesate de

către software-ul INDISIO cu ajutorul analizatorului de imagine.

A4.2 Finalizarea si testarea modelului ANN

Modelul ANN a fost creat in contextual domeniului stiintei calculatoarelor si al tehnologiei

informatiei, pornind de la modelul creierului uman, care are multe caracteristici de procesare

incredibile, cum ar fi paralelismul masiv, reprezentarea distribuită și calculul, abilitatea

capacității de învățare, abilitatea generalizării, adaptivitatea, care par a fi simple, dar în realitate

sunt extrem de complicate. Ca atare, acesta a fost de fapt dintotdeauna un vis pentru specialistii

din domeniul științei calculatoarelor, anume acela de a crea componente computerizate care sa

poata rezolva probleme perceptuale complexe la fel de rapid.

Modelele ANN au reprezentat un astfel de efort, de a aplica aceleași metode pe care le utilizează

creierul uman, pentru a rezolva problemele perceptuale complexe.

In cee ace priveste etapizarea dezvoltarii modelelor ANN, exista trei perioade importante:

- 1940: Mcculloch si Pitts: Cercetari/lucrari initiale

- 1960: Rosenblatt: Teorema de convergență pentru algoritmul de antrenare a perceptronului;

Minsky si Papert: realizarea unor rezultate care arata/demonstreaza limitarile pe care le

genereaza abordarile bazate pe un perceptron simplu

- 1980: Hopfield/Werbos si Rumelhart: Abordarea lui Hopfield bazata pe

energie/algoritmul de invatare back-propagation

Detalierea principiilor modelului ANN - Modelul Computaţional al Neuronului Artificial

ANN Overview: Network Architecture

Procesul de Invatare (Learning Process): consta in actualizarea arhitecturii rețelei și a

ponderilor de conectare, astfel încât rețeaua să poată efectua eficient o anumita sarcină, bine

precizata.

Sursa (intrarile) procesului de invatare a modelului ANN o reprezinta sabloanele de

antrenare specifice task-ului care este de indeplinit; se ia in considerare abilitatea ANN de a

învața automat din exemple sau din relațiile intrare-ieșire. Proiectarea unui proces de invatare

presupune cunoasterea tuturor informatiilor disponibile despre task-ul specific care este de

indeplinit, cee ace include cunoasterea in toate detaliile a unui model din realitate. Proiectarea

regulilor de invatare presupune descrierea procesului de actualizare a ponderilor, iar proiectarea

algoritmilor de invatare presupune identificarea unei proceduri de ajustare a ponderilor prin

învățarea regulilor.

Legaturi/trasee: Axoni şi Dendride

Ponderi de conexiune: Sinapse

Funcția prag (threshold function): Chintesenta

activitatii neuronale de delimitare a claselor

Paradigme de Invatare (Learning Paradigm)

Invatare Supervizata: (a) răspunsul corect este furnizat rețelei pentru fiecare sablon de

intrare; (b)ponderile sunt ajustate conform răspunsului correct; (c) in procesul de consolidare a

învățării se oferă doar o optimizare a răspunsului correct.

Invatare nesupervizata: (a) nu este nevoie sa se furnizeze retelei raspunsul corect; (b)

sistemul însusi sine recunoaște corelația și modelează în mod corespunzător sabloanele în

categorii.

Invatare hibrida: (a) este o combinatie intre invatarea supervizata si cea nesupervizata; (b)

unele dintre ponderi sunt furnizate cu ieșirea corectă, în timp ce celelalte sunt corectate

automat.

Regulile de invatare (Learning Rules) Exista patru tipuri fundamentale de reguli de

invatare:

(1) reguli corectoare de erori; (2) reguli de invatare Boltzmann (3) reguli de invatare

Hebbian; (4)invatare Competitiva.Toate pot fi antrenate cu sau fara interventia unui teacher.

Toate au arhitecturi si algoritmi de invatare specifici.

1.4.1. Reguli corectoare de erori: o eroare este calculate pentru o ieșire și se utilizează pentru

a modifica ponderea conexiunii; erorile sunt reduse gradual; regula de antrenare a

perceptronului se bazeaza pe acest principiu de corectare graduala a erorilor; un perceptron este

format dintr-un singur neuron, cu ponderea si pragul ajustabile – in cazul in care apare o eroare,

ponderile sunt actualizate iterative, pana cand se ajunge la zero erori.

Regulile de invatare Boltzman se utilizeaza in retelele simetrice recurente, constand in unitati

binare (+1 pentru on, -1 pentru off). Neuronii sunt impartiti in doua grupe: ascunsi si vizibili.

Ieșirile sunt produse conform mecanicii statistice Boltzmann. Invatarea Boltzman ajusteaza

ponderile până când unitățile vizibile ajung sa satisfaca o distribuție probabilistică dorită.

Regulile de invatare Hebbian sunt unele dintre cele mai vechi reguli, initiate pe baza unor

experimente neurobiologice. Conceptul de bază al învățării Hebbian consta in urmatoarele:

atunci când neuronul A se activează și apoi determină activarea neuronului B, intensitatea

conexiunii dintre cei doui neuroni este crescută și va fi mai ușor pentru A să activeze B în viitor.

Învățarea este efectuata local, cee ace înseamnă că ponderea unei conexiuni este legată doar de

neuronii conectați la aceasta.

1.4.4 Invatarea Competitiva se bazeaza pe principiul “winner take all” (invingatorul ia tot)

inspirat din retelele neuronale biologice. Toate unitățile de intrare sunt conectate împreună și

toate unitățile de ieșire sunt, de asemenea, conectate prin intermediul unor ponderi inhibitoare,

dar feed back-ul este oferit cu ponderea de excitație. Numai una dintre unitățile cu cea mai mare

sau cea mai mică intrare este activată și ponderea sa este ajustată. Ca urmare a procesului de

învățare, modelul din unitatea câștigătoare (ponderea) se apropie de modelul de intrare

[http://www.peltarion.com/blog/img/sog/competitive.gif]

Perceptronul Multinivel (Multilayer Perceptron)

Metoda de clasificare bazată pe reţele neuronale este consacrată în teoria recunoaşterii

formelor, întrucât se inspiră din modul de învăţare specific uman. O reţea neuronală artificială

este caracterizată prin existenţa a cel puţin două niveluri ( un nivel de intrare şi un nivel de

ieşire), caz în care această reţea simplificată poartă denumirea de perceptron. Totuşi, pentru a

mări expresivitatea reţelei, trebuie luat în considerare şi un al treilea nivel, numit „ascuns”, caz

în care arhitectura devine cea a unui perceptron multininvel (se pot implementa unul sau mai

multe niveluri ascunse).Metoda de clasificare bazată pe reţele neuronale depăşeşte ca şi

performanţă şi putere de expresie alte metode clasice, precum metoda bayesiană de

recunoaştere, sau metoda bazată pe discriminanţi liniari, care limiteaza abordarea la cazul unui

set de date ce respecta distributia normala sau care pot fi separate printr-un plan liniar. Astfel,

conform celor afirmate de Kolmogorov, orice funcţie f se poate exprima prin intermediul unei

reţele neuronale cu trei niveluri, având un număr suficient de mare de unităţi ascunse. Există

două operaţii de bază care se pot realiza în legatură cu o reţea neuronală, cărora le corespund

algoritmi specifici:

Operaţia de clasificare, Feedforward: reţeaua fiind antrenată, deci cunoscându-se valorile

ponderilor w, dându-se valori cunoscute x la intrare, se calculează valorile corespunzătoare

ieşirilor z.

Operaţia de Backpropagation, care este operaţia de antrenare a reţelei neuronale, constând

în determinarea valorilor ponderilor w, pe baza unui set de valori de intrare ale căror ieşiri

aşteptate, t, se cunosc.

In implementare, s-au considerat urmatorii clasificatori individuali: Arbori Decizionali

(Decision Trees – DT), Retele Bayesiene de Incredere (Bayesian Networks), Perceptronul

Multinivel (Multilayer Perceptron – MLP), metoda Masinilor cu Vectori Suport (Support

Vector Machines – SVM). Acestia au fost experimentati in mediul Weka 3.5 – Explorer, in

modul urmator: in cazul Arborilor Decizionali, s-a implemetat metoda J48, echivalentul

algoritmului C4.5; in cazul metodei Retelelor Bayesiene de Incredere, s-a considerat metoda de

cautare K2, bazata pe un algoritm de tip Hill Climbing, si estimatorul BMA (Bayesian Model

Avearge); in cazul Perceptronului Multinivel, structura adoptata a acestuia a avut, pe nivelurile

ascunse, un numar de noduri egal cu media aritmetica dintre numarul de clase si numarul de

http://www.peltarion.com/blog/img/sog/competitive.gif

trasaturi, rata de recunoastere a fost fixata la 0.2, pentru a se evita supra-antrenarea, iar

momentul a fost ales 0.9, pentru a se traversa cat mai rapid platourile suprafetei de invatare; in

cazul metodei Masinilor cu Vectori Suport, a fost considerat un nucleu polinomial de gradul al

doilea. Dintre schemele de combinare a clasificatorilor, au fost implementate votarea majoritara

(Majority Voting) , metoda imbunatatita, StackingC pentru stivuire, avand ca si clasificator de

nivel 0 (metaclasificator) metoda regresiei liniare, metoda bagging cu 10 iteratii si marimea

setului de date re-esantionat prin metoda bootstrap 100%, metoda AdaBoostM1 cu 10 iteratii.

Pentru evaluarea clasificatorilor, a fost implementata strategia validarii incrucisate (cross-

validation) cu 5 iteratii (5 folds).

Schema generală a unei reţele neuronale artificiale

A4.3 Finalizare clasificator leziuni

Functionalitatea si utilitatea aplicatiei

In ceea ce priveste aceasta componenta, exista doua sub-categorii de utilizatori –

specialistul in imagistica computerizata si medicul specialist, aplicatia furnizand urmatoarele

functionalitati corespunzatoare acestor tipuri de utilizatori:

Posibilitatea de vizualizare a efectului aplicarii metodelor de analiza a texturii si a valorilor

trasaturilor texturale pe regiuni de interes selectate manual in imaginile dorite – pentru fiecare

categorie de utilizator.

Posibilitatea de generare a valorilor trasaturilor imagistice dorite pentru imaginile din baza

de date apartinand pacientilor selectati de utilizator si de export a acestor valori atat in baza de

date a sistemului creat, cat si in alte formate dorite de utilizator (excel, “.xls”, pentru a utiliza

valorile in conjuctie cu alte instrumente software de prelucrare statistica a datelor, de tipul

SPSS; sau .arff, pentru a utiliza valoriile in conjunctie cu functiile bibliotecii Weka – “Waikato

Environment for Knowledge Analysis”) – pentru fiecare categorie de utilizator.

Posibilitatea de generare si validare a modelului imagistic implicand selectia trasaturilor

relevante pentru caracterizarea formatiunilor evidentiate in imaginea endoscopica,

determinarea valorilor specifice asociate acestor trasaturi, validarea modelului imagistic prin

intermediul clasificatorilor supervizati -de catre specialistul in imagistica computerizata

Posibilitatea de antrenare si validare a clasificatorul supervizat (Multilayer Perceptron –

MLP) -de catre specialistul in imagistica computerizata

Posibilitatea de vizualizare a modelului imagistic: trasaturi relevante si valori specifice

asociate acestor trasaturi – de catre medical specialist

wkj

wji

……… ym-1 ym

y3 y2 y1

……….

.

……….

x1 x2 xn

Hidden ascuns (j)

Nivel intrare (i)

Nivel ieşire (k)

zr z2 z1

Bias unit

wj0

Posibilitatea de realizare a clasificarii (recunoasterii) unor regiuni de tesut de tip

necunoscut, pe baza clasificatorului supervizat antrenat anterior – de catre medicul specialist.

Utilitatea aplicatiei consta in urmatoarele:

Posibilitatea realizarii unei diagnoze semi-automate, asistate ce calculator, de catre medical

specialist, prin vizualizarea modelului imagistic

Posibilitatea realizarii unei diagnoze automate, de catre medical specialist, prin determinarea

clasei de apartenenta a unor regiuni de tesut de natura necunoscuta sau incerta

Posibilitatea de a experimentare a metodelor de analiza a texturii, a metodelor destinate

selectiei trasaturilor si a metodelor de clasificare, in contextul caracterizarii si recunoasterii

formatiunilor specifice (polipi si angiectazii), atat din punctul de vedere al specialistului in

imagistica computerizata, cat si din cel al medicului specialist; posibilitatea de a studia relevanta

parametrilor texturali si valorile asociate acestora, specifice diferitelor clase, de a stabili

corelatii ale acestor parametri cu trasaturile vizuale ale formatiunilor urmarite. Pasii necesari

utilizarii sistemului in scopul diagnozei automate si semiautomate rezulta din figura de mai jos.

Utilizatorul (medicul specialist) are posibilitatea de a deschide un fisier imagine, de a marca o

regiune de interes, de a determina valorile trasaturilor imagistice si de a le compara cu valorile

caracteristice diferitelor clase de tesut, continute in modelul imagistic, pentru a realiza o

incadrare preliminara a tesutului analizat (necunoscut) intr-o anumita clasa. De asemenea,

utilizatorul are posibilitatea de a apela functia de recunoastere automata a tipului de tesut, prin

intermediul clasificatorului antrenat anterior.

Fig. 1. Pasii necesari utilizarii sistemului software in scopul diagnozei automate si semi-

automate

Structura finala a componentei de imagistica

Componenta de procesare comunica cu baza de date a modelului imagistic, ce contine date

despre pacienti, diagnosticul pacientilor, imaginile endoscopice corespunzatoare acestor

pacienti, descrierea naturii formatiunilor prezente in aceste imagini, a regiunilor de interes

marcate in aceste imagini. Tot in aceasta baza de date sunt stocate detalii referitoare la tipul

trasaturilor imagistice calculate, fiind stocat si modelul imagistic specific: trasaturile relevante

si parametrii caracteristici asociati acestor trasaturi relevante – media, deviatia standard,

intervale de incredere corespunzatoare mediei si deviatiei standard, distributiile de probabilitate

ale parametrilor.

Exista o interfata de comunicare cu baza de date, prin intermediul careia utilizatorul poate

introduce efectiv datele legate de pacienti, rezultatele examenului endoscopic, imaginile

endoscopice ale pacientilor, poate marca regiuni de interes in aceste imagini – de natura

cunoscuta, ce urmeaza sa fie considerate drept reper, respectiv de natura incerta, ce urmeaza sa

fie analizate si clasificate prin prisma modelului imagistic dedicat.

4.2.1 Arhitectura aplicatiei:

Figura 2. Schema generala a arhitecturii aplicatiei

Modulul corespunzator generarii, validarii si vizualizarii modelului imagistic, respectiv cel

corespunzator recunoasterii automate, conduce la realizarea obiectivelor propuse, referitoare la

construirea unui model imagistic robust si exploatarea acestuia in scopul diagnozei automate si

semi-automate. Asa cum rezulta din Figura 3, modulul pentru generarea, validarea si

vizualizarea modelului imagistic contine urmatoarele sub-module:

Determinarea trasaturilor imagistice, prin aplicarea metodelor de analiza a imaginii

Selectia trasaturilor imagistice relevante in ceea ce priveste caracterizarea si recunoasterea

polipilor si telangiectaziilor, prin aplicarea unor metode specifice si memorarea acestora in baza

de date

Determinarea valorilor caracteristice asociate trasaturilor relevante- a mediei, a deviatiei

standard, a intervalelor de incredere pentru media si deviatia standard, a distributiilor de

probabilitate, utilizand teoria bayesiana a deciziei. Salvarea in baza de date a parametrilor

determinati

Antrenarea unui clasificator performant (in cazul nostru Perceptronul Multinivel), cu valorile

corespunzatoare trasaturilor relevante

Evaluarea si validarea acestui clasificator, echivalenta cu evaluarea si validarea modelului

imagistic generat

Sub-modulul de vizualizare a modelului imagistic, permitand extragerea din baza de date a

caracteristicilor specifice modelului imagistic generat.

Modulul de recunoastere automata utilizeaza clasificatorul antrenat si presupune

stabilirea clasei de apartenenta a unei regiuni de tesut, initial de natura necunoscuta sau incerta,

prin intermediul acestui clasificator.

Structura de clase, corespunzatoare modelului de implementare a aplicatiei, mapeaza

structura sistemului software (componente, module si sub-module) si se conformeaza

functionalitatilor acestora. Exista urmatoarele tipuri de clase:

Baza de

date

Date ale pacientilor, parametrii de

achizitie a imaginilor, rezultatele

examenului endoscopic, model imagistic

specific

Interfata: Inserare/Vizualizare

imagini endoscopice

si selectie regiuni de

interes;

caracterizare pacient

Module pt.

generarea, validarea

si vizualizarea

modelului imagistic

Module pt.

recunoastere

automata

(clasificare)

Clase de legatura la bazele de date cu care comunica sistemul: clasa de legatura

la baza centrala de date a sistemului, ce memoreaza imaginile pacientilor si modelul imagistic

(MainDatabase), respectiv clasa de legatura la o baza de date invizibila utilizatorului, ce

memoreaza selectiile utilizatorului referitoare la trasaturi imagistice, pacienti, imagini de lucru

(SpDatabase), avand posibilitatea de a pastra aceste selectii pentru o intreaga sesiune de lucru

cu aplicatia, dar si de la o sesiune de lucru la alta.

Clasa corespunzatoare determinarii trasaturilor imagistice prin aplicarea

metodelor destinate analizei imaginilor, in particular analizei texturilor (ImageProc)

Clasa corespunzatoare generarii si validarii modelului imagistic

(ImagisticModel)

Clasele corespunzatoare trasaturilor selectate de utilizator pentru sesiunea

curenta (WFeatures- “Working Features”), pacientilor selectati (WPatients – „Working

patients”), parametrilor imaginilor de lucru (WImageSpec –„Working image specifications”).

Clase de interfata corespunzatoare casetelor de dialog (clasa generica DialogInterfaces),

cele corespunzatoare vizualizarii si analizei imaginilor selectate de utilizator

(ImageProcessingView), meniului principal al aplicatiei, din care se apeleaza functiile de

generare si validare a modelului imagistic (MainFrame).

In scopul determinarii valorilor unei game largi de trasaturi imagistice, exista clasa de baza

ImageProc(superclasa), din care deriva subclasele ce implementeaza metodele specifice si care

suprascriu metoda Process din clasa de baza. Exista urmatoarele subclase:

ImageGreyLevels- aceasta determinand valorile statisticilor de ordinul intai ale nivelurilor

de gri – media, valoarea maxima si valoarea minima.

Granularity – care determina valorile indicelui de autocorelatie

Trasaturi relevante

Model Imagistic

Fig. 3. Arhitectura detaliata a modulelor software

Sub-Modul: antrenare

clasificator

Sub-

Modul: validare

clasificat

or

Sub-Modul:

Extragerea

trasaturilor

imagistice

Sub-Modul: Selectia

trasaturilor

imagistice

relevante

Sub-Modul: Determinarea

valorilor

caracteristice ale

trasaturilor relevante

Modul: Clasificare

Automata

Modul: generarea ,validarea si

vizualizarea modelului

imagistic

Sub-Modul:

Vizualizare model

imagistic

Sub-Modul:

Validare

model prin

clasificatori

ImageGLCM – care determina matricea de coocurenta a nevelurilor de gri si valorile

parametrilor asociati acesteia: omogenitate, contrast, entropie, energie, varianta, corelatie

FractHurst – acesata determinand valorile indicelui fractal Hurst

LocalFeatures – care determina valorile statisticilor bazate pe trasaturi locale – muchii si

curburi

LawsFeatures – aplica nucleele de convolutie ale lui Laws pentru detectia microstructurilor

texturale si determina valorile statisticilor referitoare la microstructurile texturale

ImageFilter – aplica diferite tipuri de filtre pe imaginea originala, pe regiunea de ineters

selectata

ImageFilterHaar – aplica transformata Haar Wavelet si determina valorile entropiei Shannon

la rezolutii multiple.

Fig. 4. Diagrama de clase

Fig. 5. Clasele destinate determinarii trasaturilor imagistice

A4.4 Finalizare sistem INDISIO

Modul de utilizare a componentei de diagnoza imagistica

Lansarea aplicatiei

Lansarea aplicatiei se face de pe platforma INDISIO, prin intermediul meniului „Operational”

– submeniul „Pacienti” - „Diagnoza Imagistica”. Acesta ne conduce in ecranul principal al

aplicatiei, in fereastra MainFrame.

Specificarea fisierelor de configurare a aplicatiei

Din meniul File se alege optiunea „Choose specification file”, asa cum este ilustrat in figura de

mai jos.

Fig. 6. Meniul “File”

Fig.7. Caseta de dialog pentru specificarea fisierelor de lucru

In caseta de dialog rezultata, se actioneaza butoanele de Browse si se alege calea catre:

Baza de date „Specificatii.mdb”, continand specificatiile privind selectiile utilizatorului cu

privire la trasaturile de lucru, la pacientii si la parametrii imaginilor specificati de utilizator.

Calea catre baza de date continand datele medicale ale pacientilor, imaginile ecografice ale

acestora, date privind formatiunile focale, regiuni de interes marcate ce urmeaza a fi analizate,

precum si informatiile referitoare la modelul imagistic.

Meniul pentru generarea si validarea modelului imagistic

In fereastra principala a aplicatiei (MainFrame) se gaseste meniul pentru generarea si validarea

modelului imagistic.

Selectia optiunii “Imagistic data generation” declanseaza afisarea casetei de dialog

destinata generarii datelor imagistice ce urmeaza a fi exploatate in generarea modelului

imagistic specific formatiunilor extrase din imaginea endoscopica. Aceste date se genereaza

prin analiza imaginilor pacientilor existente in baza de date, respectiv a regiunilor de interes

marcate pe aceste imagini. In casuta de editare din partea superioara, este afisata calea catre

baza de date, conform specificatiilor initiale ale utilizatorului („Initial specifications”). Alaturi

(in dreapta) se gaseste lista derulanta din care utilizatorul isi poate selecta clasa de patologii

pentru care doreste generarea datelor imagistice.

Fig. 8. Meniul pentru generarea si validarea modelului imagistic

In sectiunea „Feature selection” exista posibilitatea de a selecta acele tarasturi imagistice

(texturale) cu care lucreaza utilizatorul. Acesta poate selecta toate trasaturile imagistice - bifand

casuta „All features”, poate selecta doar trasaturile relevante - bifand casuta „Relevant features”

sau poate adauga cate o trasatura - selectand trasatura respectiva din lista derulanta „Choose

features” si adaugand-o in cea de-a doua lista, prin apasarea butonului „+”. Fiecare trasatura

selectata poate fi stearsa din cea de-a doua lista, apasandu-se butonul „x”. In sectiunea „Patient

selection” utilizatorul poate specifica pacientii pentru care doreste sa genereze datele

imagistice, intr-o maniera similara cu cea in care specifica trasaturile.

Datele generate se pot exporta in urmatoarele formate:

In baza principala de date a sistemului (format Access ), prin bifarea optiunii „Export

to Access Database”

In format Excel („.xls”), prin bifarea optiunii „Export to Excel Database” si prin

selectarea fisierului „.xls” corespunzator.

In formatul „.arff”, specific functiilor bibliotecii Weka (Waikato Environment for

Knowledge Analysis) , prin bifarea optiunii „Export to Excel Database” si prin

selectarea fisierului „.arff” corespunzator. Daca acesta nu exista, va trebui creat prin

apasare pe butonul „Create new .arff file”.

In scopul selectiei trasaturilor relevante prin metode specifice, utilizatorul trebuie sa

aleaga optiunea Relevant Feature Selection din meniul Imagistic Model. In caseta de dialog

rezultata, utilizatorul trebuie sa specifice calea catre fisierul „.arff” continand datele de

antrenare („Training set File”), clasa a carei caracterizare se doreste, metoda dorita de selectie

a trasaturilor (CFS+BestFirst Search, CFS+Genetic Search, Wrapper+Decision Trees + Best

First Search). Apoi, prin actionarea butonului Select, actiunea devine efectiva. Rezultatul se

afiseaza in zona de text „Selection result”. Trasaturile relevante rezultate pot fi salvate in baza

de date prin bifarea optiunii „Save relevant features into the database” si prin actionarea

butonului OK.

Pentru a vizualiza valorile specifice ale trasaturilor relevante, se alege din meniu

optiunea Specific Parameter Estimation. Se afiseaza caseta de dialog corespunzatoare valorilor

specifice trasaturilor relevante (media si varianta) si intervalelor de incredere. Utilizatorul

trebuie sa specifice calea catre baza de date, clasa pentru care se doreste vizualizarea valorilor

caracteristice – prin selectie din lista derulanta corespunzatoare, precum si trasatura relevanta

pentru care se doreste vizualizarea valorilor specifice. Aceste valori pot fi salvate in baza de

date prin actionarea butonului Save.

Fig. 9. Caseta de dialog pentru generarea si exportul datelor imagistice

Fig. 10. Caseta de dialog pentru selectia trasaturilor imagistice relevante

Figura 11. Caseta de dialog pentru calculul si salvarea intervalelor de incredere

Pentru a realiza antrenarea clasificatorului se alege optiunea Imagistic Model/ Classifier

Training/Multilayer Perceptron.

In caseta de dialog „Classifier training” se selecteaza fisierul de tip „.arff” care contine

datele de antrenare, calea pentru salvarea modelului (clasificatorului antrenat) pentru o

utilizare ulterioara, se specifica daca setul de antrenament contine toate trasaturile, sau doar

trasaturile relevante, prin bifarea casutelor de text corespunzatoare, apoi se actioneaza butonul

„Train MLP” pentru antrenarea clasificatorului. Modelul generat (structura retelei neuronale)

este afisat in caseta de text („Generated model”).

Figura 12. Meniul pentru declansarea functiei de antrenare a clasificatorului

Fig. 13. Caseta de dialog pentru antrenarea clasificatorului

Pentru a evalua clasificatorul antrenat, se alege optiunea Imagistic Model/ Classifier

Evaluation/ Multilayer Perceptron (MLP).

Fig. 14. Meniul pentru declansarea functiei de evaluare a clasificatorului

In caseta de dialog „Classifier Evaluation(MLP)” se specifica calea catre setul de test, in

format „.arff”, calea catre modelul salvat (clasificatorul antrenat, dupa care se apasa butonul

„Evaluate”. Parametrii de performanta se afiseaza in caseta de text „Evaluation results”.

Meniul pentru determinarea si vizualizarea valorilor trasaturilor texturale si a efectelor

aplicarii metodelor de analiza a imaginilor:

Deschiderea unei imagini:

Pentru a selecta o imagine de pe disc si a o deschide in contextul aplicatiei se

alege, din meniul File, comanda Open, apoi se alege fisierul dorit.

Selectarea unei regiuni de interes in imaginea ecografica:

Pentru a selecta o regiune de interes, se seteaza, din meniul ROI, “Select rectangle with mouse”.

Pentru a determina valorile trasaturilor texturale, din meniul Texture analysis, se alege

metoda dorita pentru analiza texturii. Valorile trasaturilor texturale se pot vizualiza in casete de

dialog.

Fig. 15. Caseta de dialog pentru evaluarea clasificatorului

Figura 16. Meniul pentru selectia regiunii de interes

Fig. 17. Meniul pentru determinarea trasaturilor texturale

Efectele aplicarii metodelor destinate analizei texturii sunt vizibile pe intreaga imagine, sau pe

regiunea de interes selectata.

Meniul pentru vizualizarea modelului imagistic:

Dupa deschiderea unei imagini, si selectarea unei regiuni de interes, din meniul Imagistic

model, se poate selecta une din optiunile: Specific parameters and confidence intervals sau

Probability Distribution. Aceste valori specifice rezultate din modelul imagistic pot fi

vizualizate simultan cu valorile trasaturilor texturale determinate pe regiunea de interes si

comparate cu acestea.

Fig. 18. Meniul pentru vizualizarea modelului imagistic

In fereastra „Probability distributions” se pot vizualiza distributiile de probabilitate asociate

trasaturilor texturale relevante. Acesteea apar sub forma unor intervale de valori, care au

asociata o valoare a probabilitatii pentru fiecare clasa.

Fig. 19. Vizualizarea distributiilor de probabilitate

Meniul destinat clasificarii automate si stabilirii naturii tesutului din ROI Dupa deschiderea unei imagini si selectia unei regiuni de interes, al carei tesut

se doreste a fi clasificat, se apeleaza optiunea Multilayer Perceptron, din meniul

Classification. Se apeleaza functia de clasificare a Perceptronului Multinivel din

biblioteca Weka.

Fig. 20 Meniul pentru recunoasterea (clasificarea) automata

Rezultatul clasificarii este afisat in caseta de dialog „MLP Classification”. Daca acest

rezultat este unul incorect (clasa nu corespunde cu cea reala), atunci utilizatorul are posibilitatea

de a salva instanta (valorile trasaturilor texturale corespunzatoare regiunii de ineters selectate)

in setul de antrenament, acesteia asociindu-i-se valoarea reala a clasei, selectata din lista

derulanta (Class).

Evaluarea si validarea modelului imagistic

Evaluare

Modelul imagistic a fost evaluat, asa cum s-a mentionat mai sus, prin intermediul

clasificatorilor supervizati, carora li s-au furnizat la intrare valorile trasaturilor relevante. Indicii

de evaluare au fost reprezentati prin parametrii de performanta ai clasificatorului – rata valorilor

pozitive (True Positive Rate – TP), rata valorilor negative (True Negative Rate – TN), rata de

clasificare corecta, aria de sub curba ROC (Receiver Operating Characteristic).

Validare

Modelul imagistic a fost validat prin confirmarea unor rate crescute de recunoastere

ale clasificatorilor ce utilizeaza la intrare trasaturile imagistice relevante, in urma unor

experimente multiple, pe seturi diferite de date, precum si prin compararea valorilor

caracteristice ale trasaturilor relevante din modelul imagistic cu valori ale trasaturilor imagistice

calculate pe regiunile de interes selectate, in cazuri multiple.

Trasaturi considerate:

Trasaturi texturale clasice: Matricea de Coocurenta a Nivelurilor de Gri (GLCM);

indicele de autocorelatie; indicele fractal Hurst; statistici bazate pe muchii: orientarea medie a

muchiilor, frecventa muchiilor, contrastul mediu al muchiilor; statistici determinate dupa

aplicarea nucleelor de convolutie Laws; entropia Shannon determinate dupa aplicarea

transformatei Wavelet

Trasaturi texturale originale: variabilitatea in orientarea muchiilor, variabitatea

gradientului directional, GLCM de ordinul 3 si parametrii Haralick asociati: omogenitatea,

energia, entropia, corelatia, contrastul, varianta; matricea de coocurenta a orientarilor muchiilor

(Edge Orientation Cooccurrence Matrix – EOCM) si parametrii Haralick asociati

Telangiecatzii/fara leziuni, petesii- parametri relevanti:

- Correlation based Feature Selection + Best First;

Meritul intregului subset: 0.735

{GLCM_Corelatie, Wavelet_Entropia1, Wavelet_Entropia2, Wavelet_Entropia5_ll,

Variabilit_grad_directional, Medie_pete, Medie_unde, Frecv_undisoare, GLCM3_energie,

GLCM3_entropie, GLCM3_contrast}

- Consistency based Feature Subset Evaluation + Best First; Meritul intregului

subset: 1

{Variabilit_in_orient_muchiilor, Hurst, Wavelet_Entropia1, Medie_pete,

GLCM3_contrast}

- Gain Ratio Attribute Eval + Ranker;

Trasatura texturala Scor

GLCM3_contrast 0.441

Variabilit_in_orient_muchiilor 0.398

Media 0.346

GLCM3_energie 0.333

Medie_unde 0.301

Magn_grad_directional 0.301

Frecv_undisoare 0.298

Wavelet_Entropia5_hl 0.288

Wavelet_Entropia6_hl 0.288

Wavelet_Entropia6_hh 0.288

Wavelet_Entropia5_lh 0.288

Medie_undisoare 0.28

Interpretari:

- Corelatia GLCM exprima diferentele de granularitate dintre zonele afectate de

telangiectazii, respective cele neafectate de telangiectazii

- Entropia calculata dupa determinarea transformatei Wavelet – regiunile corespunzatoare

telangiectaziilor au o entropie mai mare, la diferite rezolutii

- Variabilitatea gradientului directional, variabilitatea in orientarea muchiilor, magnitudinea

gradientului directional – variatia directiilor (orientarilor) muchiilor este mai mare in zonele

afectate de telangiecatzii

- Stastisticile determinate dupa aplicarea nucleelor de convolutie Laws’: pete, unde,

undisoare => frecventa acestor structuri este mai mare in zonele cu telangiecatzii

- Media nivelurilor de intensitate – trasatura relevanta datorita prezentei unei nuante mai

intense de rosu in zonele cu telangiecatzii

- Energia, entropia, contrastul derivate din matricea GLCM de ordinul 3 => regiunile

corespunzatoare telangiecatziilor au o entropie mai mare, un contrast mai mare si o

complexitate structurala mai accentuata

- Coeficientul fractal Hurst exprima, de asemenea, o cmplexitate structurala mai acentuata in

zonele cu telangiectazii

Rezulta, astfel, ca exista diferente de granularitate intre zonele afectate de telangiectazii si

celelalte zone, regiunile continand telangiecatzii avand o complexitate structurala mai mare,

prin prezenta mai frecventa a muchiilor cu orientari neregulate.

Ordonare descrescatoare dupa media scorurilor

Performantele clasificarii bazate pe trasaturile texturale relevante este satisfacatoare, de

peste 89%. Cel mai performant clasificator, atat din punctual de vedere al timpului de raspuns,

cat si din punctual de vedere al acuratetei, este cel bazat pe Masini cu Vectori Suport (SVM).

Clasificator Rata de

Recunoastere

Rata TP

(Senzitivitatea)

Rata TN

(Specificitatea)

AUC Timp

MLP 89% 87% 91.3% 95.8% 0.17s

SVM 89.13% 91.3% 87% 89.1% 0.02s

RF 82.60% 82.6% 82.6% 94.5% 0.01s

AdaBoost+J48 84.78% 91.3% 78.3% 95% 0.01s

J48 82.60% 82.60 82.60 81.9% 0.008s

Polipi/fara leziuni – parametri relevanti:

CFS + Best First – meritul subsetului – 0.798

GLCM_Entropie

Contrastul_muchiilor

Variabilit_in_orient_muchiilor

Hurst

Wavelet_Entropia2

Wavelet_Entropia3

Wavelet_Entropia5_ll

Variabilit_grad_directional

Medie_pete

Medie_undisoare

GLCM3_omogenitate

Consistency+Bets First – merit 0.977

Medie_undisoare

Gain Ratio Attribute Evaluation + Ranker:

Analizand setul trasaturilor texturale relevante, rezulta o complexitate tisulara mai mare

in zona polipilor intestinali decat in celelalte regiuni. Astfel:

Statisticile bazate pe microstructuri de tip Laws’ - medie_undisoare, medie_pete, medie

nivel, frecventa undisoare => densitatea microstructurilor de tip pata si undisoara, determinate

ulterior aplicarii nucleelor de convolutie Laws’ este mai mare la nivelul polipilor;

Variabilitatea gradientului directional, variabilitatea in orientarea muchiilor, varianta

gradientului, magnitudinea gradientului, magnitudinea gradientului directional – complexitatea

structurala a tesutului este mai accentuata in zona polipilor

Entropia si varianta GLCM – mai mari in zona polipilor intestinali

Omogenitatea GLCM3, omogenitatea GLCM – mai mica in zona polipilor intestinali

Entropia determinata dupa aplicarea transformatei Wavelet, la rezolutii multiple – mai mare

in zona polipilor intestinali

Clasificare:

Clasificator Rata de

Recunoastere

Rata TP

(Senzitivitatea)

Rata TN

(Specificitatea)

AUC Timp

MLP 88.63% 95.5% 81.8% 88.2% 0.1s

SVM 93.18% 95.5% 90.09% 93.2% 0.03s

RF 90.90% 95.5% 86.4% 95.9% 0.01s

AdaBoost+J48 93.18% 95.5% 90.09% 95.9% 0.02s

J48 93.18% 95.5% 90.9% 93.9% 0.01s

Performantele clasificarii bazate pe trasaturile texturale relevante este satisfacatoare,

situamdu-se peste 93%. Cel mai performant clasificator, atat din punctual de vedere al timpului

de raspuns, cat si din punctual de vedere al acuratetei, este cel bazat pe arbori decizionali, J48,

corespunzand metodei C4.5.

Algoritm de segmentare propus:

1. Pentru fiecare cadru din secventa de imagini (film videocapsula endoscopica)

1.1. Se imparte imaginea in blocuri (regiuni de interes) de dimensiune 30x30 pixeli

1.2. Se determina parametrii texturali relevanti in fiecare caz (polipi sau

telangiectazii)

1.3. Se aplica clasificatorul cel mai adecvat, antrenat anterior (offline). Cel mai

adecvat clasificator este acela ce prezinta atat o acuratete satisfacatoare, cat si un

timp de raspuns acceptabil.

1.4. Daca clasificatorul semnaleaza prezenta unei telangiectazii sau a unui polip =>

marcarea regiunii de interes respective

Print screen-uri din aplicatie:

Selectia trasaturilor relevante

Clasificare cu Perceptron Multinivel (MLP)

A4.5 Diseminare

M Ionescu, CT Streba*, CC Vere, AG Ionescu, I Rogoveanu. Telangiectasia Detection in

Wireless Capsule Endoscopy Using the Color Slicing Technique. Current Health Sciences

Journal. 2017; 43(1): 25-30.

A4.6 Urmărire patent

Am re-depus patentul într-o formă îmbunătățită, conform criteriilor OSIM și a rezultatelor

evaluării preliminarii.

-------------------------------------------------------------------------------------------------------------

Director proiect

Prof. Univ. Dr. Cristin Constantin Vere

Titlu proiect: INFRASTRUCTURA DE SUPORT PENTRU … INDISIO Etapa IV (2017... · Perceptronul Multinivel (Multilayer Perceptron) ... date a sistemului creat, cat si in alte formate

Documents