Top Banner
Analiza ¸ si descrierea perceptual ˘ a a artei vizuale rom ˆ ane¸ sti Raport de cercetare - raport final - 2017 CORNELIU F LOREA -DIRECTOR PROIECT Universitatea Politehnica Bucure¸ sti, Laboratorul de Analiza ¸ si Prelucrarea Imaginilor 14 septembrie 2017 Cuprins 1 Baze de date 2 1.1 Baze de date cu tablouri internat ¸ionale ............................... 2 1.2 Baz˘ a de date cu tablouri romˆ anes ¸ti ................................. 4 2 Recunoa¸ sterea automat ˘ a a curentului artistic 5 2.1 Descriptori de tr ˘ as˘ aturi ........................................ 5 2.2 Ansamblu de SVM .......................................... 6 2.3 Rezultate ................................................ 8 2.3.1 Rezultate obt ¸inute pe Pandora7k .............................. 8 2.3.2 Rezultate obt ¸inute pe Pandora18k ............................. 8 2.4 Discut ¸ii s ¸i concluzii .......................................... 9 3 Recunoa¸ sterea temei ¸ si transferul de cuno¸ stiint ¸e 10 3.1 Preliminarii .............................................. 10 3.1.1 ˆ Intelegerea tablourilor s ¸i tranferul de domeniu ...................... 10 3.2 Baze de date folosite ˆ ın experiment ................................. 11 3.3 Implementare s ¸i rezultate ...................................... 11 3.3.1 Comparat ¸ie cu alte metode ................................. 11 3.3.2 Matricea de Confuzie .................................... 12 3.3.3 Alte experimente ....................................... 12 3.4 Transfer de domeniu ......................................... 13 4 Analiza regiunilor de proeminent ¸˘ a din tablouri 16 4.1 Construct ¸ia bazei de date ...................................... 16 4.2 Estimarea zonelor de proeminent ¸˘ a ................................. 18 4.3 Experimente .............................................. 20 4.4 Utilizarea proemint ¸ei ca indicator de dificultate .......................... 21 1
27

Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Aug 29, 2019

Download

Documents

hoanghanh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Analiza si descrierea perceptuala a artei vizuale romanestiRaport de cercetare - raport final - 2017

CORNELIU FLOREA - DIRECTOR PROIECTUniversitatea Politehnica Bucuresti, Laboratorul de Analiza si Prelucrarea Imaginilor

14 septembrie 2017

Cuprins

1 Baze de date 21.1 Baze de date cu tablouri internationale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Baza de date cu tablouri romanesti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Recunoasterea automata a curentului artistic 52.1 Descriptori de trasaturi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Ansamblu de SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Rezultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Rezultate obtinute pe Pandora7k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.2 Rezultate obtinute pe Pandora18k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Discutii si concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Recunoasterea temei si transferul de cunostiinte 103.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.1 Intelegerea tablourilor si tranferul de domeniu . . . . . . . . . . . . . . . . . . . . . . 103.2 Baze de date folosite ın experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Implementare si rezultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3.1 Comparatie cu alte metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3.2 Matricea de Confuzie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.3.3 Alte experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.4 Transfer de domeniu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Analiza regiunilor de proeminenta din tablouri 164.1 Constructia bazei de date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 Estimarea zonelor de proeminenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.3 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.4 Utilizarea proemintei ca indicator de dificultate . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1

Page 2: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

5 Identificarea compusilor chimici 225.1 Baza de date folosita: continut, ımpartire ın clase . . . . . . . . . . . . . . . . . . . . . . . . . 225.2 Algoritm: Implementare si rezultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.3 Caracteristici folosite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.4 Sistem de clasificare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Introducere

In acest raport sunt rezumate eforturile noastre ın atingerea obiectivelor asumate ın proiectul de fata. Inprimul rand este abordata problema analizei tablourilor artistice iar ın secundar recunoasterea pigmentuluidintr-o imagine. Problema de recunoastere a curentului artistic contine multiple aspecte care vor fi abordatesuccesiv: constructia unor baze de date relevante, constructia unei metode de analiza automata a tablouluicare sa permita recunoasterea curentului artistic respectiv care sa permita recunoasterea temei. In ultimulsens am studiat capacitatea de generalizare a sistemelor artificiale ın raport cu ınvatarea pe imagini reale.Pentru studiul acestor metode algoritmi sau idei, am colectat mai multe baze de date; procesul acesta estedescris ın sectiunea urmatoare.

1 Baze de date

1.1 Baze de date cu tablouri internationale

In activitatile aferente proiectului am colectat mai multe baze date cu diferita adnotari, dupa cum urmeaza:Pandora18k [26] pentru recunoasterea curentului artistic ın tabouri internationale, Pandora-ROM pentrustudii privind tablourile romanesti si respectiv Pandora-Saliency care se concentreaza pe identificareazonelor care atrag atentia din tablouri. Suplimentar ın studiul capacitatii sistemelor artificiale de a ıntelegetablourile am colectate seturi de date, seturi disponibile pe pagina proiectului 1.

Pentru studiul curentelor artistice principala baza de date colectata este Pandora18k2 . Aceasta a fostformata ın trei etape: (1) colectare; (2) corectie imagine; (3) verificarea curentului artistic. Primul pasexista ın toate lucrarile raportate din literatura: am colectat imagini de pe Internet, ımpreuna cu etichetacurentului artistic. Desi site-ul Wikiart a fost utilizat ca sursa principala, totusi mai mult de 25 % dinimagini sunt colectate din alte locatii. Am ıncercat sa echilibram distributia ıntre diferitele curente artistice,ın paralel cu a ne asigura ca cele mai important sunt ilustrate ın mod corespunzator.

Cea de a doua etapa a presupus revizuirea manuala a tuturor imaginilor de catre experti tehnici prinurmarirea catorva idei principale:

• Imaginea digitala trebuie sa se concentreze asupra continutului tabloului ın sensul ca pe cat posibilrama tabloului trebuie sa fie eliminata deoarece nu este reprezentativa pentru curentul artistic. Cutoate acestea, ın special pentru arta veche cu imagini religioase (de exemplu bizantine sau dinRenasterea timpurie), rama este o parte (integrata) a picturi, sau aceasta este foarte curbata si nupoate fi decupata corect pe un suport dreptunghiular. In cazul ın care rama taboului este parte acompozitiei artistice, atunci si aceasta a fost pastrata. O consecinta practica este ca un poliptic, cuexceptia cazul ın care continutul sau este unitar (aceeasi scena), este ımpartit ın mai multe imagini cudivizari de-a lungul ramelor.

• Sculpturile sau exemplele din arta moderna care contin obiecte tri-dimensionale au fost eliminatedeoarece umbrele pot juca un rol important ın procesul automat de clasificare. S-au eliminat deasemenea imaginile ce conın arta veche de tip pictura murala ın cazul ın care curbura peretelui esteprea mare (si fotografia rezultanta este distorsionata).

1imag.pub.ro/pandora2Baza de date este disponibila pe pagina proiectului 1.

2

Page 3: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Tabelul 1: Structura bazei de date Pandora18k. ∗ Curentul ”arta abstracta” grupeaza de fapt cinci directii:Arta Abstracta (pura), Expresionism abstract, Constructivism, Neo-plasticism si Suprematismul. Picturicubo-futuriste sunt incluse ın Scubism.

Curent Nr. img. Perioada Caracteristici principale [43]Iconografia bizan-tina

847 500-1400 religios, aura

Renastere timpu-rie

752 1280-1450 ceremonial, divin, idealizare

Renastere nordica 821 1497-1550 realism, detalii, tonuri, naturalismRenastere tarzie 832 1490-1527 rigoare, antichitate, monumental, simetrieBaroc 990 1590-1725 dramatic, alegorie, emotie, culori puternice, con-

trast ridicatRococo 832 1650-1850 decorativ, ludic, ornamental, contemplativRomantism 895 1770-1880 rebeliune, libertatea emotieiRealism 1200 1880-1880 anti-burghez, real, critica socialaImpresionism 1257 1860-1950 senzatie fizica, efectul de lumina, miscare, culori

intense, plein aerPost-impresionism

1276 1860-1925 forme semnificative, desen, structura

Expresionism 1027 1905-1925 culori puternice, distorsiune, abstract, cautareSimbolism 1057 1850-1900 emotie, anarhie, imagini din visFavism 719 1905-1908 culori intense, compozitie simplificata, planeitate,

nenaturalCubism 1227 1907-1920 volume plane, perspective confuze, unghiuri, artifi-

cialSuprarealism 1,072 1920-1940 juxtapunere irationala, subconstient, distrugereArta abstracta∗ 1063 1910 - pre-

zentgeometrie, compozitii simplificate

Arta naiva 1053 1890-1950 simplitate copilareasca, etnografie, modele, per-spectiva gresita

Arta pop 1120 1950-1969 imagini din cultura populara, ironie

• Am eliminat schitele din creion sau carbune. De asemenea, imagini cu culori foarte degradate/decolorateau fost eliminate. In paralel, am observat ca picturile au fost fotografiate cu mai multe variantepentru corectia nivelului de alb. Am eliminat acele imagini care sunt vizibil gresite.

In al treilea pas ıntreaga baza de date a fost examinata de un expert ın arta pentru eliminare imaginilorcare nu trec criteriul artistic. Au rezultat unele observatii:

• Exista opere etichetate cu un anumit stil desi autorul este cunoscut pentru activitatea sa ın alt stil. Deexemplu, Kazimir Malevici este cunoscut ca fiind initiatorul miscarii suprematiste, ın timp ce el arealizat si lucrari realiste. Am pastrat toate aceste tablouri.

• Exista lucrari care pot fi adnotate cu mai multe etichete. Noi am pastrat doar eticheta dominanta.

• Pe Internet exista detalii dintr-un tablou mai mare, care sunt prezentate ca fiind lucrari indepen-dente. In toate cazurile identificate numai lucrarea originala a fost pastrata deoarece consideram cacompozitia globala este importanta.

• Mai multe lucrari din perioada contemporana contin, deasemenea, parti digitizate. Daca acestea auvaloare artistica au fost pastrate.

3

Page 4: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Byzantine Early Ren. Rococo Romanticism

North Ren. High Ren. Baroque Symbolism Surrealism

Realism Impressionism Post Impr. Expressionism

Fauvism Cubism Abstract Naive art Pop art

Figura 1: Exemple din cele 18 curente artistice ilustrate ın baza de date culeasa si etichetele lor asa cum seregasesc ın aceasta.

In urma acestui proces de editare, a rezultat un set de 18040 imagini ımpartit ın 18 curente artistice.Prezentarea generala a structurii bazei de date poate fi urmarita ın tabelul 1.

Dificultatile de caracterizare automata pot proveni din urmatoarele aspecte:

• Calitatea imaginilor digitale difera semnificativ: variaza de la rezolutie mare la una mica ce poate fideteriorata suplimentar de artefacte JPEG;

• Raportul de aspect variaza foarte mult de la 3:1 pana la 1:3, asa cum este ilustrat ın figura 1. Deasemenea, desi unele picturi au un cadru circular, dreptunghiul minim de ıncadrare a fost pastrat.

• Analizand scurta descriere din tabelul 1, principala diferenta ıntre diferite curente artistice estemai mult legata de continutul si mai putin stilul de pictura; de multe ori diferentele sunt subtile.Prin urmare este destul de greu pentru descriptorii standard de imagine sa codifice cu precizieinformatiile relevante.

1.2 Baza de date cu tablouri romanesti

In acesta etapa am colectat un numar de 2992 imagini digitale ale unor tablouri pictate de artisti de origineromana. Dintre acestea ≈ sunt 2600 sunt etichetate atat ın ceea ce priveste curentul artistic cat si continutulscenei pictate. Restul sunt ın proces de etichetare.

Conınutul bazei de date, mai exact partea care are adnotari complete poate fi urmarita ın figura 2.

4

Page 5: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 2: Distributia curentelor artistice ın partea deja adnotata a bazei de date cu tablouri romanesti.

2 Recunoasterea automata a curentului artistic

Problema recunoasteriii automate a curentului artistic exemplificat ıntr-o lucrare de arta este cea maiadresata in domeniul analizei de imagini. In aceasta sectiune descriem eforturile depuse de noi ın aceastadirectie

2.1 Descriptori de trasaturi

In [2] se observa ca ”nu exista o delimitare clara a ce ınseamna un curent de arta” si daca unii artisti asociaticu o singura miscare aplica principii stricte ale constructiei artistice, altii, asociati cu o alta miscare, poturma doar idei largi. In aceste conditii consideram ca nu poate exista un singur set de descriptori caresa fie capabili sa separe oricare doua miscari artistice. In aceasta sectiune vom detalia trasaturile pe carele-am folosit pentru a stabili o performanta de referinta pe bazele de date cu tablouri.

Descriptorii de texturi utilizati sunt:

• Histograma de orientari a gradientului (HOG) [22] - se calculeaza orientarea gradientului ın fiecarepixel si se acumuleaza ponderea fiecarei orientari ıntr-o histograma. Aceasta a fost utilizat anteriorın analiza picturilor [37], [4].

• HOG piramidal (pHOG) Descriptorul HOG mentionat mai sus este aplicat pe 4 nivele ale uneipiramide gaussiene.

• Color HOG - descriptorul HOG este aplicat independent pe fiecare plan de culoare al spatiului deculoare RGB.

• Model Local Binar (LPB) [48] este o histograma a valorilor binare ce cuantifica ordonarea localaıntr-o vecinatate de 3 ×3 si prin cuantizare rezulta un descriptor cu 58 de valori. LPB a fost utilizatanterior ın descrierea picturilor [37], [4].

• LBP piramidal (pLBP) - descriptorul LBP calculat pe 4 nivele ale unei piramide gaussiene.

• Modelul intensitatilor locale ordonate (LIOP) [60] - presupune ordonarea dupa sortare ın intensitaticrescatoare a esantioanelor locale.

Pentru HOG, LBP si LIOP ne-am bazat pe punerea ın aplicare din biblioteca VLFeat [58].

• Histograma de contururi (EHD) face parte din standardul MPEG-7 si reprezinta distributia gradien-tului ın patru orientari de baza. Implementarea se bazeaza pe biblioteca BilVideo-7 [7].

• Anvelopa spatiala, GIST [49] descrie caracterul spatial sau forma picturii si a fost folosita anteriorpentru catalogarea picturilor [4].

Descriptorii de culoare testati sunt:

• Discriminative Color Name (nume de culori discriminative) (DCN) [38] - reprezinta culoarea do-minanta recuperata printr-o abordare bazata pe maximizarea informatiei. Forma de baza (ColorNames) a fost utilizata cu succes pentru a determina stilul si pictorului [37].

5

Page 6: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

• Color Structure Descriptor (Desciptor de structura color) (CSD) [45], se bazeaza pe histogramastructurii culor, care e o generalizare a histogramei culorilor. CSD tine partial seama de coerentaspatiala din distributia bruta a culorilor cuantificate ın cadrul imaginii si s-a demonstrat ca estecapabil sa faca diferenta ıntre diferitele miscari artistice [33]. Am calculat un vector de CSD delungime 64 folosind biblioteca BilVideo-7 [7].

Sistemele de clasificare testate sunt:

• Masini cu Vectori Suport - SVM. Ne-am bazat pe implmentarea din LibSVM [18] folosing functiagaussiana drept functie nucleu.

• Random forest RF [14]. Drept versiune de baza am folosit 100 de arbori si adancime nelimitata.Decizia ın fiecare nod tine cont de N1 =

√N dimensiuni ın cazul (unde N este dimensiunea

caracteristicii de intrare).

Trebuie mentionat ca ınainte de dezvoltarea retelelor adanci, clasificatorii de tip RF si SVM s-audovedit a fi cele mai robuste familii de clasificatori [25]. De asemenea, pentru baze de date mici sidiverse RF sau SVM pot concura cu retelele adanci deoarece ultimele, datorita numarului mare deparametri, au tendinta sa supraınvete setul de antrenament.

Am testat de asemenea mai multe sisteme care anterior au fost utilizate pentru recunoasterea curentuluiartistic. Inspirandu-ne din realizarile anterioare [5], am rulat sistemul Bag of Words (BoW) peste detectorulde puncte cheie SIFT cu un vocabular de 500 cuvinte.

In plus, pentru ca baza de date este mica pentru un astfel de scop si, prin urmare, nu este cu adevaratpotrivita pentru ınvatare profunda, pentru a avea o indicatie de performanta de baza am antrenat si evaluato versiune de retele neuronale convolutionale adanci (CNN). Punerea ın aplicare se bazeaza pe bibliotecaMatConvNet [59] si arhitectura LeNet [40].

2.2 Ansamblu de SVM

Specific pentru problema recunoasterii curentului artistic am construit un nou sistem de clasificare bazatpe ansamblu de boosted SVM.

Am abordat problema clasificarii prin cuplarea descriptorilor de imagine cu clasificatori puternici.Abordarea noastra se bazeaza pe masini cu vectori suport si nuclee cu functie baza radiala (RBF). Pentrua creste performanta generala, trebuie sa fie folositi ımpreuna mai multi descriptori. Deoarece fuziuneadirecta ıntr-un singur clasificator nu produce perfomante satisfacatoare, am folosit o procedura de fuziunemodificata inspirata de algoritmul SAMME [65], considerand ca aceasta are mai multe sanse de reusita. Inacest caz un SVM are ca scop minimizarea:

Φ(w) = 12 wTw + C ∑N

i=1 ξi, s.t.yi(〈w, φ(xi)〉+ b) ≥ 1− ξi, ξi ≥ 0, i ∈ {1, . . . , n} (1)

Sistemul poate fi extins cu ponderi individuale conform [62]:

Φ(w) = 12 wTw + C ∑N

i=1 Wiξi, s.t.yi(〈w, φ(xi)〉+ b) ≥ 1− ξi, ξi ≥ 0, i ∈ {1, . . . , n}. (2)

Aici, C este parametrul de cost (ce guverneaza compromisul ıntre eroarea de antrenare si margi-nea SVM larga), iar W1, . . . , WN sunt ponderile asociate instantelor din setul de antrenament. Functiacaracteristica Φ provine dintr-o functie de tip nucleu; o solutie populara este nucleul RBF definit cak(x, z) = 〈Φ(x), Φ(z)〉 = exp

(γ2‖x− z‖

).

Un clasificator SVM este antrenat pe instantele de antrenament X(i) (ımpreuna cu ponderile asociateWi) si cu etichete aferente Yi si este notat cu Tγ,C = {X(i), Wi, Yi, γ, C}. Pentru doua seturi diferite de datece descriu obiectul X(p)(i), X(q)(i), modelele individuale pot fi notate cu T(p),γ,C si respectiv T(q),γ,C.

6

Page 7: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

1. Se initializeaza ponderile instantelor de antrenament W(1)i = 1, i ∈ {1, . . . , n};

2. Se identifica pentru fiecare clasificator ın mod independent cei mai buni parametri [27] for T(k),{γk, Ck}, k ∈ {1, . . . Q} ;

3. for m=1:M doa. Se alege ın mod arbitrar un clasificator, T (m)

p , p ∈ {1 . . . Q}. Se selecteaza X(p);b. Se alege un subset arbitrat din datele de antrenament. ;

c. Se antreneaza clasificatorul ales T (m)p , pe subsetul curent de antrenament, folosindu-se

ponderile W(m). ;d. Se calculeaza eroarea: ;

εm =

(n

∑i=1

W(m)i

[ci 6= T

(m)p (xi)

])/

n

∑i=1

Wi (3)

d. Se calculeaza modificarea:

α(m) = min(

log1− εm

εm+ log(K− 1), αmax

)(4)

e. Se alegwi ← wi · β

α(m)[ci 6=T

(m)p (xi)

](5)

endResult: Ansamblu boosted de SVM partiali dat de:

C(X) = arg maxk

M

∑m=1

α(m)[T (m)

p (X(p)) = k]

(6)

Algorithm 1: Procedura de fuziune a SVM: [ai = bi] este notatia Iverson pentru numarul de aparitii;K=18 (numul de clase), αmax = 10, β = 1.2 (so that βlog(K−1) ≈ 2).

Procedura de fuziune, pentru cazul general cu Q seturi de date, este descrisa ın algoritmul 1. AlgoritmulAdaBoost, cu clasificatori simpli de tip SVM poate produce perfomante superioare pentru clasificare binara,daca parametrul γ = 1√

σeste crescut iterativ [41]. Experimentele noastre au aratat ca, daca se utilizeaza

mai multe seturi de date obtinute prin procedura de tip boostrap ın locul unui set unic de antrenare (ca ın[41]), atunci o valoare unica pentru γ este suficienta.

Algoritmul 1 se inspira din principiul Arcing Clasifiers (altereaza si reantreneaza claficatori ın bootstra-pping) [13], cu diferenta majora ca, ın loc de un set complet de antrenare (adica toate dimensiunile) sefolosesc doar seturi aleator alese din ele. Mai mult decat atat, diferite solutii pentru ansambluri de SVMau fost introduse anterior si diferite combinatii sunt discutate de catre Wang et al. [34] sau mai recent ınlucrarea lui Mayhua-Lopez et al. [47].

Solutia propusa de noi difera, printre altele, prin regularizarea suplimentara introdusa ca un factoraleator atunci cand se alege urmatorul clasificator pentru ansamblul de SVM. De fapt, prin aceasta alegerene ındepartam de abordarile traditionale de boosting [13, 46], unde pasul urmator (adica clasificatorulurmator) este ales ca cel cu cea mai abrupta coborare ın spatiul raspunsurilor; aici este ales la ıntamplare.Pentru a compensa folosim procesul de optimizare din ecuatia (3). Acolo un clasificator cu o performantaredusa apata o pondere mica si nu va contribui mult ın clasificatorul general, asa cum rezulta din ecuatia(6).

7

Page 8: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Tabelul 2: Rata de recunoastere, [%], ın conditiile ın care diverse combinatii de descriptori si clasificatorisunt aplicati pe Pandora7k. Am marcat cu caractere ıngrosate cea mai buna performanta

Feat. / Class. Random Forest SVM 1-NN 3-NN 7-NNHOG 0.266 0.248 0.200 0.214 0.233

pHOG 0.342 0.364 0.262 0.266 0.267colorHOG 0.268 0.277 0.213 0.221 0.236

LBP 0.386 0.395 0.303 0.298 0.320pLBP 0.459 0.525 0.368 0.362 0.377LIOP 0.344 0.362 0.246 0.252 0.260EHD 0.319 0.287 0.270 0.267 0.286

GIST 0.379 0.337 0.297 0.280 0.282

DCN 0.298 0.264 0.192 0.201 0.215CSD 0.435 0.489 0.337 0.3357 0.363

pLBP + DCN 0.488 0.521 0.278 0.282 0.297

pLBP + CSD 0.540 0.547 0.377 0.282 0.297

Tabelul 3: Rata de recunoastere cand se folosesc diferite sisteme deja existente.Sistem Performanta

pLBP + CSD +SVM 0.547BoW 0.352

Condorovici et al. [20] 0.379Deep CNN 0.486

2.3 Rezultate

2.3.1 Rezultate obtinute pe Pandora7k

Raportam mai ıntai rezultatele obtinute atunci cand sunt utilizate diverse combinatii de caracteristici siclasificatori. Acestea pot fi urmarite ın tabelul 2.

In al doilea rand raportam cea mai buna performanta a sistemelor agregate ın tabelul 3. Mentionamfaptul ca pentru aceasta baza de date, cea mai buna performanta este obtinuta printr-o combinatie decaracteristici standard (LBP piramidal + Color Structura Descriptor) cu un SVM.

Desi performanta data de diferite sisteme poate fi dezamagitoare, acest lucru este perfect explicabil.Pentru BoW exista prea multa variabilitate ıntre punctele cheie pentru a gasi un teren comun; ın loculversiunii initiale testate aici, ar trebui sa se opteze pentru vocabulare mult mai mari cu compresie pentrua mentine cerintele de memorie scazuta. In ceea ce priveste performanta data de DeepCNN, valoarearaportata ar trebui sa fie perceputa ca o limita inferioara, deoarece baza de date este prea mica pentruformarea ın mod direct a retelei cu zeci de mii de variabile, din moment ce nu s-a pus ın aplicare nicioaugmentare a datelor, iar imaginile fiind redimensionate la 32× 32 s-au pierdut o parte din caracteristiciledefinitorii.

2.3.2 Rezultate obtinute pe Pandora18k

Tinand seama de recentele progrese ale retelelor neurale profunde, am testat mai multe variante3, iarrezultatele sunt prezentate ın partea stanga a tabelului 2.3.2. Pentru LeNet si NIN am folosit biblioteca

3Performanta retelei neuronale convolutionale (CNN) este luata dupa 40 de epoci pentru LeNet si NIN si dupa 100 de iteratiipentru AlexNet si ResNet. ResNet ajunge la 49.1 acuratete ın cursul procesului de antrenare. Folosirea mai multor epoci (pana la 500)nu a ımbunatatit performanta

8

Page 9: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

HOG pHoG colHoG HoT pHoT LBP pLBP SIFT LIOP HTD EHD GIST DCN CSD pLBP+CSD pHoT+CSD

RF 18.4 23.4 19.6 29.6 32.3 27.2 32.7 21.6 24.4 22.3 24.9 23.8 18.9 31.3 37.8 37.7SVM 17.4 24.7 19.1 30.8 42.5 27.4 39.2 23.6 25.2 19.7 22.7 23.5 19.4 33.8 40.4 47.1

Tabelul 4: Rata de recunoastere (%) pentru diverse combinatii de caracteristici si clasificatori pe baza dedate Pandora18k

Deep CNN

Model Dimensiune Nr. straturi Timp RRLeNet [40] 32 14 < 1h 22.3LeNet [40] 64 16 < 1h 25.1NiN [42] 64 17 < 1h 26.5

AlexNet [39] 224 8 < 1h 39.5ResNet [30] 224 34 2h 47.8

Tabelul 5: Rata de recunoastere(RR) pentru diverse modele de CNN (Dimensiune se refera la rezolutiaimaginilor de intrare).

MatConvNet, ın timp ce pentru AlexNet si ResNet, am apelat la biblioteca CNTK.Avand ın vedere rezultatele caracteristicilor individuale, am testat diverse alternative pentru fuziu-

nea rezultatelor; acestea sunt prezentate ın tabelul 2.3.2. Ca urmare a unor articole anterioare privindrecunoasterea de curente artistice [36, 10, 50], filtrele convolutionale din versiunea Caffe a AlexNet antre-nate pe ImageNet au fost aplicate pe baza de date, iar rezultatele sunt marcate cu DeCaf [24] si subscriptuluistratul. De asemenea, avand ın vedere rezultatele de la [50], am ıncercat sa folosim straturi de filtre DeCafın procedura de boosting.

2.4 Discutii si concluzii

Cea mai buna performanta a fost obtinuta printr-o combinatie de LBP piramidal si CSD. Ne putem asteptaca adaugarea de GIST sa creasca ın continuare performanta, dar acest lucru nu se ıntampla, probabil dincauza dimensionalitatii mari (dimensiunea caracteristicilor ajungand la 800).

Urmatoarea observatie importanta este ca diferiti descriptori separara bine unele curente, dar daurezultate proaste ın identificarea altora. De exemplu, CSD-ul separa excelent Iconoclastia ortodoxa, care areo paleta unica de culori (din cauza degradarii ın timp si culorilor reduse disponibile la creatie), dar nu esteın masura sa separe fovismul de impresionism pentru ca ambele folosesc aceleasi culori, dar distribuite ınmod diferit. Suprarealismul este greu sa fie separat de orice alt descriptor cu exceptia GIST, deoarece estesingura caracteristica testata capabila sa descrie compozitia scenei. Cu toate acestea, GIST nu este capabilsa distinga fovismul la impresionism pentru ca ın acest caz textura locala este cea care face diferenta. Incontrast, confuzia facuta de pLBP ıntre fovism si impresionism este mult mai redusa.

In general, confuzia ıntre abstract si cubismul este mare. Cubismul fiind definit prin aparitia extraordi-nara a liniilor drepte, ar trebui ıncercata introducerea unor caracteristici adecvate pentru a descrie obiecterectilinii.

Asadar propunem o noua baza de date cu pictura adnotata cu etichete pentru curentul de arta siımpartita ın 4 bucati pentru o evaluare riguroasa. Baza de date este semnificativ mai mare decat celeutilizate anterior. Am testat o multitudine de caracteristici deja existente si clasificatori si am identificatpunctele slabe si forte ale fiecaruia dintre ele. De asemenea, sugeram cateva directii de cercetare viitoarepe care le anticipam ca fiind benefice pentru progresul ın domeniu.

9

Page 10: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Features + ClassifierFeatures Classifier Time RR

DeCAF6 SVM 1h 42.8DeCAF5 SVM 1h 41.7

All RF 6h 44.5All+PCA RF 3h 38.5

All SVM 1h 50.0pHoT+CSD SVM 2h 47.1

DeCAF6 Boost 2h 49.4DeCAFAll Boost 2h 44.6

pHoT+CSD Boost 2.5h 50.1Teate Boost 6.5h 48.5

Tabelul 6: Rata de recunoastere(RR) pentru un subset de caracteristici/clasificatori din cele raportate ınTable 2. “Toate” se refera la caracteristicile enumerate ın tabelul 2. Timpul raportat (Time) este timpul deantrenare pentru o parte (fold) a bazei de date. Metoda propusa este notata cu Boost.

3 Recunoasterea temei si transferul de cunostiinte

3.1 Preliminarii

Oamenii sunt capabili sa perceapa o scena naturala dintr-o privire, iar pictorii, prin abstractizare, ımpingaceasta capacitate la limita. Am abordat problema recunoasterii temei (tipului de scena) ın picturiledigitizate. Abordarea se bazeaza pe retele neuronale convolutionale, iar arhitectura aleasa este reteauareziduala (ResNet). In evaluarea iniıala, determinam rata de recunoastere a CNN-ului pe o baza de date cu80.000 de tablouri digitizate adnotate. In cel de-al doilea nivel, evaluam impactul extinderii bazei de dateprin adaugare de fotografi ın mod direct sau prin intermediul a doua functii de adaptare a domeniului tiastfel putem evalua nivelul de abstractizare pe care CNN este capabil sa ıl atinga.

Pornind de la ideea ca retele neuronale adanci prezinta similaritati cu perceptia umana [19] si de laconstatarea ca aceste retele obtin o perfromanta rearcabila ın alte domenii de inspiratie perceptuala, cum arfi recunoasterea obiectelor sau chiar ın crearea de imagini psuedo-artistice. Concret, ın aceasta directie amcomparat mai ıntai rezultatele retelei reziduale (ResNet) pe baza de date WikiArt cu metodele anterioare.Am testat diferite metode de transfer de domeniu pentru a vedea daca acestea pot contribui la cresterearatei de recunoattere si daca reteaua este capabila sa treaca de abstractizarea tablourilor. Mai mult, amintrodus cateva alternative pentru transferul de domeniu pentru a realiza o sarcina duala: ımbunatatireaperformantei recunoasterii scenelor si ıntelegerea capacitatilor de abstractizare ale sistemelor de ınvatareautomata.

Architectura si antrenarea Am folosit reteaua de tip (ResNet) [31] ın varianta cu 34 de straturi. Totiparametrii, hiper-parametri si procedura de antrenare urmeaza exact solutia initiala [31].

Extinderea bazei de date. Pentru a ımbunatati performanta recunoasterii, am testat diferite scenarii deaugmentare a bazei de date prin transformari geometrice simple.

3.1.1 Intelegerea tablourilor si tranferul de domeniu

Un aspect avut ın vedere a fost sa ıntelegem modalitatea sistemelor de ınvasare artificiala (ın cazul nostruretele CNN adanci) ın ıntelegerea artei. Pentru CNN-uri, metoda de baza pentru vizualizarea structuriiinterne a fost propusa de Zeiler si Fergus [63] si presupune vizualizarea activarilor interne maxime ıncorelatia cu raspunsul la diversi stimuli. Prin acesta metoda Zhou et al. [64] au aratat ca sistemele antrenatepentru analiza scenelor incorporeaza o serie de detectoare de obiecte iar ın analiza artei Tan et al. [57]

10

Page 11: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

a aratat ca peisajele activeaza ıntrega imagine, ajutand putin analiza si concluziile. In consecinta, amıncercat o abordare diferita care exploateaza transferul de cunostiinte sau transferul de domeniu. Acestetehnici au crescut seminificativ ın popularitate [44] ın special ın conjunctie cu CNN-urile adanci. Mai ıntai,reamintim ca straturile inferioare ale retelelor adanci se antreneaza pe baze pot fi asociate cu un clasificatorputernic (cum ar fi SVM) si cu un selector de caracteristici [24]. In al doilea rand, procesul de imbunatatirea retelelor adanci presupune luarea unei retele pre-antrenate pe o alta baza de date si, folosind o rata micade ınvatare, o adapteaza numai la sarcina curenta.

In schimb, conceptul de transfer de domeniu sau de adaptare a domeniului a aparut ca o alternativapentru a mari cantitatea de informatii pe care un sistem poate fi antrenat direct pentru a-si ımbunataticapacitatea de predictie. Pentru un sumar al solutiilor introduse ne vom referi la opera lui Ben-David el al.[12].

Sa demonstrat ca transferul de domenii este fezabil si ca beneficiarul poat obtine rezultate ımbunatatiteın cazul ın care cele doua domenii sunt adaptate. Saenko et al. [51] a aratat ca, folosind o transformareinstruita, transferul de domenii este benefic. Am investigat doua alternative. In primul rand, consideramtransferul stilului Laplacian introdus de Aubry et al. [6]. Ei folosesc o varianta a filtrului bilateral pentru atransfera contururile de la imaginea artistica de referinta la fotografia realista. In al doilea rand, luam ınconsiderare algoritmul neural introdus de Gatys et al. [28]. Folosind un CNN adanc metoda descompuneo imagine ın stil si continut. Intuitiv, diferenta majoraa dintre o imagine artistica si o fotografie este stilul;pentru realizarea transferului,fotografia este adaptata domeniului artistic. Printre mai multe arhitecturiadanci CNN investigate, experimentele noastre, [9] doar VGG19 [54] duce la rezultate calitative.

3.2 Baze de date folosite ın experiment

Pentru diversele experimente efectuate, au fost utilizate doua baze de date. Acestea sunt seturile de dateWikiArt care au fost colectate de pe Internet si ordonate de catre Karayev et al. [36] si, respectiv, baza dedate SUN [61]. Primul contine cea mai mare parte a imaginilor folosite pentru instruire si testare, ın timpce acesta din urma este folosit doar ca o baza de date auxiliara pentru experimente de transfer de domeniu.

Colectia WikiArtBaza de date WikiArt contine aproximativ 80.000 de imagini digitalizate de picturi. Ele sunt etichetate

ın 45 de genuri diferite (e.g. ilustratie, nud, abstract, portret, peisaj, marina, religioas, literatura etc) si suntrealizate de mai mult de 1000 de artisti. Din cunostintele noastre, aceasta este cea mai mare baza de datedisponibila ın prezent, care contine adnotari de gen. Datorita faptului ca unele clase sunt limitate ca numarde exemple, am ales sa folosim doar cele care sunt bine ilustrate.

Pentru testele noastre am considerat un set care contine 79434 imagini de tablouri. Tipurile de scenecare nu sunt bine reprezentate (sub 200 de imagini) le-am adunat ıntr-o clasa container denumita ”Altele”,producand 26 de clase. O ilustrarea structurii bazei de date poat fi vazuta ın tabelul 3.

Observam ca adnotarea este slaba, deoarece se pot gasi etichete contestabile. De exemplu, categoriilede ”literatura” si ”ilustratie” pot avea de fapt teme ”peisaj”. Cu toate acestea, deoarece aceasta distributiese potriveste situatiilor practice, am folosit baza de date ca atare, fara a modifica adnotarile.

Baza de date cu imagini naturaleImaginile reale sunt preluate din baza de date SUN [61]. In forma originala, ea contine 899 de clase si

peste 130.000 de imagini. Cu toate acestea, au fost selectate doar cateva clase, care corespund etichetelordin WikiArt. Aceste informatii pot fi vazute ca segmentul verde din figura 3.

3.3 Implementare si rezultate

3.3.1 Comparatie cu alte metode

Agarwal et al. [4], Tan et al. [57] si Saleh si Elgammal [52] au folosit WikiArt pentru antrenare si testarepentru a clasifica picturile ın diferite genuri. In timp ce prima folosea un subset foarte mic, ultimele doua

11

Page 12: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 3: Structura bazei de date.

cazuri s-au concentrat pe 10 clase din baza de date (Abstract, Peisaj Urban, Gen, Ilustratie, Peisaj, Nud,Portret, Religios, Schita, Studiu si Natura).

In experimentele noastre am adoptat organizarea din [36] cu selectie aleatoare a setului de antrnamentsi de test. Mai mult, subliniem ca ın cazul nostru imaginile de la formare si testare sunt complet diferite sisunt alese aleator.

Pentru a compara rezultatele noastre cu cele raportate de articolele mentionate, am selectat aceleasi clasede picturi pentru antrenare si testare. In timp ce ıntr-un caz [52], raportul antrenare/test este mentionat, ınaltul, [57], nu este. In aceste conditii, comparatia cu stadiul tehnicii este, poate, mai putin exacta.

Rezultatele (prezentate ın tabelul ??) indica faptul ca metoda noastra da rezultate similare cu celeprecedente [57], cu diferenta ca folosim o retea mai mare, dar initializata de la zero. In plus, raportammedia pe parcursul a 5 rulari consective.

3.3.2 Matricea de Confuzie

Exemplele vizuale ale picturilor sunt prezentate ın figura 5. Matricea de confuzie pentru cea mai bunaperformanta ın cazul cu 26 de clase este ın figura 4. Am marcat clasele pentru care confuzia este maxima.Trebuie remarcat faptul ca, din punct de vedere uman, exista confuzie ıntre anumite genuri similare, cumar fi istoric vs. religios, portret vs. autoportret, poster vs. ilustratie, etc. Unele dintre aceste imaginiconfuze sunt, de fapt, prezentate ın figura 5. In consecinta, sustinem ca si eroarea de tip top-5 esterelevanta, deoarece ın multe cazuri exista mai multe etichete de gen care pot fi asociate sincer cu o singuraimagine. Pentru cea mai buna alternativa propusa, ResNet cu 34 de straturi, eroarea Top-5 este 11.85% -corespunzatoare unei precizii 88.15 %. Pentru experimentul de 10 clase, precizia top-5 este 96.75 %.

3.3.3 Alte experimente

Pentru urmatoarele experimente ne referim numai la testul de 26 de clase, fiind cel mai complet.Deoarece multe dintre experimente necesita o perioada semnificativa de timp, am restrans antrenarea

la 125 de epoci. In acest caz, creare dureaza ∼ 20h pe NVidia GeForce 980 TI comparativ cu 55h pentrualternativa de 300 de epoci ın detrimentul a 2% acuratete.

Efectul stochastic. Rulari consecutive ın cazul experimentului cu 26 de clase, au produs o medie de59.1 % (precizie de tip top-1) si o deviatie standard de 0.33 %.

Influenta Stilului Artistic. Anterior, [64] a sugerat ca chiar si cazul scenei, de fapt, o retea construiestedetectoare de obiecte si poate recunoaste obiectele pe care le-a vazut ınainte. Pentru a studia acest aspect

12

Page 13: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Tabelul 7: Comparatie cu metodele de ultima ora. Tabelul este ımpartit orizontal la solutiile de grup careau folosit baze de date cu dimensiuni similare. Acronime: BOW - sac de cuvinte, ITML - sau ınvasaremetrica iterativa; Piramida pHoG - HoG ca ın [23]; pLBP - piramida LBP implementata ın VLFeat [58]DeCAF [24] ısi asuma primele 7 nivele ale AlexNet instruite pe ImageNet.

Metoda No. clase Nr. imagini Raport test-train Acuratete (%)Agarwal et al. [4] - SIFT+BOW

5 1500 10%82.53

Agarwal et al. [4] - ansamblu 84.46

Saleh and Elgammal [52] - Classemes+Boost

10 63.691

33%57.87

Saleh and Elgammal [52] - Classemes+ITML 60.28Saleh and Elgammal [52] - Classemes+Fusion 60.28

Tan et al. [57] AlexNet - de la zeron/a

69.29Tan et al. [57] CNN- reglaj fin 74.14

ResNet 34 - de la zero 20% 73.74pHoG + SVM

26 79,434 20%

44.37pLBP + SVM 39.58

DeCAF + SVM 59.05AlexNet - de la zero 53.02ResNet 34 - de la zero 61.15

am conceput urmatorul experiment. Avand ın vedere baza de date cu 79000 imagini clasificate conformgenului, am selectat toate imaginile asociate cu stilurile cubist si naiv si le-am plasat ın setul de test. Aurezultat 4132 de imagini pentru evaluare si ∼ 75000 pentru antrenament. Desi acesta este un test mai slabdecat cel anterior, rezultatele sunt mult slabe (50.82 % acuratete top-1 si 82.10 % top-5). Acest lucru sedatoreaza faptului ca aceste stiluri particulare sunt destul de diferite de celelalte, iar sistemul nu a avutexemple similare pentru antrenare.

3.4 Transfer de domeniu

Experimentele privind transferul de domeniu au constat ın augumentarea separata a anumitor clase cuexemple din baza de date SUN. Tabelul 8 contine atat performanta generala pentru fiecare augmentare aclasei, cat si schimbarea adusa clasei respective (afisata ın coloana ”Modificator”). Aceasta masura ia ınconsiderare valoarea clasificarilor corecte ale retelelor obisnuite, mai degraba decat numarul de esantioaneexistente. Experimentul presupune adaugarea fiecarei clase separat. Pentru accelelerarea metode detransfer neural de stil (ın forma originala este foarte lenta, necesitand 10-30 de minute) am aratat [9] ca estesuficienta convergenta partiala (cu numar mic de iteratii).

Adaugarea tuturor imaginilor transferate (adaptate) a produs un efect similar, cresterea fiin inferioaravariatiei stochastice (precizia totala de 59,05 %).

Am observat ca fiecare dintre transferuri a marit clasificarea pe clasa respectiva. Cel mai vizibil efectnumeric asupra ıntregii baze de date se obtine prin adaugarea de imagini de interior; aceasta este singuraclasa ın care numarul de imagini adaugate este semnificativ mai mare decat picturile asociate. De asemenea,avand ın vedere transferul, ımbunatatirea este asociata cu stiluri precum academism sau realism, care sebazeaza pe redari fidele a scenei originale, fara abstractizare.

Imaginile produse de transferul Laplacian, desi arata mai abstract, nu par ”pictate”; aceasta adaptare adomeniului nu ımbunataseste evaluarea obiectiva. Transferul, aici, se concentreaza pe contrastul local sigama dinamica a tonurilor de gri, ın timp ce CNN-urile sunt legate de structura. Dupa cum se arata ın fig.6 (b), nu exista nici o impresie de pictura ın imaginile produse, astfel ca este greu de corelat cu exemplelede testare si nu este utila atunci cand se ımparte spasiul de date.

Am descoperit cumva ca este surprinzator faptul ca, desi stilul neural produce imagini care par

13

Page 14: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 4: Matricea de confuzie pentru 26 de clasa +cu o varianta de antrenament de 300 de epoci.

Transfer Original Laplacian - [6] Neural - [28]

Class Acc [%]Acc-5[%]

Modif.[%]

Acc [%]Acc-5[%]

Modif.[%]

Acc [%]Acc-5[%]

Modif.[%]

Cityscape 58.8 88.37 0.415 58.95 87.59 0.53 n/a n/a n/aFlower Painting 58.66 87.23 0.7 59.25 87.89 1.59 57.21 86.9 3.97

Interior 58.33 87.73 17.54 58.30 87.46 3.78 n/a n/a n/aLandscape 59.32 88.43 3.85 58.61 88.13 0.18 n/a n/a n/a

Marina 58.35 87.78 15.7 59.50 88.13 1.55 57.22 87.33 1.16

Tabelul 8: Efectul adaugarii de esantioane suplimentare din baza de date SUN. ”Acc” si ”Acc-5” se referala precizia generala stabilita atunci cand sunt luate ın considerare numai primul (-1-) respectiv primele(-5-). ”Modif” se refera la ımbunatatirea clasei particulare.

asemanatoare unei picturi, efectul numeric nu este la fel de dramatic precum ne-am asteptat. Cu toateacestea, consideram ca explicasia este data de cantitate. Procesul este lung si am adaugat doar un numarmic de imagini, care nu pot umple de fapt spasiul de date, astfel ıncat CNN sa poata trasa granise riguroase.Pentru a vedea daca acest lucru este cazul, am conceput doua experimente ın care numarul de imaginitransferate este comparabil cu cel al bazei de date standard.

Transmiterea neuronala a catorva imagini ıntr-o baza de date mica. Pentru aceste experimente, amprodus, folosind algoritmul de transfer al stilului neuronal [28], imagini pentru trei genuri: ”cityscape” -262; ”picturile de flori” - 180 si ”marina” - 229. Am analizat cazul cu 26 de clase.

Pentru primul experiment, am urmarit sa vedem ce se ıntampla daca, pentru clasele alese, ın loculpicturilor, oferim imagini mai mult transferate. Rezultatele sunt ilustrate ın tabelul 9. Initial, am eliminatcomplet toate datele de antrenament pentru cele trei clase; evident ca nu exista o recunoastere corectapentru aceste clase. Am adaugat doar imaginile transferate. In acest caz, exista recunoasteri corecte, chiarsi pentru picturile ın stil abstract, ın timp ce destul de putine, aratand ca transferul neural poate ajuta siofera date relevante. Apoi am adaugat ın mod iterativ mai multe imagini si am observat recunoasterea

14

Page 15: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Self-Portrait Portrait Interior Design Poster

History Battle Genre Nude

Figura 5: Exemple de genuri ilustrate ın baza de date. De retinut ca pot fi folosite si alte etichete de genpentru fiecare imagine, argumentand astfel utilizarea clasificarii top-5.

crescanda. In final, am eliminat imaginile transferate si am observat o scadere, confirmand din efectulbenefic al adaptarii domeniului.

O alta observasie legata de rezultate este ca impactul asupra genului ”picturi ın flori” este mult redusın comparasie cu alte doua, ”urbaniscape” si ”marina”. O explicatie posibila se refera la continut: pentrupicturi, genurile ”picturilor florale” se refera ın mod tipic la flori ınca ın vaza; ın contrast cu imaginile,”florile” sunt din gradina, ocupand suprafese mult mai mici din imagine. Un astfel de exemplu este ınfigura 5.

Pentru cel de-al doilea experiment, am redus contributia fiecarei clase la un numar comparabil cu cel alcelor transferasi (adica la 250). Rezultatele numerice sunt afisate ın partea de jos a tabelului 9. Se poateobserva ca ın cazul ın care cantitatea de picturi neuronale transferate este comparabila cu datele originale,iar consinutul celor doua seturi este similar (de exemplu, ın cazul orasului si al portului de agrement, ıntimp ce flora este mult mai mica), transferul este din nou benefic. Astfel, aceste experimente arata, deasemenea, ca transferul de stil neural poate acsiona ca o funcsie de adaptare a domeniului.

15

Page 16: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

(a) (b) (c) (d)

Figura 6: Ilustrarea experimentelor de transfer de domeniu si de adaptare a domeniului. Coloanele (b) si(c) marcheaza imaginea transformata. Coloanele sunt: (a) fotografie originala; (b) imaginea obsinuta dupatransferul Laplacian [6]; (c) imaginea obsinuta dupa transferul neural [28]; (d) pictura de referinsa.

4 Analiza regiunilor de proeminenta din tablouri

Un capitol important din proiectul propus este analiza zonelor de proeminenta (i.e. care atrag ın modinvoluntar privirea) ın perspectiva identificarii metodelor originale de creare a unui tablou. In aceastadirectie, intai am construit o baza de date cu adnotari de salienta vizuala, cu ajutorul careia am identificatcea mai buna metoda de predictie [55], pentru ca mai apoi sa exploatam aceste corelatii ın recunoastereacurentului artistic [8].

4.1 Constructia bazei de date

Pentru adnotarea bazei de date cu tablouri cu regiunile de proeminenta rezultate din urmarirea priviriiutilizatorilor au fost selectate si testate ın conditii de laborator doua sisteme comerciale de urmarire aprivirii:

1. Gazepoint GP3 Eye Tracker

2. Tobii EyeX

S-au facut teste asupra calibrarii pe un numar de 10 utilizatori pentru diferite distante ıntre utilizatorsi subiect si ın conditii de luminozitate ambientala diversa: lumina laterala, lumina frontala, luminaredusa, lumina puternica, lumina naturala la diverse momente ale zilei, lumina de neon. S-a constatato sensibilitate a celor doua dispozitive la modificarea distantei dintre utilizator si subiect pe parcursulutilizarii. De asemenea dispozitivul Gazepoint GP3 Eye Tracker s-a dovedit a fi sensibil si la iluminareredusa sau laterala. In aceste conditii, pentru introducerea a cat mai putine erori de calibrare, am hotaratsa folosim ın continuare pentru achizitia propriu-zisa a directiei privirii utilizatorilor numai dispozitivulTobii EyeX. In urma acestor teste de calibrare a rezultat ca:

1. La ınceputul fiecarei achizitii utilizatorul trebuie sa calibreze dispozitivul de urmarire a privirii;

16

Page 17: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Tabelul 9: 492/5000 Acuratetea recunoasterii picturii creste cand clasele augumentate prin transfer neuralde stil [28] au un numar redus de picturi originale. Clasele de interes sunt ”urbanismul”, ”picturile deflori”, ”marina”. Numarul de imagini transferate: ”panorama de oras” - 262; ”pictura ın flori” - 180 si”marina” - 229. Picturile folosite pentru formare ın alte clase sunt 57363. Pentru al doilea experiment, amconsiderat 250 de tablouri pe clasa, ınsumand 23 clase 5750.

Exp.Nr.

Tablouriın alteclase

Tab. perclasa

de interest

Imaginitransferate

Imagini recunoscuteCitadin

(Din 764)Flori

(Din 252)Marina

(Din 259)Toate classes(Din 15708)

1

all 0 0 0 0 0 8024all 0 all 37 0 6 8084all 50 all 29 17 5 8255all 200 all 107 67 24 8364all 250 all 149 73 68 8584all 250 0 121 48 59 8328

25750 0 all 125 24 48 33545750 250 0 219 91 120 33575750 250 all 287 141 145 3561

2. Distanta dintre utilizator si ecran trebuie sa fie de aproximativ 100 cm, distanta dintre utilizatorsi dispozitiv trebuie sa fie de aproximativ 60 cm si cu 40 cm mai jos decat nivelul ochilor. Odatafacuta calibrarea aceste distante trebuie tinute cat mai fixe pentru a nu influenta achizitia hartii deproeminenta;

3. In cazul dispozitivului Tobii EyeX lumina nu trebuie sa fie foarte puternica si frontala (soare puternicla amiaza) si nu trebuie sa se schimbe ın timpul achizitiei.

In aceste conditii am considerat ca este necesara o noua calibrare a dispozitivului dupa fiecare 10-12minute de utilizare.

S-au ales apoi din baza de date de tablouri un calup de 180 de tablouri diverse (din punct de vedere alstilului, continutului, autorului, genului, etc), avand grija ca imaginile sa aiba o rezolutie destul de mare,sa fie clare si sa nu contina alte elemente care ar putea distrage atentia (stralucire din cauza iluminariineuniforme, rama, etc). Cele 180 de tablouri au fost ımpartite aleator ın 4 seturi distincte, fiecare setcontinand un numar de 45 de tablouri. Fiecare dintre aceste seturi vor fi aratate, pe rand, fiecarui utilizatorla momente de timp diferite ın ordine aleatoare atat inter-set cat si intra-set.

Imaginile din baza de date au fost redimensionate astfel ıncat sa fie afisate pe ecran ın format Pe totecranul fara a se modifica raportul de aspect, ın conditiile ın care se doreste ca o portiune cat mai mica aecranului sa ramana neocupata. Tablourile dintr-un set vor fi afisate pe ecran ın aceasta forma timp de 13.5secunde fiecare. Intre afisarea a doua tablouri, pentru a nu avea influente de la un tablou la altul, se vaafisa pe ecran un fundal gri 18% timp de 1 secunda. Acest fundal acopera si zona ramasa libera din ecranın timpul afisarii tablourilor.

Exemple de tablouri si de harti de proeminenta ınregistrate se pot observa ın figurile 7 si respectiv 8.Hartile de proeminenta prezentate ın figura au fost filtrate cu un banc de filtre gaussiene pentru o maibuna vizualizare a zonelor de atractie a privirii. De asemenea s-au suprapus hartiile de proeminenta pesteimaginea originala pentru a observa exact aceste zone.

In exemplul din figura 7 se poate observa ca principala zona de interes este zona fetei si ca hartile desalienta respecta un anumit tipar pentru fiecare poza - majoritatea subiectilor se uita la aceleasi zone aleimaginii. Totusi pe laanga zonele principale de atractie a privirii, fiecare subiect mai are si alte zone la cares-a uitat. Exemplul din figura 8 respecta acelasi tipar.

Pentru fiecare utilizator se va crea un director ın care se vor salva hartile de proeminenta pentru fiecaretablou din fiecare set. Achizitia ınregistrarilor facute de dispozitivul de urmarire a privirii este sincronizata

17

Page 18: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 7: a) Imagine a unui tablou din baza de date, b,c,d) Exemple de harti de proeminenta ınregistratede la trei utilizatori diferiti (sus) si modul de suprapunere al acestora pe imagine (jos).

Tabelul 10: Comparatie cu alte baze de date existente ın literatura de specialitate

Nume Numar poze Numar subiecti Tip pozeFIFA [17] 180 8 Imagini naturale color

Toronto [15] 120 11 Imagini de interior/exterior colorMIT [35] 1003 15 Imagini naturale color

NUSEF [56] 758 25 Imagini naturale colorPaintings91 [37] 182 10 TablouriPandoraSaliency 180 40 Tablouri

cu afisarea imaginilor pe ecran. In total se vor salva mai multe imagini pentru fiecare tablou: imaginearedimensionata, harta de salienta cu valori filtrate gaussian si 3 harti partiale ale intervalului de 13.5secunde (una pentru primele 4.5 secunde, una pentru primele 9 secunde si una finala cu toate valorilepixelilor rezultati ın urma ınregistrari). Cele 3 harti partiale sunt necesare ın cazul ın care vrem sa observamdetaliile din tablouri care atrag privirea subiectilor ınca de la ınceputul ınregistrarii. Putem astfel observadaca zonele de atractie a privirii comune pentru mai multi utilizatori sunt cele care au atras privirea ınprimele secunde sau abia dupa ce subiectul tabloului a fost descoperit de utilizator acesta a determinatcare sunt zonele de interes. Un exemplu cu cele trei harti rezultate poate fi observat ın figura 9.

Comparativ cu alte grupuri care au raportat si au facut publice baze de date cu ınregistrari ale directieiprivirii baza noastra de date foloseste cei mai multi utilizatori. Insa trebuie sa precizam ca majoritateaacestor baze de date nu folosesc imagini de arta, ci imagini naturale, ın care abstractizarea e mai mica. Ocomparatie cantitativa poate fi urmarita ın tabelul 10.

Structura deınregistrari e conform tabelului 11.

4.2 Estimarea zonelor de proeminenta

Pentru a evalua performantele algoritmilor de salienta, folosim aria de sub Coeficientul de corelatiePearson ıntre harta de referinta, obtinuta ca medie a hartilor pentru toti utilizatorii pentru o singuraimagine si predictia metodei de analiza. Reamintim ca coeficientul CORR este calculat ca:

18

Page 19: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 8: a) Imagine a unui tablou din baza de date, b,c) Exemple de harti de proeminenta ınregistrate dela doi utilizatori diferiti (sus) si modul de suprapunere al acestora pe imagine (jos).

CORR = ρ =∑n

i=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√

∑ni=1(yi − y)2

(7)

unde xi sunt esantioanele din imaginea de referinta, ın timp ce yi este harta de salienta de evaluat.Am testat urmatoarele metode de predictie orientate pe regiuni: GBVS - [29]), SIGN - [32], bazata

pe FFT [3] respectiv pe DCT si QUAT - [53]). Rezultatele obtinute pot fi urmarite ın tabelul 12. Pentrureferinta, raportam subiectul mediu, cel mai bun si cel mai rau.

Daca analizam rezultatele din tabelul 12, cele mai performante metode de predictie ating valorisuperioare celui mai slab subiect uman. Astfel, afirmam ca rezultatele obtinute prin adnotarea unui corpusmare de tablouri digitalizate prin metode automate reprezinta o directie fezabila.

19

Page 20: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 9: a) Imagine a unui tablou din baza de date, b) Harta de salienta obtinuta dupa 4.5 secunde, c)Harta de salienta obtinuta dupa 9 secunde, d) Harta de salienta finala.

Tabelul 11: Numar de ınregistrari pe fiecare set de date

Numar set 1 2 3 4 5 6Numar ınregistrari 40 37 34 33 24 14

4.3 Experimente

In aceasta sectiune vom procesa harta holistic, fara a o descompune ın regiuni. Astfel, nu am investigatdiferentele de traiectorie care ar fi putut conduce la acelasi rezultat final.

In comparatie cu alte seturi de date cu proeminta vizuala, am ınregistrat traiectoria privirii ın douaetape: una dupa 4.5 secunde si una dupa 9 secunde de la ınceput. Al doilea include traiectoria primului.Motivul pentru aceasta detaliere este sa puteti efectua o analiza mai detaliata a regiunilor care capteazaatentia subiectului. In ceea ce priveste motivatia, sa ne reamintim observatia intuitiva a lui Cacciola et al.[16] ca diversitatea traiectoriilor individuale este ın relatie directa cu complexitatea scenei.

Pentru fiecare imagine am calculat corelatia dintre fiecare subiect si media pe toti subiectii. Avand ınvedere concluziile subliniate anterior [16], era de asteptat ca miscarea care vizeaza scenele si compozitiilemai complexe sa prezinte variabilitate mai mare. Pentru a studia acest aspect am raportat variatia corelatieihartilor de la subiecti individuali cu diferenta max-min. In timp ce pentru unele miscari nu avem datesuficiente pentru a trage concluzii, totusi, ın figura 10, se poate vedea o grupare ntre miscari. De exemplu,pentru expresionism sau cubism, datorita abstractizarii, este greu de ınteles dintr-un foc semnificatiapicturii. Pe de alta parte, unele curente care, desi au o bogatie de detalii, proiecteaza o interpretare directaa temei / scenei. Acest test initial arata ca, ıntr-adevar, corelatia poate oferi informatii despre tipul miscariisi merita sa fie investigata ın continuare.

Tabelul 12: Compararea diferitelor variante de estimare a proeminentei vizuale ın picturi. Majoritateaalgoritmilor de predictie ofera o performanta ımbunatatita ın comparatie cu valoarea initiala. Pentrusubiecti i-am considerat doar pe cei care au privit la toate imaginile.

MetodaPredictie Subiecti

GBS–[29] SIGN–[32] FFT–[3] DCT–[3] QUAT–[53] Mediu Cel mai slab Cel mai bunCORR, ρ 0.454 0.373 0.112 0.142 0.385 0.525 0.416 0.608

20

Page 21: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Figura 10: Diferenta max-min ın raport de varianta a coeficientului de corelatie pentru curentele ilustrate.Observati cele doua grupuri principale.

Figura 11: Diferenta max-min ın raport de varianta a coeficientului de corelatie pentru curentele ilustrate.Observati cele doua grupuri principale.

4.4 Utilizarea proemintei ca indicator de dificultate

Performanta sistemului bazat pe ansamblu de clasificatori SVM poate fi este ımbunatatita ın continuaredaca decizia finala se bazeaza pe consensul mai multor experti, fiecare alcatuit dintr-un set de SVM,ficare analizand diferite parti ale imaginilor. O observatie cantitativa (conform figurii 11 este ca sistemulfunctioneaza mai bine pe miscari realiste si mai slab pe cele abstracte.

In paralel, gradul de abstractizare al unei imagini poate fi preluat din harta de proeminenta (asa cumam aratat ın figura 10. Masura studiata este excentricitatea hartii de salienta [8]. ”in acest caz performantaansamblului de experti creste cu 5%.

21

Page 22: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

5 Identificarea compusilor chimici

In colaborare cu Muzeului National de Istorie al Romaniei - MNIR am dezvoltat o metoda pentru recunoastereaautomata a compuılor chimici. Acesta metoda va fi folosita ın procesul de restaurare a picturii murale albisericii de lemn din Amarasti [11].

5.1 Baza de date folosita: continut, ımpartire ın clase

Baza de date, oferita prin amabilitatea MNIR, este alcatuita din mostre de pigmenti Kremer pe gumaarabica, precum si pe fond alb/negru fotografiati cu camera microscopica ın domeniul vizibil (senzorisensibili la rosu, verde, albastru), respectiv infrarosu (IR). Pigmentii Kremer folositi sunt descrisi ıncatalogul dedicat [1]. Baza de date este proprietatea MNI si nu este publica.

Intr-un prim pas s-au analizat mostrele pe care le aveam la dispozitie si s-au eliminat cele care nuapartineau setului de pigmenti Kremer sau care nu erau corect etichetate. S-a constatat ca unele imaginiın infrarosu aveau artefacte. Si aceste mostre au fost eliminate din baza de date. Acolo unde a fostposibil mostrele eliminate au fost ınlocuite cu alte mostre ale aceluiasi pigment. Dupa discutiile avute cucolaboratorii nostri de la Muzeul National de Istorie al Romaniei am decis sa ımpartim baza de date ındoua parti distincte: (1) mostre care contin pigmentii aplicati pe guma arabica (70 mostre) si (2) mostrecare contin pigmentii aplicati pe hartie (157 mostre).

Fiecare mostra contine doua imagini de 342× 683 pixeli, una pentru spectrul vizibil si una pentruinfrarosu. Mostrele care contin pigmenti aplicati pe hartie au o zona cu fundal alb si una cu fundal negru(zone care nu sunt ıntotdeauna pozitionate identic din punct de vedere spatial). Exemple din cele douaparti ale bazei de date sunt prezentate ın figura 12.

Pentru testare, am considerat fiecare mostra ca o clasa separata rezultand doua baze de date cu 70 sirespectiv 157 de clase. Fiecare mostra a fost ımpartita ın mai multe esantioane distincte pentru a forma bazade date finala pe care se vor face experimentele. Tinandu-se seama de faptul ca mostrele sunt neomogene,s-au considerat esantioane nesuprapuse din fiecare mostra. Dimensiunea esantioanelor se doreste a fidestul de mare pentru a pastra informatia de culoare si textura a pigmentului, dar suficient de mica pentrua avea un numar cat mai are de esantioane ın baza de date. S-au facut teste cu dimensiuni ale esantioanelorde 64x64 de pixeli, 96x96 de pixeli, 128x128 de pixeli si respectiv 340x340 de pixeli.

S-a constatat ca o dimensiune mai mica de 64x64 de pixeli nu mai pastreaza destula informatie detextura pentru a recunoaste pigmentii. Pe de alta parte, esantioane mai mari presupun scaderea drasticaa numarului de esantioane ın baza de date de antrenare si testare. Am stabilit asadar o rezolutie aesantioanelor la 64x64 de pixeli, rezolutie ce va fi pastrata pentru toate experimentele ce vor fi prezentateın continuare. In urma acestei ımpartiri a rezultat un numar de 7065 esantioane per clasa. Asadar avem ınfinal doua baze de date astfel:

1. 70 mostrele care contin pigmentii aplicati pe guma arabica- 70 clase * 7065 esantioane = 494.550 esantioane,

2. 157 mostrele care contin pigmentii aplicati pe hartie- 157 clase * 7065 esantioane = 1.109.205 esantioane.

5.2 Algoritm: Implementare si rezultate

Pentru recunoasterea pigmentului folosit au fost implementate si testate diferite metode bazate pe unsistem clasic de ınvatare artificiala. Astfel au fost extrase din esantioanele avute la dispozitie diverse tipuride caracteristici de culoare, textura si combinatii ale acestora. Aceste caracteristici au fost apoi furnizateunui sistem de ınvatare artificiala de tip Masina cu Vectori Suport (SVM) [21].

22

Page 23: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

1. 2. 3. 4.

1. 2. 3. 4.

Figura 12: Doua mostre de pigmenti aplicati pe hartie (sus), respectiv pe guma arabica (jos). Fiecare mostracontine imaginea ın spectrul vizibil (1 si respectiv 3) si ın infrarosu (2 si respectiv 4).

5.3 Caracteristici folosite

Pentru fiecare esantion s-au extras mai multe tipuri de caracteristici. Acestea pot fi ımpartite ın caracteristicide culoare, caracteristici de textura si caracteristici mixte, dupa cum urmeaza:

1. HOG (Histogram of Oriented Gradients) - s-a considerat informatia de intensitate a esantionuluiın spectrul vizibil, rezultand un descriptor de textura.

2. ColorHOG - caracteristicile HOG au fost calculate pe fiecare dintre cele 3 planuri de culoare RGB aleesantionului ın spectrul vizibil, la care s-a adaugat si un al patrulea plan provenind de la esantionulın spatiul infrarosu (imagine cu niveluri de gri). Astfel s-a introdus si o parte care depinde de culoare.

3. pHOG - s-a considerat informatia de intensitate a esantionului ın spectrul vizibil, fiid vorba tot deun descriptor de textura.

4. LBP (Local Binary Pattern) - s-a considerat informatia de intensitate a esantionului ın spectrulvizibil.

5. pLBP (pyramid Local Binary Pattern) - s-a considerat informatia de intensitate a esantionului ınspectrul vizibil.

6. HoT (Histogram of Topographic Features) Histograma de trasaturi topografice este un descriptorde textura care foloseste atat informatia din derivatele locale de ordin 1 (ca si caracteristicile HOG),cat si pe cea din derivatele de ordin 2. Toate aceste informatii sunt stranse ın 6 histograme distinctecare formeaza vectorul de trasaturi. Acesta descriptor se foloseste numai de informatia de intensitatea esantionului ın spectrul vizibil si este un descriptor de textura pur.

23

Page 24: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Tabelul 13: RezultateDescriptor de Pigmentii aplicati pe hartie Pigmentii aplicati pe guma arabica Nr.

trasaturi Parametri SVM Acuratete Parametri SVM Acuratete elementecost gamma [%] cost gamma [%]

HOG 1 1 7.4 1 -1 15.32 32pHOG 15 -13 6.58 1 -3 15.56 128

LBP 3 -1 17.46 1 -1 31.67 58pLBP 1 -3 16.26 15 -3 35.04 232HoT 3 -1 56.72 9 -7 93.81 60

colorHOG 3 -1 23.04 3 -3 62.94 128ColorHoT 9 -7 59.24 15 -3 96.47 180HistLABI 5 -3 79.21 13 -9 98.25 220

HistLABI + HoT 7 -5 81.76 3 -3 98.41 280

7. colorHoT S-au considerat caracteristicile HoT calculate pe fiecare dintre cele 3 planuri de culoareRGB ale esantionului ın spectrul vizibil, la care s-a adaugat si un al patrulea plan provenind de laesantionul ın spatiul infrarosu (imagine cu niveluri de gri).

8. HistLABI S-a transformat esantionul din spatiul vizibil ın spatiul de culoare Lab, care este un spatiuperceptual. S-au construit histogramele fiecaruia dintre planurile L, a, b. La acestea s-a adaugat sihistograma esantionului ın infrarosu (imagine cu niveluri de gri). Pentru a ajunge la un numar deparametri rezonabil s-au subcuantizat initial atat imaginea ın Lab, ct si imaginea de infrarosu. S-autestat diverse valori de subcuantizare.

5.4 Sistem de clasificare

Pentru clasificare s-a folosit un sistem de ınvatare artificiala de tip Masina cu Vectori Suport. Pentru acesta,ın fiecare caz ın parte, s-a facut o cautare exhaustiva a parametrilor de cost si gamma. Antrenarea sitestarea SVM-urilor folosite se face ıntr-un sistem k-fold (divizare ın k parti egale) cu k=4. Antrenarea estefacuta pe rand pe 3 din cele 4 parti ale bazei de date, iar testarea se face pe cea de-a patra parte. Rezultatelesunt date ca media rezultatelor pe fiecare fold ın parte. Atat rezultatele medii ın fiecare caz, cat si parametride cost si gamma ai retelei pentru care aceste rezultate au fost obtinute, pot fi urmarite ın tabelul 13.

Analizand rezultatele se constata ca folosirea caracteristicilor care tin specific de culoare (cum arfi HistLABI) da rezultate mult mai bune decat folosirea caracteristicilor de textura. Exista totusi sicaracteristici de textura (ex: HoT) care pot ajuta la o mai buna clasificare a compusilor. Pentru a le folosile-am alaturat caracteristicilor de culoare, formand caracterstici mixte cu o putere mai mare de discriminare.Asa cum se poate observa ın tabelul 13. Rezultate combinatia de HoT si HistLABI a dat cele mai bunerezultate, ajungand la o rata de clasificare de 81.76% pe baza de date cu 157 esantioane, respectiv la 98.41%pe baza de date cu 70 esantioane.

24

Page 25: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

Bibliografie

1. Kremer - pigmente. product catalog. Catalog de pigmenti disponibil on-line la adresa http :kremerpigments.comdownloadkrpkatalogUS140806web.pd f .

2. What is an art movement ? www.artyfactory.com/art_appreciation/art_movements/art_

movements.htm, Retrieved May 2016.3. R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk. Frequency-tuned salient region detection. In

IEEE conference on Computer Vision and Pattern Recognition (CVPR), pages 1597–1604, 2009.4. S. Agarwal, H. Karnick, N. Pant, and U. Patel. Genre and style based painting classification. In WACV,

pages 588–594, 2015.5. R. S. Arora and A. Elgammal. Towards automated classification of fine–art painting style: a comparative

study. In ICPR, pages 3541–3544, 2012.6. M. Aubry, S. Paris, S. W. Hasinoff, J. Kautz, and F. Durand. Fast local laplacian filters: Theory and

applications. ACM Transactions of Graphics, 33(5), 2014.7. M. Bastan, H. Cam, U. Gudukbay, and Ozgur Ulusoy. BilVideo-7: An MPEG-7-Compatible Video

Indexing and Retrieval System. IEEE MultiMedia, 17(3):62–73, 2009.8. M. Badea and C. Florea. Visual saliency cues for art analysis. In Recent Advances in Artificial Intelligence,

2017.9. M. Badea, C. Florea, L. Florea, and C. Vertan. Efficient domain adaptation for painting theme recogni-

tion. In ISSCS, 2017.10. Y. Bar, N. Levy, and L. Wolf. Computer Vision - ECCV 2014 Workshops: Zurich, Switzerland, September

6-7 and 12, 2014, Proceedings, Part I, chapter Classification of Artistic Styles Using Binarized FeaturesDerived from a Deep Neural Network, pages 71–84. 2015.

11. O. Barbu, I. Mohanu, L. Florea, and D. Mohanu. Pigments characterization for image reconstruction ofwall paintings of amarasti wooden church. In Non-destructive and microanalytical techniques in art andcultural heritage, TECHNART, page p38, 2017.

12. S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. Wortman Vaughan. A theory oflearning from different domains. Machine Learning Journal, 79(1-2):1–2, 2010.

13. L. Breiman. Arcing classifiers. The Annals of Statistics, 26(3):801–824, 1998.14. L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.15. N. Bruce and J. Tsotsos. Saliency, attention, and visual search: An information theoretic approach.

Journal of Vision, 3(5):124, 2009.16. M. Cacciola, G. Occhiuto, and M. F. Artistic complexity and saliency: Two faces of the same coin?

International Journal of Information Acquisition, 9(2):1350010 – 10, 2013.17. M. Cerf, E. Frady, and K. C. Faces and text attract gaze independent of the task: Experimental data

and computer model. 12(10):115, 2009.18. C.-C. Chang and C.-J. Lin. Libsvm: A library for support vector machines. ACM Trans. Intell. Syst.

Technol., 2(3), May 2011.19. R. Cichy, A. Khosla, D. Pantazis, A. Torralba, and A. Oliva. Comparison of deep neural networks to

spatio-temporal cortical dynamics of human visual object recognition reveals hierarchical correspon-dence. Scientific Reports, 6, 2016.

20. R. G. Condorovici, C. Florea, and C. Vertan. Automatically classifying paintings with perceptualinspired descriptors. J. Vis. Commun. Image. Represent., 26:222 – 230, 2015.

21. C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20(3):273297, 1995.22. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Proc. of CVPR, pages

886–893, 2005.

25

Page 26: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

23. P. Dollar, R. Appel, S. Belongie, and P. Perona. Fast feature pyramids for object detection. T. PAMI,36(8):1532–1545, 2014.

24. J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deepconvolutional activation feature for generic visual recognition. In ICML, 2014.

25. M. Fernandez-Delgado, E. Cernadas, S. Barro, and D. Amorim. Do we need hundreds of classifiers tosolve real world classification problems? JMLR, 15(1):3133–3181, 2014.

26. C. Florea, C. Toca, and F. Gieseke. Artistic movement recognition by boosted fusion of color structureand topographic description. In Applications of Computer Vision (WACV), 2017 IEEE Winter Conferenceon, pages 569–577, 2017.

27. J. Gardner, M. Kusner, K. Weinberger, and J. Cunningham. Bayesian optimization with inequalityconstraints. In ICML, pages 937–945, 2014.

28. L. Gatys, A. Ecker, and M. Bethge. A neural algorithm of artistic style. In CVPR, 2016.

29. J. Harel, C. Koch, and P. Perona. Graph-based visual saliency. In Neural Information Processing Systems(NIPS), pages 545–552, 2006.

30. K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

31. K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

32. X. Hou, J. Harel, and C. Koch. Image signature: Highlighting sparse salient regions. IEEE Trans. onPattern Analysis and Machine Intelligence, 34(1):194–201, 2012.

33. Y.-F. Huang and C.-T. Wang. Classification of painting genres based on feature selection. In Proc. ofMultimedia and Ubiquitous Engineering, LNEE, volume 308, pages 159–164, 2014.

34. S. jin Wang, A. Mathew, Y. Chen, L. feng Xi, L. Mab, and J. Lee. Empirical analysis of support vectormachine ensemble classifiers. Expert Systems with Applications, 36:6466–6476, 2009.

35. T. Judd, K. Ehinger, F. Durand, and A. Torralba. Learning to predict where humans look. In IEEEInternational Conference on Computer Vision, page 21062113, 2009.

36. S. Karayev, M. Trentacoste, H. Han, A. Agarwala, T. Darrell, A. Hertzmann, and H. Winnemoeller.Recognizing image style. In BMVC, 2014.

37. F. S. Khan, S. Beigpour, J. van de Weijer, and M. Felsberg. Painting-91: a large scale database forcomputational painting categorization. Mach. Vis. App., 25(6):1385–1397, 2014.

38. R. Khan, J. van de Weijer, F. Shahbaz Khan, D. Muselet, C. Ducottet, and C. Barat. Discriminative colordescriptors. In Proc. of CVPR, pages 2866–2873, 2013.

39. A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neuralnetworks. In NIPS, pages 1097–1105, 2012.

40. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recogni-tion. Proceedings of the IEEE, 86(11):2278–2324, 1998.

41. X. Li, L. Wang, and E. Sung. AdaBoost with SVM-based component classifiers. EAAI, 21(5):785–795,2008.

42. M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

43. S. Little. Isms: Understanding Art. Turtleback, 2004.

44. J. Lu, V. Behbood, P. Hao, H. Zuo, S. Xue, and G. Zhang. Transfer learning using computationalintelligence: A survey. Knowledge-Based Systems, 80:14 – 23, 2015.

45. B. S. Manjunath, J. R. Ohm, V. V. Vasudevan, and A. Yamada. Color and texture descriptors. IEEETrans. Cir. and Sys. for Video Technol., 11(6):703–715, 2001.

46. L. Mason, J. Baxter, P. L. Bartlett, and M. R. Frean. Boosting algorithms as gradient descent. In NIPS,pages 512–518, 2000.

26

Page 27: Analiza si¸ descrierea perceptuala˘ a artei vizuale ...imag.pub.ro/pandora/Download/Raport_2017_Final.pdf · Baroc 990 1590-1725 dramatic, alegorie, emo¸tie, culori puternice,

47. E. Mayhua-Lopez, V. Gomez-Verdejo, and A. R. Figueiras-Vidal. A new boosting design of supportvector machine classifiers. Information Fusion, 25:63–71, 2015.

48. T. Ojala, M. Pietikainen, and T. Maenpaa. Multiresolution gray-scale and rotation invariant textureclassification with local binary patterns. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):971–987, July 2002.

49. A. Oliva and A. Torralba. Modeling the shape of the scene: A holistic representation of the spatialenvelope. IJCV, 42(3):145–175, 2001.

50. K. Peng and T. Chen. Cross-layer features in convolutional neural networks for generic classificationtasks. In ICIP, pages 3057–3061, 2015.

51. K. Saenko, B. Kulis, M. Fritz, and T. Darrell. Adapting visual category models to new domains. InECCV, pages 213–226, 2010.

52. B. Saleh and A. Elgammal. Large-scale classification of fine-art paintings: Learning the right metric onthe right feature. In International Conference on Data Mining Workshops. IEEE, 2015.

53. B. Schauerte and R. Stiefelhagen. Quaternion-based spectral saliency detection for eye fixationprediction. In European Conference on Computer Vision, pages 116–129. 2012.

54. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition.In ECCV, 2014.

55. B. Stoica, L. Florea, A. Badeanu, A. Racoviteanu, I. Felea, and C. Florea. Visual saliency analysis inpaintings. In ISSCS, 2017.

56. R. Subramanian, H. Katti, N. Sebe, M. Kankanhalli, and T. S. Chua. An eye fixation database forsaliency detection in images. In European Conference on Computer Vision, volume 6314, page 3043, 2010.

57. W. R. Tan, C. S. Chan, H. E. Aguirre, and K. Tanaka. Ceci nest pas une pipe: A deep convolutionalnetwork for fine-art paintings classification. In ICIP, 2016.

58. A. Vedaldi and B. Fulkerson. Vlfeat: An open and portable library of computer vision algorithms. InProc. of ACM MM, pages 1469–1472, 2010.

59. A. Vedaldi and K. Lenc. Matconvnet: Convolutional neural networks for matlab. In Proc. of ACM MM,pages 689–692, 2015.

60. Z. Wang, B. Fan, and F. Wu. Local intensity order pattern for feature description. In ICCV, pages603–610, 2011.

61. J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba. Sun database: Large-scale scene recognitionfrom abbey to zoo. In CVPR, pages 3485–3492, 2010.

62. X. Yang, Q. Song, and Y. Wang. A weighted support vector machine for data classification. IJPRAI,21(5):961–976, 2007.

63. M. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, 2014.

64. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scenecnns. In ICLR, 2015.

65. J. Zhu, H. Zou, S. Rosset, and T. Hastie. Multi-class AdaBoost. Statistics and Its Interface, 2:349–360,2009.

27