Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Semantics in Visual Information Retrieval

Carlo Colombo , Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy

Approfondimento per il corso di Sistemi Informativi Multimediali

Cappellazzo Pietro

809652

Università Ca’Foscari di Venezia A.A.2005/06

Cappellazzo Pietro Semantics in Visual Information Retrieval 2

Introduzione

Problema nel riuscire a rappresentare il contenuto di un immagine ad alto livello

Per avere ricerche efficienti queste dovrebbero contenere un livello semantico che riflette il più possibile quello a cui l’uomo si riferisce durante l’interrogazione

Solitamente per arricchire immagini o video con una semantica questa viene immessa manualmente, comportando alcuni problemi:

E’ molto costoso annotare manualmente grandi database. L’annotazione è soggettiva. Le Keywords solitamente non supportano la ricerca per somiglianza.


Una Soluzione Alternativa

Si può accrescere in modo automatico il livello semantico di una rappresentazione visuale:

Partendo da alcune caratteristiche percettive, l’elemento atomico di un’informazione visuale.

Si possono estrarre alcuni livelli semantici intermedi utilizzando delle regole di composizione.

Attraverso un approccio di costruzione sintattica chiamato Compositional Semantics si costruisce una rappresentazione semantica basta su un concetto di gerarchia.

Questo approccio permette di poter effettuare ricerche per somiglianza, oltre a ricerche basate su caratteristiche semantiche di alto livello.


Compositional SemanticsFramework

Questo processo prevede alcune regole di composizione che non sono indipendenti dal contesto, per questo sono stati presi in considerazione:

Dipinti artistici Video commerciali (pubblicità)

Inizialmente si descrive come organizzare le informazioni percettive per poi definire due livelli semantici distinti:

Livello Espressivo Livello Emozionale


Proprietà Percettive

Possono essere rappresentate con punteggi:

φi[0,1]

Proprietà percettive per le immagini/video: Colori {φred, φorange, φyellow, φgreen, φblue, φpurple , φwhite, φblack}



Proprietà percettive per le immagini/video: Bordi {φhor/ver}

Dove φhor/ver,rappresenta la percentuale di bordi o linee orrizontali e verticali rispetto al totale.



Proprietà percettive per i video: Tagli

φcuts=#cuts/#frames dove φcuts[0,1] Dissolvenze

φdissolves=#dissolves/#frames dove φdissolves[0,1]



Proprietà percettive per i video: Movimento

φmotion[0,1] Caratteristiche inter-shot

φrecurrent[0,1], φsatured[0,1]

φrhythm(i1,i2) = (#cuts + #dissolves) / (i2 – i1 + 1)

φedit = φrhythm(1,#frames)

Le proprietà percettive di un messaggio visuale possono quindi essere rappresentate come:

P = {φi}, i1,…,n


Livello EspressivoLe regole di livello Espressivo possono essere espresse come funzioni che agiscono nelle proprietà percettive.

Fj : [0,1]n [0,1]

Il significato di queste regole può essere ulteriormente esteso attraverso l’uso di operatori logici.

F1F2 = min(F1,F2 ) F1F2 = max(F1,F2 )

Le caratteristiche espressive di un messaggio visuale possono quindi essere rappresentate come un set di funzioni:

F = {F1,…, Fm}


Livello EspressivoImmagini

Basato sulla Itten theory relativa all’uso dei colori nell’arte e alla semantica a cui inducono. Tono, luminosità, calore, saturazione, contrasto, armonia , grandezza delle regioni, posizione di queste sono le caratteristiche espressive per un immagine.


Livello EspressivoImmagini

Per riuscire a dare un livello espressivo ad un immagine, questa deve:

Essere divisa in regioni, caratterizzate da colori uniformi. Devono essere rappresentate le proprietà cromatiche e spaziali di

queste regioni.

Ci sono due tipi di caratteristiche espressive relative alle regioni da considerare:

Intra-regionali: calore, tonalità, luminosità, saturazione, posizione e dimensione.

Inter-regionali: tonalità, saturazione, calore, contrasto e armonia.

Ad esempio per descrivere la luminosità possiamo inserire tre valori (dark, medium, bright), il descrittore (0.0,0.1,0.9)descriverà quindi una regione molto chiara.


Livello Espressivo ImmaginiSemantica

Φ:= region | hue = λh | lum = λl | sat = λs | warmth = λW | size = λS |

|position = λp | Contrastγ(Φ1, Φ2)| Harmony(Φ1,…, Φn)|

|Φ1Φ2 | Φ1Φ2

Dove λγ sono possibili valori delle caratteristiche γ con γ={h,l,s,w}

Vengono quindi definite le clausole semantiche in termini di soddisfacibilità ╞ di una formula generica Φ in una regione R.

La corrispondenza relativa a come Φ è verificata in una R sarà espressa da un valore ξ.

Questi dati vengono quindi inseriti in un sistema di model checking, il quale dati in input una formula generica Φ e un immagine restituirà un valore che rappresenta come quella formula è verificata nell’immagine.


Model-Cheking Engine

input: (Φ,I)

Attraverso un approccio bottom-up, il model-Cheching engine etichetta le regioni con le sottoformule che soddisfano:

• Step 1: Etichetta R2 e R4 con Φ1

• Step 2: Etichetta R1 con Φ2

• Step 3: Etichetta R1,R2 e R3 con Φ3


Livello EspressivoVideo

Basato su studi della semiologia, i video commerciali sono stati classificati in quattro categorie:

Pratici (Il prodotto è descritto nel suo ambiente naturale, viene percepita la sua utilità), Critici (Il prodotto è il soggetto della storia, la scena appare più reale di quello che è), Utopici (storie irreali, scenari mistici, tutto succede in modo irreale), Vivaci (enfatizzato il rapporto fra quello che il prodotto offre e quello che l’utente chiede).

Φ:= Fpratical ≥ k1| Fcritical ≥ k2 | Futopic ≥ k3 | Fplayful ≥ k4 |Φ1Φ2 | Φ1Φ2


Livello EmozionaleIl livello emozionale rappresenta il top della gerarchia semantica costruita, le regole per comporre questo livello possono essere rappresentate attraverso delle funzioni:

Gk:[0,1]n+m[0,1]

che agiscono attraverso le proprietà percettive e le caratteristiche espressive.Le caratteristiche emozionali di un messaggio visuale possono quindi essere rappresentate come un set di funzioni:

G = {G1,…, Gk}


Livello EmozionaleImmagini

Attraverso analisi psicologiche sono state identificate alcune emozioni primarie date dalle immagini artistiche:

Azione,Rilassamento,Gioia,Disagio

Si sono poi ricavate le regole per descrivere quali combinazioni di caratteristiche percettive ed espressive portano a queste:


Livello EmozionaleVideo


Retieval

Sono stati catalogati quindi alcune immagini e video in modo automatico secondo le regole descritte.

I valori ottenuti sono stati confrontati con quelli richiesti a dei team di esperti di arte, per quanto riguarda le immagini e semiologi ed esperti di marketing per i video.

P(i)=rank dato dal sistema

σ(i)=margine di errore tollerato

Q(i,k)= % di persone che hanno valutato l’immagine nell’intervallo P(i) ± σ(i)


Image Retrieval

Per quanto riguarda le immagini sono stati considerati:

Luminosità(a), Saturazione(b), Calore(c), Armonia(d)


Video Retrieval

Per i video commerciali sono state considerate: Praticità(a),Criticità(b),Utopia(c),Vivacità(d)


Esempi(1):Ricerca su un database di immagini

Ricerca per:

Luminosità(a),

Saturazione(b),

Calore(c),

Armonia(d)


Esempi(2):Ricerca da un’immagine campione


Esempi(3):Ricerca di pubblicità vivaci






Esempi(4):Ricerca di pubblicità critiche





Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Documents

cappellazzo pietro semantics

n slide

livello espressivo ad

informazioni percettive

immagine ad alto livello

pietro pala university

propriet cromatiche

una rappresentazione