Le traitement 2 :indexation par sujet.
SCI6308 Documents visuels et sonores
Faculté des arts et des sciencesÉcole de bibliothéconomieet des sciences de l’information
1
TP 4 en deuxième partie, individuel cette fois-ci et NB :électronique seulementLa visite à la SRC la semaine prochaine est confirmée, on se rencontre à l’entrée à 8h50 (visite de 9h à 11h)IMPORTANT : soyez à l’heure
Annonces
2
PrésentationModèles d’indexation d’imagesLa représentationApproches à l’indexationOutils d’indexation
Au programme aujourd’hui
3
Besoins d’usagersContextesObjet connu ou non
PrésentationL’indexation
4
Il est utile de s’inspirer des questions d’usagersL’accès par sujet est moins nécessaire lorsque l’objet de recherche est connuModèles d’indexationPoints d’accès autre que le sujet (qu’on verra au cours 8)
Besoins d’usagersL’indexation
Présentation
5
Les questions des usagers nous informent sur leurs besoinsOn peut ajuster nos politiques d’indexation, d’achat en conséquenceVoici quelques questions d’usagersPensez aux termes qu’il faudrait pour trouver ces images
Questions des usagers
L’indexation Présentation
Besoins d’usagers
6
Projet de recherche (Candy Schwartz, prof au Simmons College, Boston) :ânes dans l’artvendeurs ambulants de tartespaysans hollandais ou flamands du 17e siècle portant des chaussettes [un conservateur/restaurateur]
Quelques requêtes
L’indexation Présentation
Besoins d’usagers
7
Quelques requêtes reçues à la National Library of Medicine (NLM, aux É-U) :
une course de gens en chaise roulantedes chirurgiens, deboutdes chimpanzees en train d’employer des bâtons pour extraire des bananes de boîtesLouis Pasteur avec sa petite-fillel’utilisation d’une plante dans le traitement de la malariaun solarium avec meubles en rotin
ContextesL’indexation
Présentation
8
la touxdes maladies qui n’existent plusun médecin du 19e en train d’intimider une patienteune illustration de métastase, style bande dessinéimages de la Renaissance illustrant l’idée que les sciences pures et les sciences humaines étaient plus proches l’une de l’autre qu’elles ne le sont aujourd’huile premier rayon-X de la main de Mme Roentgen
L’indexation Présentation
Contextes
Ou encore
9
Objet connu ou nonL’indexation
Présentation
L’accès par sujet est moins nécessaire lorsque l’objet de recherche est connu :L’épicerie, émission du 28 septembre 2011tous les films dans lesquels joue Fanny Ardant24 heures en 60 minutes, Anne-Marie Dussault s’entretient avec Jacques Duschesneau, le 28 septembre 2011On peut ajuster la politique d’indexation en conséquence
10
PrésentationPanofskyPierce, BarthesRosch
Modèles d’indexation d’imagesL’indexation
11
Ici nous faisons un tour assez sommaire des approches utilisées, mais il y a de la discussion dans la littératureIl s’agit de théories d’autres domaines appliquées à l’indexation de l’image
PrésentationIndexation
Modèles d’indexation d’images
12
Histoire de l’art : niveaux d’interprétation (Panofsky)l’application à l’indexation (Markey)la traduction : ofness, aboutness (Shatford)
Sémiotique : dénotation, connotation (Barthes, Peirce)Psychologie : la classification du monde (Rosch)
L’indexation Modèles d’indexation d’images
Présentation
Trois modèles
13
Erwin Panofsky (1892-1968)C’est un historien de l’artIl identifie trois niveaux d’interprétation de tableaux de peinture :
pré-iconographiqueiconographiqueiconologique
PanofskyIndexation
Modèles d’indexation d’images
14
Niveau primaire :des faitsdes expressions simples d’objets et d’événements
L’indexation Modèles d’indexation d’images
Panofsky
Le niveau pré-iconographique
15
une femmeune roueune épéeun coussinun rameau de palmier
Le niveau pré-iconographique
L’indexation Modèles d’indexation d’images
Panofsky
16
Niveau secondaire ou conventionnelLe monde des images, histoires, allégoriesNécessite des connaissances de sources littéraires, artistiquesConcepts et interprétations
L’indexation Modèles d’indexation d’images
Panofsky
Le niveau iconographique
17
Ste-Catherine d’Alexandriemartyre chrétienne4e siècle après J-Cle Caravage
L’indexation Modèles d’indexation d’images
Panofsky
Le niveau iconographique
18
L’indexation Modèles d’indexation d’images
Panofsky
Ste Catherine à Montréal
1700, rue Amherstla roue
19
Niveau tertiaire ou symboliqueLe sens est dérivé d’activités mentales impossibles d’identifier complètementC’est le niveau le plus abstrait, le plus flou
L’indexation Modèles d’indexation d’images
Panofsky
Le niveau iconologique
20
la roue : instrument pour martyriserle rameau : sacrifice, victoirel’épée : la lutte pour la véritéle coussin : la nobilité
L’indexation Modèles d’indexation d’images
Panofsky
Le niveau iconologique
21
Deux personnes à signaler : Karen Markey (aussi Karen Drabenstott) et Sara Shatford (aussi Sara Layne ou Sara Shatford Layne)
L’indexation Modèles d’indexation d’images
Panofsky
Le transfert vers les SI
22
Markey applique les trois niveaux de Panofsky à l’indexation (1986)Dans une étude, elle découvre que les collections d’art ne font de l’indexation qu’au deuxième niveau
L’indexation Modèles d’indexation d’images
Panofsky
Karen Markey
23
Elle identifie les concepts ofness et aboutness
C’est une traduction des 1er et 2e niveaux de Panofsky
L’indexation Modèles d’indexation d’images
Panofsky
Sara Shatford
24
What is the picture of?
Une auto
What is the picture about?
Le stationnement, les transports, l’étalement urbain...
L’indexation Modèles d’indexation d’images
Panofsky
Ofness et aboutness
25
Charles Sanders Peirce (1839-1914)Roland Barthes (1915-1980)La sémiotiqueLes notions de dénotation et connotation
Peirce, Barthes
Peirce Barthes
IndexationModèles d’indexation d’images
26
Dénotation : des autosConnotation : stationnement, transports, étalement urbain
L’indexation Modèles d’indexation d’images
Peirce, Barthes
Dénotation et connotation
27
Voir l’article de Laurence Thivolle dans la Revue canadienne des sciences de l ’information et bibliothéconomie 23 (nos. 1/2), 1998Elle discute des modèles de tout ce monde (Peirce, Barthes, Panofsky, Markey, Shatford)
Laurence Thivolle
L’indexation Modèles d’indexation d’images
Peirce, Barthes
28
Eleanor Rosch (1938- ), chercheuse en sciences cognitives (UC Berkeley)Recherches fondamentales en psychologie dans les années 1970Comment les gens classifient le mondeSes catégories pour les objets : basic, superordinate, subordinate
Équivalents en français : de base, générique, spécifique
RoschIndexation
Modèles d’indexation d’images
29
Catégorie de base (basic) : des objets (par ex. une chaise, une auto)
tous les membres de la catégorie (ou presque) ont beaucoup d’attributs en commun
L’indexation Modèles d’indexation d’images
Rosch
Catégorie de base
30
Catégorie générique (superordinate) : combinaisons plus abstraites d’objets de la catégorie de base (par ex. meubles, véhicules)
les membres de la catégorie partagent seulement une partie des attributs
L’indexation Modèles d’indexation d’images
Rosch
Catégorie générique
31
Catégorie spécifique (subordinate) : raffinements du concept, ou ensembles d’attributs, fonctions (par ex. chaise de cuisine, auto sport)
L’indexation Modèles d’indexation d’images
Rosch
Catégorie spécifique
32
basic (de base) : autosuperordinate (générique) : véhiculesubordinate (spécifique): auto rouge, Ford Mustang
L’indexation Modèles d’indexation d’images
Rosch
Catégories
33
Autre concept important chez Rosch : goodness of fit
Le goodness of fit (représentativité) d’un objet : la capacité d’un objet de bien représenter la catégorie, de servir d’exemplaire de la catégorie
L’indexation Modèles d’indexation d’images
Rosch
Représentativité
34
L’indexation Modèles d’indexation d’images
Rosch
Représentativité
Plus Moins
Catégorie : Oiseaux
Catégorie : Chaises
35
PrésentationVariations sur un thèmeLa contrefaçonLe contexte
La représentationL’indexation
36
La représentation se fait à plusieurs niveaux et il y a de différents types de représentationPar exemple, dans une image on représente des objets, personnes, événementsDans une notice catalographique, on crée une représentation de l’objet physique (ou numérique)Lors de l’indexation, on essaie de représenter le sujet
PrésentationL’indexation La représentation
37
L’art est difficile d’indexer à cause des niveaux d’interprétation et d’autres ambiguïtésLe sujet n’est pas toujours évidentPar ex. des images de Jérusalem : un usager qui veut seulement voir la ville n’a pas les mêmes besoins que quelqu’un s’intéresse aux représentations symboliques (Shatford 1986)L’objet de représentation n’est pas toujours évident non plus
Pas évidentL’indexation
La représentation Présentation
38
La naissance de Vénus, c’est le célèbre tableau de Botticelli :l’original (musée de l’Uffizi, Florence)une photo de l’originalune version imprimée de la photo (dans un livre)une photocopie de la page du livreetc.
Tout cela, ce sont des manifestations de l’oeuvre
Variations sur un thèmeL’indexation
La représentation
39
Une image du tableau trouvée sur le Web
L’indexation La représentation
Variations sur un thème
La naissance de Vénus
40
De l’art, inspiré de l’image de Boticelli
L’indexation La représentation
Variations sur un thème
La naissance de Vénus
41
Un autre tableau, qui emprunte le titre
L’indexation La représentation
Variations sur un thème
La naissance de Vénus
42
La veilleuse de nuit
L’indexation La représentation
Variations sur un thème
La naissance de Vénus
43
L’opéra multimédia du même nom
L’indexation La représentation
Variations sur un thème
La naissance de Vénus
44
Parfois, les références sont plus subtiles mais on les reconnaît tout de suiteComment se retrouver pour les indexer ?
L’indexation La représentation
Variations sur un thème
Plus subtile
45
Avec le texte, si la chaîne de caractères est intacte, on a une copie authentique du texteMais pour construire une image, il n’y a pas d’alphabetToutefois, en environnement numérique, on peut vérifier avec le hachage du fichier
La contrefaçonL’indexation
La représentation
46
Vermeer : maître hollandais du 17e sièclevan Meegeren : commerçant d’art du 20e sièclePour se venger des critiques qui ont ruiné sa carrière de peintre, il peint dans le style de Vermeer, cuit le tableau au four pour le vieillir, puis « découvre » un nouveau Vermeer
L’indexation La représentation
La contrefaçon
Les faux tableaux de Vermeer
47
La ruse marche à merveille, les critiques sont enchantés de la découvertevan Meegeren veut exposer la fraude pour humilier les critiques mais c’est trop lucratifAvec chaque nouveau tableau, l’acceptation du prochain dans le corpus des Vermeer est facilité
L’indexation La représentation
La contrefaçon
Ça marche à merveille
48
À la fin de la 2e Guerre mondiale, les Néerlandais cherchent les concitoyens ayant collaboré avec les nazisOr, van Meegeren avait vendu un tableau à Hermann GöringIl est arrêté, puis il annonce que le tableau est faux et qu’il en a fait d’autresvan Meegeren est condamné à un an de prison mais il devient un héros national pour avoir trompé Göring
L’indexation La représentation
La contrefaçon
van Meegeren découvert
49
Autre phénomène à considérer : les erreurs sur timbres, billets de banque, pièces de monnaie augmentent leur valeur auprès des collectionneurs
L’indexation La représentation
La contrefaçon
Erreurs de production
50
Comme nous avons constaté en voyant de multiples images sur l’écran en même temps, c’est surprenant comment si peu de pixels d’information suffisent pour identifier des objetsAntonio Torralba, prof à MIT, cherche à savoir quel est le minimum (environ 32 x 32 pixels, alors que les imagettes sont typiquement 100 x 100)Il cherche à pousser l’idée que nous avons vu dans la vidéo la semaine dernière : l’ordinateur identifie l’objet, puis s’il y a du texte attaché, on l’attache automatiquement à d’autres objets similaires
Le contexteL’indexation La représentation
51
Pour savoir combien peu d’information peut être nécessaire pour identifier des images, Torralba montre aux participants des images de plus en plus flouesÇa permet d’établir le seuil
L’indexation La représentation
Le contexte
De plus en plus flou
52
Source : <http://web.mit.edu/newsoffice/2008/csail-tt0521.html>
L’indexation La représentation
Le contexte
L’importance du contexte
bouteille
chaussure
téléphone
auto
personne
53
PrésentationApproches de bas niveauApproches de haut niveau
Approches à l’indexationL’indexation
54
Outre les travaux sur l’indexation en sciences de l’information, les informaticiens travaillent sur d’autres problématiques pour faire de l’indexation automatique d’imagesAinsi, on à deux approches :
chez les informaticiens, low-level = de bas niveau = content-based = à base de contenusen SI, high-level = de haut niveau = concept-based = à base de concepts
PrésentationL’indexation Approches à l’indexation
55
À base de contenus : le contenu, c’est les pixels qui forment l’image numériqueIl s’agit de manipulations statistiques sur les pixels de l’imageExemple (un peu simpliste) : Trouver les images dont la moitié supérieure est composée de pixels à prédominance bleu et dont la moitié inférieure est composée de pixels à prédominance vert = je cherche un paysage
Approches de bas niveauL’indexation Approches à l’indexation
56
Trouvez des images semblables
L’indexation Approches à l’indexation
Approches de bas niveau
Ou encore
57
Histogrammes de couleursReconnaître les textures Reconnaître les frontières d’objetsReconnaître les objetsAttacher du sens aux objetsIdentifier les interactions entre objetsAttacher un sens aux interactions
L’indexation Approches à l’indexation
Approches de bas niveau
Étapes ultérieures
58
À base de concepts = on fait la recherche sur les concepts representés dans l’imageIl y a un transfert entre image et texteC’est un travail intellectuelL’indexation est souvent fait par des humains mais on cherche à automatiser en manipulant le texte
Approches de haut niveauL’indexation Approches à l’indexation
59
On permet aux visiteurs d’ajouter des terms d’indexation aux images trouvées (Jörgensen, Besser, autres)Le système tient compte des expressions des usagersComparer avec les folksonomies (« folk » = des gens + taxonomie)
collaboration spontanée de catégorisation de mots-clésurtout sur le web
L’indexation Approches à l’indexation
Approches de haut niveau
Autres pistes
60
Aux sites comme flickr, Facebook, etc., vous téléchargez vos photos, vous indexez en ajoutant des mots-cléD’autres usagers peuvent ajouter d’autres mots-cléAu site de YouTube, Daily Motion, Vimeo, etc., vous téléchargez vos vidéos, vous indexez en ajoutant des mots-cléD’autres usagers peuvent commenter
L’indexation Approches à l’indexation
Approches de haut niveau
Techniques courantes
61
On peut générer automatiquement de l’indexation aux images documentaires et « ordinaires » (=non-artistiques) à partir de textes créés pour d’autres fins (Turner)
L’indexation Approches à l’indexation
Approches de haut niveau
Génération automatique
62
PrésentationTypes d’outilsQuelques outils
Outils d’indexationL’indexation
63
Une grande variété d’outils disponiblesOn choisit selon
le type de matériel à indexerles besoins des usagers
PrésentationL’indexation Outils d’indexation
64
ThésaurusClassificationVedettes-matièreMots-cléIndexation à chaîne
Types d’outilsL’indexation Outils d’indexation
65
AAT = Art & architecture thesaurus
Iconclass (classification)dérivés des Vedettes de Laval
Thésaurus Garnier
beaucoup de vocabulaires ad hocsystème PRECIS
Quelques outilsL’indexation Outils d’indexation
66
ThésaurusGestion de synonymesRéseaux sémantiquesWordNetEuro WordNet (dernière mise à jour septembre 2001 !)Global WordNet Association (60+ WordNets, congrès 2012 au Japon)
L’indexation Outils d’indexation
Quelques outils
Organisation de vocabulaires
67
Approches à facettesListes à cocher (qui, quoi, où, quand, comment)Lignes directrices (proéminence de l’objet, niveau de détail, signification historique)Indexation à chaînes
L’indexation Outils d’indexation
Quelques outils
Analyse de concepts
68
A partir d’une grille de facettes (par ex. le PMEST de Ranganathan), on décrit le contenuPMEST = personnalité, matière, énergie, espace, tempsEnsuite, on encode l’information
L’indexation Outils d’indexation
Quelques outils
Approche à facettes
69
Sujet: Maladies fongiques dans la culture de riz à Madras, 1950 à 1959
J AgricultureJ3 Culture de nourritureJ38 CéréalesJ381 Culture de rizJ381,4 TigesJ381,4:4 MaladiesJ381,4:43 Maladies parasitiquesJ381,4:433 Maladies fongiquesJ381,4:433.44 Aux IndesJ381,4:433.441 MadrasJ381,4:433.441’N5 Les années 1950
L’indexation Outils d’indexation
Quelques outils Exemple de laclassification Colon de Ranganathan
70
Qui, quoi, où, quand, commentQui : Jos BleauQuoi : accident d’autoOù : angle Pie IX et Sherbrooke, MontréalQuand : 2010.02.11.22h45Comment : glace sur la chaussée
L’indexation Outils d’indexation
Quelques outils
Liste à cocher
71
On rédige une politique qui documente comment on doit indexer les imagesOn peut inclure, entre autres :
visibilité, importance de l’objetniveau de détailnombre de termes permissignification historique
L’indexation Outils d’indexation
Quelques outils
Lignes directrices
72
On isole les facettesOn les regroupe en une chaîne, ce qui offre à l’usager un petit résumé du contenuIl y a quelques systèmes et méthodes, dont PRECIS
L’indexation Outils d’indexation
Quelques outils
Indexation à chaînes
73
= PREserved Context Indexing System = Système d’indexation à contexte préservéL’indexeur identifie les concepts à inclure, par ex. :
Les effets de la pollution dans la Baie des Chaleurs sur l’industrie de la pêche au Québec
L’indexation Outils d’indexation
Quelques outils
Indexation PRECIS
74
Baie des Chaleurs. Pollution. Effets sur l’industrie de la pêche au Québec.
Pêche--industrie. Québec. Effets de la pollution dans la Baie des Chaleurs.
Pollution. Québec. Baie des Chaleurs. Effets sur l’industrie de la pêche.
Québec. Industrie de la pêche. Effets de la pollution dans la Baie des Chaleurs.
L’indexation Outils d’indexation
Quelques outils
Voici les chaînes permutées
75
Le système PRECIS est conçu pour des produits imprimés, maisOn peut employer l’indexation PRECIS en ligne sans permuter les chaînesL’usager peut chercher sous n’importe quel terme pour repérer la chaîne
L’indexation Outils d’indexation
Quelques outils
PRECIS
76