Description et indexation des collections d’images en mouvement … · James Turner Professeur agrégé, EBSI, Université de Montréal Yves Devin Agent de recherche, EBSI, Université
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 2001
Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation
Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr
Document geacuteneacutereacute le 25 mai 2020 2124
Documentation et bibliothegraveques
Description et indexation des collections drsquoimages enmouvement reacutesultats drsquoune enquecircteDescription and Indexing of Moving Images Survey ResultsDescripcioacuten y clasificacioacuten de las colecciones de imaacutegenes enmovimiento resultados de un estudioMichegravele Hudon James Turner et Yves Devin
Volume 47 numeacutero 1 janvierndashmars 2001
URI httpsideruditorgiderudit1032646arDOI httpsdoiorg1072021032646ar
Aller au sommaire du numeacutero
Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)
Citer cet articleHudon M Turner J amp Devin Y (2001) Description et indexation descollections drsquoimages en mouvement reacutesultats drsquoune enquecircte Documentation etbibliothegraveques 47 (1) 5ndash12 httpsdoiorg1072021032646ar
Reacutesumeacute de larticleDans le cadre drsquoun projet de recherche reacutecemment compleacuteteacute nous noussommes inteacuteresseacutes au lexique et agrave la structure des langages documentairesutiliseacutes pour repreacutesenter le contenu drsquoimages en mouvement deacutecrivant desobjets et des situations de la vie courante Onze organismes geacuterant quatorzecollections drsquoimages ont reacutepondu agrave un questionnaire et ont eacuteteacute visiteacutes Lesdonneacutees recueillies ont permis de constater que les collections sont imposanteset qursquoau moins la moitieacute drsquoentre elles sont indexeacutees au niveau du plan agrave lrsquoaidedrsquooutils langagiers plus ou moins controcircleacutes souvent un theacutesaurus Mais malgreacutela similariteacute des collections les divers lexiques montrent peu de recoupementsLes collections drsquoimages en mouvement sont encore deacutecrites et indexeacutees selondes principes et des techniques eacutetablis localement peu normaliseacutes et rarementcompatibles
Documentation et bibliothegraveques
Description et indexation des collections dimages en mouvement reacutesultats dune enquecircte
Michegravele Hudon Professeure adjointe EBSI Universiteacute de Montreacuteal
James Turner Professeur agreacutegeacute EBSI Universiteacute de Montreacuteal
Yves Devin Agent de recherche EBSI Universiteacute de Montreacuteal
Dans le cadre dun projet de recherche reacutecemment compleacuteteacute nous nous sommes inteacuteresseacutes au lexique et agrave la structure des langages doshycumentaires utiliseacutes pour repreacutesenter le contenu dimages en mouvement deacutecrivant des objets et des situations de la vie courante Onze organismes geacuterant quatorze collections dimages ont reacutepondu agrave un questionnaire et ont eacuteteacute visiteacutes Les donneacutees recueillies ont permis de constater que les collections sont imposantes et quau moins la moitieacute dentre elles sont indexeacutees au niveau du plan agrave laide doutils lanshygagiers plus ou moins controcircleacutes souvent un theacutesaurus Mais malgreacute la similariteacute des collections les divers lexiques montrent peu de reshycoupements Les collections dimages en mouvement sont encore deacutecrites et indexeacutees selon des principes et des techniques eacutetablis locashylement peu normaliseacutes et rarement compatibles
Description and Indexing of Moving images Survey Results During the course of a recently completed research project the authors were interested in the vocabulary and structure of indexing languages used to describe the content of moving images of everyday objects and situations Eleven organisations managing fourteen collections of images completed a questionnaire and were visited The data leads to the conclusion that the collections are large and at least half are indexed with a more or less controlled vocabulary often a thesaurus Notwithstanding the similarities among the collections the vocabularies have little in common Moving image collections are often described and indexed according to in-house principles and techniques with little standardisation and are rarely compatible
Descripciocircn y clasificaciocircn de las colecciones de imacircgenes en movicircmiento resultados de un estudio En el contexto de un proyecto de investigaciocircn concluido recientemente nos interesocirc el leacutexico y la estructura de los lenguajes documentacirctes utilizados para describir el contenido de imacircgenes en movimiento que representan objetos y situaciones de la vida cotidiana Se visitaron y respondieron a un cuestionario once organismos que tienen a su cargo catorce colecciones de imacircgenes Los datos obtenidos demuestran que las colecciones son imponentes y que al menos la mitad de ellas estacircn catalogadas segucircn un sistema que se vale de herramientas idiomacircticas macircs o menos controladas con frecuencia un diccionario de referenda Pero a pesar de la similitud de las colecciones los distintos leacutexicos tienen poca relaciocircn entre ellos Las colecciones de imacircgenes en movimiento todavfa se describen y clasifican segucircn teacutecnicas y principios establecidos localmente poco normalizados y rara vez compatibles
De tous temps limage a eacuteteacute utiliseacutee pour repreacutesenter des concepts et des ideacutees et pour communiquer des messashyges La photographie le cineacutema la teacuteleacutevishysion et plus reacutecemment le deacuteveloppement fulgurant de la micro-informatique ont
confeacutereacute agrave limage une importance de plus en plus consideacuterable Quel quen soit le format et le meacutedium de preacutesentation limage est un mode important de commushynication dinformation dans la socieacuteteacute acshytuelle Limage joue un rocircle crucial dans
des secteurs de lactiviteacute humaine aussi dishyversifieacutes que la meacutedecine le journalisme la publiciteacute leacuteducation et le divertisseshyment Bien quune typologie officielle reste agrave eacutetablir on sait deacutejagrave que les collections laquovisuelles raquo prennent diffeacuterentes formes et
Ce projet a eacuteteacute financeacute par le Steven I Goidspiel Memorial Research Grant 1999 de la Special Libraries Association This project received funding from the Steven I Goidspiel Memorial Research Grant 1999 from the Special Libraries Association Este proyecto fue financiado por el Steven I Goidspiel Memorial Research Grant 1999 de la Asociacion de Bibliotecas Especiales (Special Libraries Association)
octobre-deacutecembre 2000 5
Documentation et bibliothegraveques
contiennent des eacuteleacutements associeacutes aux beaux-arts au dessin agrave la gravure agrave la photographie agrave linfographie etc1 Dans cette diversiteacute limage en mouvement occupe une place importante Limage en mouvement a eacuteteacute laquo conccedilue par son creacuteashyteur pour preacutesenter une information en mouvement agrave la projection souvent sur eacutecran fixeraquo (Turner 1998 84) Les images en mouvement sont une mine dor pour nombre dorganisations et dindividus et il importe de bien les deacutecrire pour en faire ressortir la richesse et la complexiteacute et pour en faciliter lidentification et le repeacuteshyrage Il semble pourtant que les collections dimages en mouvement soient encore deacuteshycrites et indexeacutees selon des principes et des techniques eacutetablis localement peu normaliseacutes et trop rarement compatibles
Notre projet de recherche compleacuteteacute au cours de lanneacutee 2000 portait sur le traishytement documentaire dans les collections dimages en mouvement Lobjectif geacuteneacuteshyral de leacutetude eacutetait den arriver agrave une meilshyleure compreacutehension des techniques et des outils lexicaux utiliseacutes pour la repreacuteshysentation des contenus dans ces collecshytions speacutecialiseacutees Nous nous sommes inshyteacuteresseacutes particuliegraverement au lexique et agrave la structure ainsi quaux opeacuterations de deacuteshyveloppement et de mise agrave jour des langashyges dindexation De notre objectif geacuteneacuteral deacutecoulaient en effet un certain nombre dobjectifs speacutecifiques deacuteterminer comshybien de termes agrave lexclusion des noms proshypres sont inclus dans les outils lexicaux utiliseacutes dans les collections dimages en mouvement nord-ameacutericaines estimer le rythme de croissance lexical de ces outils veacuterifier jusquagrave quel point les contenus lexishycaux sont similaires eacutevaluer lopportuniteacute de proposer un lexique unique pouvant ecirctre utiliseacute pour lindexation et le repeacuterage dans la majoriteacute des collections dimages en mouvement repreacutesentant des objets et des situations de la vie courante
Dans cet article nous preacutesentons dabord le cadre theacuteorique de notre eacutetude Nous traitons ensuite briegravevement des asshypects meacutethodologiques de notre projet de recherche avant de deacutecrire les principaux reacutesultats obtenus et den proposer une inshyterpreacutetation critique
Probleacutematique et cadre theacuteorique
Limage et les collections dimages
Les images fixes ou en mouvement sont omnipreacutesentes dans notre quotidien Elles existent sur diffeacuterents supports du papier au numeacuterique en passant par la pelshylicule Elles sont par nature artistiques hisshytoriques ou simplement repreacutesentatives de situations de la vie courante Nous somshymes exposeacutes aux images dans toutes les sphegraveres de notre vie personnelle sociale et professionnelle La socieacuteteacute dans lashyquelle nous vivons donne agrave limage une place de premier plan (Brown et al 1996 107 Armitage and Enser 1997 287) Le prestige de limage fait dailleurs en sorte que la repreacutesentation textuelle nest plus neacutecessairement le paradigme dominant lorsquil sagit dinformer ou dinstruire (Id 287)
Dimportantes collections dimages sont disponibles dans les bibliothegraveques pushybliques ou speacutecialiseacutees dans les centres de documentation et dans toute autre orgashynisation pour laquelle ce type de docushyment constitue une ressource incontourshynable Gracircce aux reacutecents progregraves de linforshymatique et au deacuteveloppement du reacuteseau Internet nous assistons actuellement agrave une migration des supports des collecshytions complegravetes dimages se voyant transshyfeacutereacutees dun support mateacuteriel (la pellicule par exemple) vers un support eacutelectroshynique autant pour en assurer la conservashytion que pour en eacutelargir la diffusion
La valeur mecircme de ces collections ainsi que tous les efforts deacuteployeacutes pour deacuteshyvelopper des technologies encore plus pershyformantes qui en permettent lexploitation exigent la mise en place dun systegraveme effishycace de gestion Il importe en effet que le repeacuterage dun document particulier au sein dune collection donneacutee se fasse effishycacement et rapidement Sans la mise en place de nouvelles meacutethodes de stockage et de repeacuterage de limage il se pourrait que nous devions bientocirct faire face agrave des problegravemes difficiles sinon impossibles agrave reacutesoudre (Turner 19981)
La probleacutematique de lanalyse et de la repreacutesentation du contenu de limage est abordeacutee selon deux approches distinctes qui nont entre elles que peu de caracteacuterisshy
tiques communes (Cawkell 1992180) La premiegravere approche repose en grande partie sur la technologie et les meacutethodes statistiques Les speacutecialistes et chershycheurs impliqueacutes dans ce secteur sont dashyvantage inteacuteresseacutes par la reconnaissance des formes et le traitement automatique de limage Quelques applications de ce courant sont lieacutees par exemple au deacuteveshyloppement de theacutesaurus imageacutes comme celui de la NASA (Seloff 1990 Rorvig et al 1999) ou encore aux theacutesaurus utiliseacutes pour la gestion des collections dimages geacuteographiques (Ramsey et al 1999)
La seconde approche repose plutocirct sur lintervention humaine et sinspire granshydement des meacutethodes de travail deacutevelopshypeacutees au cours des ans pour la gestion des documents textuels par les professionnels de linformation documentaire Il y est donc question de description de classificashytion et dindexation Un travail important dobservation et danalyse a dailleurs deacutejagrave eacuteteacute reacutealiseacute en ce qui concerne les collecshytions de documents visuels agrave titre dexemshyples voir les travaux de Shatford (1986 1994) de Yee (1993) de Cawkell (1993 a 1993 b) et de Rasmussen (1997)
Est-il possible et souhaitable dapplishyquer aux collections de ressources visuelshyles les techniques danalyse et de repreacuteshysentation des contenus mises au point pour les documents textuels Agrave cette question aucune reacuteponse simple na enshycore eacuteteacute proposeacutee En ce qui concerne plus particuliegraverement les images en moushyvement il semble que les techniques deacutejagrave eacuteprouveacutees pour stocker et retrouver les doshycuments textuels ne soient pas toujours adeacutequates (Turner 1998 21) Turner croit que dans certaines situations il est preacutefeacuteshyrable dindexer les images en mouvement plan par plan plutocirct que sur la base du doshycument dans son entier (Id 53 75) En compleacutement de limage le texte est utiliseacute pour creacuteer des meacutetadonneacutees qui serviront lors de la recherche Cette information desshycriptive est dautant plus importante quelle ne peut pas toujours ecirctre infeacutereacutee de limage elle-mecircme (Turner Hudon and Devin 2000)
1 Pour un essai de typologie et de repreacutesentation vishysuelle voir Groupe deacutepartemental de recherche en information visuelle (GRTV) de lEcole de bibliotheacute-conomie et des sciences de linformation Universiteacute de Montreacuteal 1998 Vunivers des collections visuelles = The world of visual collections Affiche recto-verso 91 x 61 cm
6 janvier-mars 2001
Documentation et bibliothegraveques
Compte tenu de lexpansion rapide des collections dimages de la quantiteacute dinformation quelles contiennent et des sommes importantes neacutecessaires agrave leur deacuteveloppement et agrave leur exploitation il deshyvient essentiel que soient deacuteveloppeacutees et implanteacutees des meacutethodes communes de gestion de ces collections autant pour reshytrouver rapidement le mateacuteriel dont nous avons besoin que pour partager les resshysources informationnelles que nous posseacuteshydons deacutejagrave Une faccedilon dy arriver par exemple serait de proceacuteder agrave lindexation des ressources de diverses collections agrave laide dun theacutesaurus commun
Analyse et repreacutesentation du contenu de limage en mouvement
Agrave la diffeacuterence de la majoriteacute des textes limage peut ecirctre analyseacutee et intershypreacuteteacutee de diverses maniegraveres Panofsky (1955) suggegravere que lon peut extraire de limage trois niveaux de signification Le premier niveau qualifieacute de preacuteconogra-phique porte sur le sujet primaire ou natushyrel du document Le second niveau liconoshygraphique sinteacuteresse au sujet secondaire ou conventionnel Le troisiegraveme niveau qualifieacute diconologique sattarde au sujet tertiaire ou au contenu symbolique Dans ses travaux baseacutes sur les notions avanshyceacutees par Panofsky Shatford (1986) met dashyvantage laccent sur les premier et second niveaux pour distinguer entre lofness et laboutnessde limage Lohessfait ici reacutefeacuteshyrence agrave la description pure et simple du contenu de la ressource visuelle (ie ce quon y voit) alors que Yaboutness satshytarde agrave linterpreacutetation ou agrave la signification du document (ie ce quon y lit)
Une image fixe ou en mouvement contient une grande varieacuteteacute dinformations et elle peut signifier diffeacuterentes choses pour diffeacuterentes personnes (Id 42) Ce fait peut ecirctre probleacutematique dans la persshypective dune normalisation de la descripshytion en vue du repeacuterage et cest ce qui a ameneacute lOffice national du film du Canada par exemple agrave indexer les stockshots au premier niveau de signification seulement (Turner 1990 12) Il y a lieu de croire que la majoriteacute des collections dimages en mouvement sont ainsi indexeacutees et que les descripteurs neacutecessaires agrave la repreacutesentashytion des contenus nommeront des entiteacutes concregravetes (par exemple un chat et une
chaise) plutocirct que des notions abstraites (par exemple la quieacutetude ou le confort) Dans un tel contexte lutilisation dun theacuteshysaurus preacutesentera un inteacuterecirct certain Le controcircle lexical et structurel offert par le theacutesaurus devrait contribuer agrave ameacuteliorer laccegraves au contenu de la collection agrave reacuteshyduire le bruit et le silence au repeacuterage agrave augmenter le taux de preacutecision et agrave mieux satisfaire lutilisateur qui pourrait ainsi troushyver ce quil cherche sans perte excessive de temps
Le theacutesaurus est un outil dont le deacuteveshyloppement repose sur un ensemble de principes et de regravegles eacutenonceacutes dans des normes internationales (Hudon 1994 75-76) Les descriptions de loutil theacutesaurus rendent compte agrave la fois de sa structure et de sa fonction
Un theacutesaurus est une liste dautoriteacute orgashyniseacutee de descripteurs et de non-descripshyteurs obeacuteissant agrave des regravegles terminologishyques propres et relieacutes entre eux par des reshylations seacutemantiques (hieacuterarchiques assoshyciatives ou deacutequivalence) Cette liste sert agrave traduire en un langage artificiel deacuteshypourvu dambiguiumlteacute des notions exprishymeacutees en langage naturel (Association franccedilaise de normalisation 1981)
Le theacutesaurus est un outil dynamique capable de sadapter aux nouvelles reacutealishyteacutes et aux nouveaux besoins dans les orgashynisations ougrave il est utiliseacute Son lexique sera augmenteacute et bonifieacute pour mieux traduire les requecirctes des utilisateurs Le theacutesaurus est cependant un outil relativement exclushysif normalement deacuteveloppeacute pour deacutecrire un domaine bien deacutelimiteacute et refleacutetant les particulariteacutes propres agrave une collectiviteacute dusagers (Van Slype 1987 117) Contraishyrement aux scheacutemas de classification doshycumentaire et aux reacutepertoires de vedettes-matiegraveres le theacutesaurus traditionnel nest jamais encyclopeacutedique
Quelques theacutesaurus ont eacuteteacute creacuteeacutes speacutecifiquement pour lindexation des docushyments visuels (mateacuteriel artistique photos diapositives films ou plans) Au nombre de ces derniers le plus connu est le Art and Architecture Thesaurus (AAT)2 dont la gestion est assureacutee par la Jean-Paul-Getty Foundation Le y4ATpropose une tershyminologie normaliseacutee de 40 000 termes couvrant lart et larchitecture de lAntiquishyteacute au temps preacutesent Le Thesaurus for Grashyphic Materials (TGM)3 de la Library of Conshygress offre pour sa part une seacuterie de desshycripteurs permettant lindexation de mateacuteshy
riel graphique incluant les imprimeacutes les photographies les dessins les bandes dessineacutees les affiches et les plans archishytecturaux Au Canada il faut mentionner le theacutesaurus de lOffice national du film du Canada (ONF) deacuteveloppeacute agrave partir de 1987 pour faciliter lindexation des stockshyshots conserveacutes agrave la cineacutemathegraveque des plans darchives Seacutecartant davantage des approches de repreacutesentation traditionshynelles quelques theacutesaurus visuels visual thesauri) sont aussi disponibles Ces theacuteshysaurus repreacutesentent les objets par limage plutocirct que par le texte Agrave laide de ces imashyges-concepts il est possible de repeacuterer une seacuterie de ressources visuelles offrant une repreacutesentation de lobjet rechercheacute Cette technique permet dacceacuteder aux imashyges sans avoir agrave recourir au texte (Ras-mussen 1997 182) un avantage certain en environnement multilingue Le NASA Visual Thesaurus deacuteveloppeacute pour faciliter laccegraves aux archives (films) de la NASA (Johnson Space Center) est repreacutesentatif de cette cateacutegorie doutils
Le deacuteveloppement dun theacutesaurus est un travail complexe reacutealiseacute en une seacuteshyquence deacutetapes neacutecessaires et dopeacuterashytions intellectuelles devant mener agrave un grand nombre de deacutecisions Leacutetape de leacutelaboration du lexique en est une de preshymiegravere importance Que les descripteurs proviennent de sources de reacutefeacuterence des images agrave indexer ou des questions des utishylisateurs ils doivent nommer clairement et avec suffisamment de preacutecision les objets repreacutesenteacutes dans les images agrave deacutecrire
Certaines sources plus anecdoti-ques que formelles suggegraverent que le nombre de descripteurs neacutecessaires agrave linshydexation dune collection dimages en moushyvement est en fait limiteacute refleacutetant en cela un pheacutenomegravene reconnu dans la langue nashyturelle ougrave le nombre de mots disponibles est de beaucoup supeacuterieur au nombre de mots utiliseacutes dans le discours et essentiels agrave la communication dinformation4 Un nombre plus restreint quon pourrait le croire de descripteurs (noms communs seulement) serait donc suffisant pour deacuteshycrire une majoriteacute de cateacutegories de personshynes dobjets et deacuteveacutenements de la vie
2 lthttp smVapubgettyeduaat_browsergt (Page conshysulteacutee le 3 feacutevrier 2001)
3 lthttplcweblocgovrrprinttgmlgt et lthttp lcweblocgovrrprinttgm2gt(Pages consulteacutees le 3 feacutevrier 2001)
4 Guiraud indique que 4000 mots couvrent 975 de nimporte quel texte (1960 93)
janvier-mars 2001 7
Documentation et bibliothegraveques
n ^mmim^m^^agrave^mmMMMiim^Mmagravewmmi^
Tableau 1 Le contenu des collections
TYPE ET FORMAT NOMBRE DE
COLLECTIONS
Film
8 mm
16 mm
35 mm
72 mm
Autres (film)
Videacuteo
34 po U-matic
1 po
2po
Beacutetacam
Autres (videacuteo)
11
8
5
13
10
Autres formats
Disque optique etc 5
r ^ M ^ J ^ A i l ^ ^
J courante tels que repreacutesenteacutes dans les resshysources visuelles Cette hypothegravese est-elle conforme agrave la reacutealiteacute Si tel est le cas un lexique commun pourrait peut-ecirctre sufshyfire agrave la description de collections dimashyges en mouvement dans des organisashytions varieacutees
Meacutethodologie
Organisations participantes
Trente-trois organisations5 reacutepondant agrave des critegraveres de seacutelection preacuteeacutetablis ont eacuteteacute identifieacutees comme participantes potenshytielles agrave ce projet (liste agrave lAnnexe 1) Les organisations seacutelectionneacutees geacuteraient deshypuis au moins cinq ans des collections dimages en mouvement de nature autre quartistique Chacune de ces organisashytions a reccedilu une trousse dinformation sur le projet accompagneacutee dune invitation agrave participer agrave leacutetude Au total trois prises de contact preacuteliminaires ont eacuteteacute tenteacutees
Vingt-deux reacuteponses ont eacuteteacute obteshynues (67) Onze organisations (50) ont accepteacute de participer au projet alors que neuf autres (41 ) refusaient de simshypliquer plus avant Les refus provenaient surtout du secteur priveacute pour qui la contrishybution agrave lavancement de la recherche
Tableau 2 Volume des collections
NOMBRE DE NOMBRE TITRES DHEURES
Cl
C2
C3
C4
Ccedil5
C6
C7
C8
C9
CIO
Cil
C12
C13
C14
4 962
14 000
nd
36 848
11755
100 000
nd
nd
50 000
nd
18 500
94 732
5 600
nd
nd
3 800
nd
nd
750
nd
nd
nd
17 500
nd
17 848
nd
nd
nd
sectfpound^m^s^tf^^mf^meacutemm- _r nest pas neacutecessairement une prioriteacute et parce que bon nombre de donneacutees y sont consideacutereacutees comme leur proprieacuteteacute Deux organisations (9) initialement inteacuteresshyseacutees nont jamais donneacute de reacuteponse deacutefinishytive
Chaque organisation participante disshyposait dau moins une collection dimages en mouvement Lensemble des 11 organishysations participantes geacuterait un total de 14 collections
Questionnaire
Les organisations participantes ont reacuteshypondu agrave un questionnaire conccedilu speacutecialeshyment pour ce projet de recherche Le quesshytionnaire disponible en franccedilais et en anshyglais comprenait quatre sections distincshytes lidentification du milieu la caracteacuterisa-tion des collections le mode de gestion des collections la caracteacuterisation des oushytils langagiers utiliseacutes pour lindexation et le repeacuterage
Visite des milieux et entrevues
La visite des milieux a eacuteteacute une eacutetape importante dans notre processus de cueilshylette des donneacutees Une entrevue avec un reacutepondant de lorganisation hocircte a permis de veacuterifier et de compleacuteter les donneacutees
obtenues par les reacuteponses au questionshynaire Un canevas dentrevue structureacute autour de questions ouvertes a servi de cadre de reacutefeacuterence Tous nos reacutepondants eacutetaient associeacutes de tregraves pregraves agrave la gestion des collections et tous posseacutedaient une bonne connaissance de leur milieu des collections et des instruments (bases de donneacutees theacutesaurus etc) servant agrave la gesshytion de celles-ci La visite des milieux a aussi permis de consulter et parfois mecircme dobtenir copie de diffeacuterents documents susceptibles de contenir le type dinformashytion dont nous avions besoin (par exemple un theacutesaurus une politique dinshydexation etc)
Les organisations participantes se sont montreacutees particuliegraverement coopeacuteratishyves et precirctes agrave partager les donneacutees qui nous inteacuteressaient lorsquelles eacutetaient disshyponibles
Reacutesultats et discussion Chacune de nos organisations a une
structure de fonctionnement qui lui est propre et qui reflegravete la philosophie les moshydes de gestion les objectifs et les orientashytions de leacutetablissement Les impeacuteratifs de temps et de production y sont omnipreacuteshysents Agrave loccasion ces impeacuteratifs se trashyduisent concregravetement par la duplication dun mateacuteriel deacutejagrave disponible dans la colshylection mais non retrouveacute dans lheure qui suit la demande dune eacutequipe de producshytion Agrave ces impeacuteratifs sajoutent des exigenshyces de rationalisation budgeacutetaire qui implishyquent de laquofaire plus avec moinsraquo Cette combinaison apparaicirct de prime abord diffishycilement conciliable avec des investisseshyments substantiels dans des outils de gesshytion documentaire complexes et en personshynel speacutecialiseacute
Identification des organisations
Les lieux ougrave sont geacutereacutees les collecshytions dimages en mouvement sont connus sous plusieurs deacutenominations parshyfois mecircme au sein dune mecircme organisa-
5 La plupart des ces organisations eacutetaient repreacutesenteacutees au congregraves de lAssociation of Moving Images Archishyvists (AMIA) tenu agrave Montreacuteal en novembre 1999 Les premiers contacts informels ont eacuteteacute faits lors de ce congregraves
8 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
Description et indexation des collections dimages en mouvement reacutesultats dune enquecircte
Michegravele Hudon Professeure adjointe EBSI Universiteacute de Montreacuteal
James Turner Professeur agreacutegeacute EBSI Universiteacute de Montreacuteal
Yves Devin Agent de recherche EBSI Universiteacute de Montreacuteal
Dans le cadre dun projet de recherche reacutecemment compleacuteteacute nous nous sommes inteacuteresseacutes au lexique et agrave la structure des langages doshycumentaires utiliseacutes pour repreacutesenter le contenu dimages en mouvement deacutecrivant des objets et des situations de la vie courante Onze organismes geacuterant quatorze collections dimages ont reacutepondu agrave un questionnaire et ont eacuteteacute visiteacutes Les donneacutees recueillies ont permis de constater que les collections sont imposantes et quau moins la moitieacute dentre elles sont indexeacutees au niveau du plan agrave laide doutils lanshygagiers plus ou moins controcircleacutes souvent un theacutesaurus Mais malgreacute la similariteacute des collections les divers lexiques montrent peu de reshycoupements Les collections dimages en mouvement sont encore deacutecrites et indexeacutees selon des principes et des techniques eacutetablis locashylement peu normaliseacutes et rarement compatibles
Description and Indexing of Moving images Survey Results During the course of a recently completed research project the authors were interested in the vocabulary and structure of indexing languages used to describe the content of moving images of everyday objects and situations Eleven organisations managing fourteen collections of images completed a questionnaire and were visited The data leads to the conclusion that the collections are large and at least half are indexed with a more or less controlled vocabulary often a thesaurus Notwithstanding the similarities among the collections the vocabularies have little in common Moving image collections are often described and indexed according to in-house principles and techniques with little standardisation and are rarely compatible
Descripciocircn y clasificaciocircn de las colecciones de imacircgenes en movicircmiento resultados de un estudio En el contexto de un proyecto de investigaciocircn concluido recientemente nos interesocirc el leacutexico y la estructura de los lenguajes documentacirctes utilizados para describir el contenido de imacircgenes en movimiento que representan objetos y situaciones de la vida cotidiana Se visitaron y respondieron a un cuestionario once organismos que tienen a su cargo catorce colecciones de imacircgenes Los datos obtenidos demuestran que las colecciones son imponentes y que al menos la mitad de ellas estacircn catalogadas segucircn un sistema que se vale de herramientas idiomacircticas macircs o menos controladas con frecuencia un diccionario de referenda Pero a pesar de la similitud de las colecciones los distintos leacutexicos tienen poca relaciocircn entre ellos Las colecciones de imacircgenes en movimiento todavfa se describen y clasifican segucircn teacutecnicas y principios establecidos localmente poco normalizados y rara vez compatibles
De tous temps limage a eacuteteacute utiliseacutee pour repreacutesenter des concepts et des ideacutees et pour communiquer des messashyges La photographie le cineacutema la teacuteleacutevishysion et plus reacutecemment le deacuteveloppement fulgurant de la micro-informatique ont
confeacutereacute agrave limage une importance de plus en plus consideacuterable Quel quen soit le format et le meacutedium de preacutesentation limage est un mode important de commushynication dinformation dans la socieacuteteacute acshytuelle Limage joue un rocircle crucial dans
des secteurs de lactiviteacute humaine aussi dishyversifieacutes que la meacutedecine le journalisme la publiciteacute leacuteducation et le divertisseshyment Bien quune typologie officielle reste agrave eacutetablir on sait deacutejagrave que les collections laquovisuelles raquo prennent diffeacuterentes formes et
Ce projet a eacuteteacute financeacute par le Steven I Goidspiel Memorial Research Grant 1999 de la Special Libraries Association This project received funding from the Steven I Goidspiel Memorial Research Grant 1999 from the Special Libraries Association Este proyecto fue financiado por el Steven I Goidspiel Memorial Research Grant 1999 de la Asociacion de Bibliotecas Especiales (Special Libraries Association)
octobre-deacutecembre 2000 5
Documentation et bibliothegraveques
contiennent des eacuteleacutements associeacutes aux beaux-arts au dessin agrave la gravure agrave la photographie agrave linfographie etc1 Dans cette diversiteacute limage en mouvement occupe une place importante Limage en mouvement a eacuteteacute laquo conccedilue par son creacuteashyteur pour preacutesenter une information en mouvement agrave la projection souvent sur eacutecran fixeraquo (Turner 1998 84) Les images en mouvement sont une mine dor pour nombre dorganisations et dindividus et il importe de bien les deacutecrire pour en faire ressortir la richesse et la complexiteacute et pour en faciliter lidentification et le repeacuteshyrage Il semble pourtant que les collections dimages en mouvement soient encore deacuteshycrites et indexeacutees selon des principes et des techniques eacutetablis localement peu normaliseacutes et trop rarement compatibles
Notre projet de recherche compleacuteteacute au cours de lanneacutee 2000 portait sur le traishytement documentaire dans les collections dimages en mouvement Lobjectif geacuteneacuteshyral de leacutetude eacutetait den arriver agrave une meilshyleure compreacutehension des techniques et des outils lexicaux utiliseacutes pour la repreacuteshysentation des contenus dans ces collecshytions speacutecialiseacutees Nous nous sommes inshyteacuteresseacutes particuliegraverement au lexique et agrave la structure ainsi quaux opeacuterations de deacuteshyveloppement et de mise agrave jour des langashyges dindexation De notre objectif geacuteneacuteral deacutecoulaient en effet un certain nombre dobjectifs speacutecifiques deacuteterminer comshybien de termes agrave lexclusion des noms proshypres sont inclus dans les outils lexicaux utiliseacutes dans les collections dimages en mouvement nord-ameacutericaines estimer le rythme de croissance lexical de ces outils veacuterifier jusquagrave quel point les contenus lexishycaux sont similaires eacutevaluer lopportuniteacute de proposer un lexique unique pouvant ecirctre utiliseacute pour lindexation et le repeacuterage dans la majoriteacute des collections dimages en mouvement repreacutesentant des objets et des situations de la vie courante
Dans cet article nous preacutesentons dabord le cadre theacuteorique de notre eacutetude Nous traitons ensuite briegravevement des asshypects meacutethodologiques de notre projet de recherche avant de deacutecrire les principaux reacutesultats obtenus et den proposer une inshyterpreacutetation critique
Probleacutematique et cadre theacuteorique
Limage et les collections dimages
Les images fixes ou en mouvement sont omnipreacutesentes dans notre quotidien Elles existent sur diffeacuterents supports du papier au numeacuterique en passant par la pelshylicule Elles sont par nature artistiques hisshytoriques ou simplement repreacutesentatives de situations de la vie courante Nous somshymes exposeacutes aux images dans toutes les sphegraveres de notre vie personnelle sociale et professionnelle La socieacuteteacute dans lashyquelle nous vivons donne agrave limage une place de premier plan (Brown et al 1996 107 Armitage and Enser 1997 287) Le prestige de limage fait dailleurs en sorte que la repreacutesentation textuelle nest plus neacutecessairement le paradigme dominant lorsquil sagit dinformer ou dinstruire (Id 287)
Dimportantes collections dimages sont disponibles dans les bibliothegraveques pushybliques ou speacutecialiseacutees dans les centres de documentation et dans toute autre orgashynisation pour laquelle ce type de docushyment constitue une ressource incontourshynable Gracircce aux reacutecents progregraves de linforshymatique et au deacuteveloppement du reacuteseau Internet nous assistons actuellement agrave une migration des supports des collecshytions complegravetes dimages se voyant transshyfeacutereacutees dun support mateacuteriel (la pellicule par exemple) vers un support eacutelectroshynique autant pour en assurer la conservashytion que pour en eacutelargir la diffusion
La valeur mecircme de ces collections ainsi que tous les efforts deacuteployeacutes pour deacuteshyvelopper des technologies encore plus pershyformantes qui en permettent lexploitation exigent la mise en place dun systegraveme effishycace de gestion Il importe en effet que le repeacuterage dun document particulier au sein dune collection donneacutee se fasse effishycacement et rapidement Sans la mise en place de nouvelles meacutethodes de stockage et de repeacuterage de limage il se pourrait que nous devions bientocirct faire face agrave des problegravemes difficiles sinon impossibles agrave reacutesoudre (Turner 19981)
La probleacutematique de lanalyse et de la repreacutesentation du contenu de limage est abordeacutee selon deux approches distinctes qui nont entre elles que peu de caracteacuterisshy
tiques communes (Cawkell 1992180) La premiegravere approche repose en grande partie sur la technologie et les meacutethodes statistiques Les speacutecialistes et chershycheurs impliqueacutes dans ce secteur sont dashyvantage inteacuteresseacutes par la reconnaissance des formes et le traitement automatique de limage Quelques applications de ce courant sont lieacutees par exemple au deacuteveshyloppement de theacutesaurus imageacutes comme celui de la NASA (Seloff 1990 Rorvig et al 1999) ou encore aux theacutesaurus utiliseacutes pour la gestion des collections dimages geacuteographiques (Ramsey et al 1999)
La seconde approche repose plutocirct sur lintervention humaine et sinspire granshydement des meacutethodes de travail deacutevelopshypeacutees au cours des ans pour la gestion des documents textuels par les professionnels de linformation documentaire Il y est donc question de description de classificashytion et dindexation Un travail important dobservation et danalyse a dailleurs deacutejagrave eacuteteacute reacutealiseacute en ce qui concerne les collecshytions de documents visuels agrave titre dexemshyples voir les travaux de Shatford (1986 1994) de Yee (1993) de Cawkell (1993 a 1993 b) et de Rasmussen (1997)
Est-il possible et souhaitable dapplishyquer aux collections de ressources visuelshyles les techniques danalyse et de repreacuteshysentation des contenus mises au point pour les documents textuels Agrave cette question aucune reacuteponse simple na enshycore eacuteteacute proposeacutee En ce qui concerne plus particuliegraverement les images en moushyvement il semble que les techniques deacutejagrave eacuteprouveacutees pour stocker et retrouver les doshycuments textuels ne soient pas toujours adeacutequates (Turner 1998 21) Turner croit que dans certaines situations il est preacutefeacuteshyrable dindexer les images en mouvement plan par plan plutocirct que sur la base du doshycument dans son entier (Id 53 75) En compleacutement de limage le texte est utiliseacute pour creacuteer des meacutetadonneacutees qui serviront lors de la recherche Cette information desshycriptive est dautant plus importante quelle ne peut pas toujours ecirctre infeacutereacutee de limage elle-mecircme (Turner Hudon and Devin 2000)
1 Pour un essai de typologie et de repreacutesentation vishysuelle voir Groupe deacutepartemental de recherche en information visuelle (GRTV) de lEcole de bibliotheacute-conomie et des sciences de linformation Universiteacute de Montreacuteal 1998 Vunivers des collections visuelles = The world of visual collections Affiche recto-verso 91 x 61 cm
6 janvier-mars 2001
Documentation et bibliothegraveques
Compte tenu de lexpansion rapide des collections dimages de la quantiteacute dinformation quelles contiennent et des sommes importantes neacutecessaires agrave leur deacuteveloppement et agrave leur exploitation il deshyvient essentiel que soient deacuteveloppeacutees et implanteacutees des meacutethodes communes de gestion de ces collections autant pour reshytrouver rapidement le mateacuteriel dont nous avons besoin que pour partager les resshysources informationnelles que nous posseacuteshydons deacutejagrave Une faccedilon dy arriver par exemple serait de proceacuteder agrave lindexation des ressources de diverses collections agrave laide dun theacutesaurus commun
Analyse et repreacutesentation du contenu de limage en mouvement
Agrave la diffeacuterence de la majoriteacute des textes limage peut ecirctre analyseacutee et intershypreacuteteacutee de diverses maniegraveres Panofsky (1955) suggegravere que lon peut extraire de limage trois niveaux de signification Le premier niveau qualifieacute de preacuteconogra-phique porte sur le sujet primaire ou natushyrel du document Le second niveau liconoshygraphique sinteacuteresse au sujet secondaire ou conventionnel Le troisiegraveme niveau qualifieacute diconologique sattarde au sujet tertiaire ou au contenu symbolique Dans ses travaux baseacutes sur les notions avanshyceacutees par Panofsky Shatford (1986) met dashyvantage laccent sur les premier et second niveaux pour distinguer entre lofness et laboutnessde limage Lohessfait ici reacutefeacuteshyrence agrave la description pure et simple du contenu de la ressource visuelle (ie ce quon y voit) alors que Yaboutness satshytarde agrave linterpreacutetation ou agrave la signification du document (ie ce quon y lit)
Une image fixe ou en mouvement contient une grande varieacuteteacute dinformations et elle peut signifier diffeacuterentes choses pour diffeacuterentes personnes (Id 42) Ce fait peut ecirctre probleacutematique dans la persshypective dune normalisation de la descripshytion en vue du repeacuterage et cest ce qui a ameneacute lOffice national du film du Canada par exemple agrave indexer les stockshots au premier niveau de signification seulement (Turner 1990 12) Il y a lieu de croire que la majoriteacute des collections dimages en mouvement sont ainsi indexeacutees et que les descripteurs neacutecessaires agrave la repreacutesentashytion des contenus nommeront des entiteacutes concregravetes (par exemple un chat et une
chaise) plutocirct que des notions abstraites (par exemple la quieacutetude ou le confort) Dans un tel contexte lutilisation dun theacuteshysaurus preacutesentera un inteacuterecirct certain Le controcircle lexical et structurel offert par le theacutesaurus devrait contribuer agrave ameacuteliorer laccegraves au contenu de la collection agrave reacuteshyduire le bruit et le silence au repeacuterage agrave augmenter le taux de preacutecision et agrave mieux satisfaire lutilisateur qui pourrait ainsi troushyver ce quil cherche sans perte excessive de temps
Le theacutesaurus est un outil dont le deacuteveshyloppement repose sur un ensemble de principes et de regravegles eacutenonceacutes dans des normes internationales (Hudon 1994 75-76) Les descriptions de loutil theacutesaurus rendent compte agrave la fois de sa structure et de sa fonction
Un theacutesaurus est une liste dautoriteacute orgashyniseacutee de descripteurs et de non-descripshyteurs obeacuteissant agrave des regravegles terminologishyques propres et relieacutes entre eux par des reshylations seacutemantiques (hieacuterarchiques assoshyciatives ou deacutequivalence) Cette liste sert agrave traduire en un langage artificiel deacuteshypourvu dambiguiumlteacute des notions exprishymeacutees en langage naturel (Association franccedilaise de normalisation 1981)
Le theacutesaurus est un outil dynamique capable de sadapter aux nouvelles reacutealishyteacutes et aux nouveaux besoins dans les orgashynisations ougrave il est utiliseacute Son lexique sera augmenteacute et bonifieacute pour mieux traduire les requecirctes des utilisateurs Le theacutesaurus est cependant un outil relativement exclushysif normalement deacuteveloppeacute pour deacutecrire un domaine bien deacutelimiteacute et refleacutetant les particulariteacutes propres agrave une collectiviteacute dusagers (Van Slype 1987 117) Contraishyrement aux scheacutemas de classification doshycumentaire et aux reacutepertoires de vedettes-matiegraveres le theacutesaurus traditionnel nest jamais encyclopeacutedique
Quelques theacutesaurus ont eacuteteacute creacuteeacutes speacutecifiquement pour lindexation des docushyments visuels (mateacuteriel artistique photos diapositives films ou plans) Au nombre de ces derniers le plus connu est le Art and Architecture Thesaurus (AAT)2 dont la gestion est assureacutee par la Jean-Paul-Getty Foundation Le y4ATpropose une tershyminologie normaliseacutee de 40 000 termes couvrant lart et larchitecture de lAntiquishyteacute au temps preacutesent Le Thesaurus for Grashyphic Materials (TGM)3 de la Library of Conshygress offre pour sa part une seacuterie de desshycripteurs permettant lindexation de mateacuteshy
riel graphique incluant les imprimeacutes les photographies les dessins les bandes dessineacutees les affiches et les plans archishytecturaux Au Canada il faut mentionner le theacutesaurus de lOffice national du film du Canada (ONF) deacuteveloppeacute agrave partir de 1987 pour faciliter lindexation des stockshyshots conserveacutes agrave la cineacutemathegraveque des plans darchives Seacutecartant davantage des approches de repreacutesentation traditionshynelles quelques theacutesaurus visuels visual thesauri) sont aussi disponibles Ces theacuteshysaurus repreacutesentent les objets par limage plutocirct que par le texte Agrave laide de ces imashyges-concepts il est possible de repeacuterer une seacuterie de ressources visuelles offrant une repreacutesentation de lobjet rechercheacute Cette technique permet dacceacuteder aux imashyges sans avoir agrave recourir au texte (Ras-mussen 1997 182) un avantage certain en environnement multilingue Le NASA Visual Thesaurus deacuteveloppeacute pour faciliter laccegraves aux archives (films) de la NASA (Johnson Space Center) est repreacutesentatif de cette cateacutegorie doutils
Le deacuteveloppement dun theacutesaurus est un travail complexe reacutealiseacute en une seacuteshyquence deacutetapes neacutecessaires et dopeacuterashytions intellectuelles devant mener agrave un grand nombre de deacutecisions Leacutetape de leacutelaboration du lexique en est une de preshymiegravere importance Que les descripteurs proviennent de sources de reacutefeacuterence des images agrave indexer ou des questions des utishylisateurs ils doivent nommer clairement et avec suffisamment de preacutecision les objets repreacutesenteacutes dans les images agrave deacutecrire
Certaines sources plus anecdoti-ques que formelles suggegraverent que le nombre de descripteurs neacutecessaires agrave linshydexation dune collection dimages en moushyvement est en fait limiteacute refleacutetant en cela un pheacutenomegravene reconnu dans la langue nashyturelle ougrave le nombre de mots disponibles est de beaucoup supeacuterieur au nombre de mots utiliseacutes dans le discours et essentiels agrave la communication dinformation4 Un nombre plus restreint quon pourrait le croire de descripteurs (noms communs seulement) serait donc suffisant pour deacuteshycrire une majoriteacute de cateacutegories de personshynes dobjets et deacuteveacutenements de la vie
2 lthttp smVapubgettyeduaat_browsergt (Page conshysulteacutee le 3 feacutevrier 2001)
3 lthttplcweblocgovrrprinttgmlgt et lthttp lcweblocgovrrprinttgm2gt(Pages consulteacutees le 3 feacutevrier 2001)
4 Guiraud indique que 4000 mots couvrent 975 de nimporte quel texte (1960 93)
janvier-mars 2001 7
Documentation et bibliothegraveques
n ^mmim^m^^agrave^mmMMMiim^Mmagravewmmi^
Tableau 1 Le contenu des collections
TYPE ET FORMAT NOMBRE DE
COLLECTIONS
Film
8 mm
16 mm
35 mm
72 mm
Autres (film)
Videacuteo
34 po U-matic
1 po
2po
Beacutetacam
Autres (videacuteo)
11
8
5
13
10
Autres formats
Disque optique etc 5
r ^ M ^ J ^ A i l ^ ^
J courante tels que repreacutesenteacutes dans les resshysources visuelles Cette hypothegravese est-elle conforme agrave la reacutealiteacute Si tel est le cas un lexique commun pourrait peut-ecirctre sufshyfire agrave la description de collections dimashyges en mouvement dans des organisashytions varieacutees
Meacutethodologie
Organisations participantes
Trente-trois organisations5 reacutepondant agrave des critegraveres de seacutelection preacuteeacutetablis ont eacuteteacute identifieacutees comme participantes potenshytielles agrave ce projet (liste agrave lAnnexe 1) Les organisations seacutelectionneacutees geacuteraient deshypuis au moins cinq ans des collections dimages en mouvement de nature autre quartistique Chacune de ces organisashytions a reccedilu une trousse dinformation sur le projet accompagneacutee dune invitation agrave participer agrave leacutetude Au total trois prises de contact preacuteliminaires ont eacuteteacute tenteacutees
Vingt-deux reacuteponses ont eacuteteacute obteshynues (67) Onze organisations (50) ont accepteacute de participer au projet alors que neuf autres (41 ) refusaient de simshypliquer plus avant Les refus provenaient surtout du secteur priveacute pour qui la contrishybution agrave lavancement de la recherche
Tableau 2 Volume des collections
NOMBRE DE NOMBRE TITRES DHEURES
Cl
C2
C3
C4
Ccedil5
C6
C7
C8
C9
CIO
Cil
C12
C13
C14
4 962
14 000
nd
36 848
11755
100 000
nd
nd
50 000
nd
18 500
94 732
5 600
nd
nd
3 800
nd
nd
750
nd
nd
nd
17 500
nd
17 848
nd
nd
nd
sectfpound^m^s^tf^^mf^meacutemm- _r nest pas neacutecessairement une prioriteacute et parce que bon nombre de donneacutees y sont consideacutereacutees comme leur proprieacuteteacute Deux organisations (9) initialement inteacuteresshyseacutees nont jamais donneacute de reacuteponse deacutefinishytive
Chaque organisation participante disshyposait dau moins une collection dimages en mouvement Lensemble des 11 organishysations participantes geacuterait un total de 14 collections
Questionnaire
Les organisations participantes ont reacuteshypondu agrave un questionnaire conccedilu speacutecialeshyment pour ce projet de recherche Le quesshytionnaire disponible en franccedilais et en anshyglais comprenait quatre sections distincshytes lidentification du milieu la caracteacuterisa-tion des collections le mode de gestion des collections la caracteacuterisation des oushytils langagiers utiliseacutes pour lindexation et le repeacuterage
Visite des milieux et entrevues
La visite des milieux a eacuteteacute une eacutetape importante dans notre processus de cueilshylette des donneacutees Une entrevue avec un reacutepondant de lorganisation hocircte a permis de veacuterifier et de compleacuteter les donneacutees
obtenues par les reacuteponses au questionshynaire Un canevas dentrevue structureacute autour de questions ouvertes a servi de cadre de reacutefeacuterence Tous nos reacutepondants eacutetaient associeacutes de tregraves pregraves agrave la gestion des collections et tous posseacutedaient une bonne connaissance de leur milieu des collections et des instruments (bases de donneacutees theacutesaurus etc) servant agrave la gesshytion de celles-ci La visite des milieux a aussi permis de consulter et parfois mecircme dobtenir copie de diffeacuterents documents susceptibles de contenir le type dinformashytion dont nous avions besoin (par exemple un theacutesaurus une politique dinshydexation etc)
Les organisations participantes se sont montreacutees particuliegraverement coopeacuteratishyves et precirctes agrave partager les donneacutees qui nous inteacuteressaient lorsquelles eacutetaient disshyponibles
Reacutesultats et discussion Chacune de nos organisations a une
structure de fonctionnement qui lui est propre et qui reflegravete la philosophie les moshydes de gestion les objectifs et les orientashytions de leacutetablissement Les impeacuteratifs de temps et de production y sont omnipreacuteshysents Agrave loccasion ces impeacuteratifs se trashyduisent concregravetement par la duplication dun mateacuteriel deacutejagrave disponible dans la colshylection mais non retrouveacute dans lheure qui suit la demande dune eacutequipe de producshytion Agrave ces impeacuteratifs sajoutent des exigenshyces de rationalisation budgeacutetaire qui implishyquent de laquofaire plus avec moinsraquo Cette combinaison apparaicirct de prime abord diffishycilement conciliable avec des investisseshyments substantiels dans des outils de gesshytion documentaire complexes et en personshynel speacutecialiseacute
Identification des organisations
Les lieux ougrave sont geacutereacutees les collecshytions dimages en mouvement sont connus sous plusieurs deacutenominations parshyfois mecircme au sein dune mecircme organisa-
5 La plupart des ces organisations eacutetaient repreacutesenteacutees au congregraves de lAssociation of Moving Images Archishyvists (AMIA) tenu agrave Montreacuteal en novembre 1999 Les premiers contacts informels ont eacuteteacute faits lors de ce congregraves
8 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
contiennent des eacuteleacutements associeacutes aux beaux-arts au dessin agrave la gravure agrave la photographie agrave linfographie etc1 Dans cette diversiteacute limage en mouvement occupe une place importante Limage en mouvement a eacuteteacute laquo conccedilue par son creacuteashyteur pour preacutesenter une information en mouvement agrave la projection souvent sur eacutecran fixeraquo (Turner 1998 84) Les images en mouvement sont une mine dor pour nombre dorganisations et dindividus et il importe de bien les deacutecrire pour en faire ressortir la richesse et la complexiteacute et pour en faciliter lidentification et le repeacuteshyrage Il semble pourtant que les collections dimages en mouvement soient encore deacuteshycrites et indexeacutees selon des principes et des techniques eacutetablis localement peu normaliseacutes et trop rarement compatibles
Notre projet de recherche compleacuteteacute au cours de lanneacutee 2000 portait sur le traishytement documentaire dans les collections dimages en mouvement Lobjectif geacuteneacuteshyral de leacutetude eacutetait den arriver agrave une meilshyleure compreacutehension des techniques et des outils lexicaux utiliseacutes pour la repreacuteshysentation des contenus dans ces collecshytions speacutecialiseacutees Nous nous sommes inshyteacuteresseacutes particuliegraverement au lexique et agrave la structure ainsi quaux opeacuterations de deacuteshyveloppement et de mise agrave jour des langashyges dindexation De notre objectif geacuteneacuteral deacutecoulaient en effet un certain nombre dobjectifs speacutecifiques deacuteterminer comshybien de termes agrave lexclusion des noms proshypres sont inclus dans les outils lexicaux utiliseacutes dans les collections dimages en mouvement nord-ameacutericaines estimer le rythme de croissance lexical de ces outils veacuterifier jusquagrave quel point les contenus lexishycaux sont similaires eacutevaluer lopportuniteacute de proposer un lexique unique pouvant ecirctre utiliseacute pour lindexation et le repeacuterage dans la majoriteacute des collections dimages en mouvement repreacutesentant des objets et des situations de la vie courante
Dans cet article nous preacutesentons dabord le cadre theacuteorique de notre eacutetude Nous traitons ensuite briegravevement des asshypects meacutethodologiques de notre projet de recherche avant de deacutecrire les principaux reacutesultats obtenus et den proposer une inshyterpreacutetation critique
Probleacutematique et cadre theacuteorique
Limage et les collections dimages
Les images fixes ou en mouvement sont omnipreacutesentes dans notre quotidien Elles existent sur diffeacuterents supports du papier au numeacuterique en passant par la pelshylicule Elles sont par nature artistiques hisshytoriques ou simplement repreacutesentatives de situations de la vie courante Nous somshymes exposeacutes aux images dans toutes les sphegraveres de notre vie personnelle sociale et professionnelle La socieacuteteacute dans lashyquelle nous vivons donne agrave limage une place de premier plan (Brown et al 1996 107 Armitage and Enser 1997 287) Le prestige de limage fait dailleurs en sorte que la repreacutesentation textuelle nest plus neacutecessairement le paradigme dominant lorsquil sagit dinformer ou dinstruire (Id 287)
Dimportantes collections dimages sont disponibles dans les bibliothegraveques pushybliques ou speacutecialiseacutees dans les centres de documentation et dans toute autre orgashynisation pour laquelle ce type de docushyment constitue une ressource incontourshynable Gracircce aux reacutecents progregraves de linforshymatique et au deacuteveloppement du reacuteseau Internet nous assistons actuellement agrave une migration des supports des collecshytions complegravetes dimages se voyant transshyfeacutereacutees dun support mateacuteriel (la pellicule par exemple) vers un support eacutelectroshynique autant pour en assurer la conservashytion que pour en eacutelargir la diffusion
La valeur mecircme de ces collections ainsi que tous les efforts deacuteployeacutes pour deacuteshyvelopper des technologies encore plus pershyformantes qui en permettent lexploitation exigent la mise en place dun systegraveme effishycace de gestion Il importe en effet que le repeacuterage dun document particulier au sein dune collection donneacutee se fasse effishycacement et rapidement Sans la mise en place de nouvelles meacutethodes de stockage et de repeacuterage de limage il se pourrait que nous devions bientocirct faire face agrave des problegravemes difficiles sinon impossibles agrave reacutesoudre (Turner 19981)
La probleacutematique de lanalyse et de la repreacutesentation du contenu de limage est abordeacutee selon deux approches distinctes qui nont entre elles que peu de caracteacuterisshy
tiques communes (Cawkell 1992180) La premiegravere approche repose en grande partie sur la technologie et les meacutethodes statistiques Les speacutecialistes et chershycheurs impliqueacutes dans ce secteur sont dashyvantage inteacuteresseacutes par la reconnaissance des formes et le traitement automatique de limage Quelques applications de ce courant sont lieacutees par exemple au deacuteveshyloppement de theacutesaurus imageacutes comme celui de la NASA (Seloff 1990 Rorvig et al 1999) ou encore aux theacutesaurus utiliseacutes pour la gestion des collections dimages geacuteographiques (Ramsey et al 1999)
La seconde approche repose plutocirct sur lintervention humaine et sinspire granshydement des meacutethodes de travail deacutevelopshypeacutees au cours des ans pour la gestion des documents textuels par les professionnels de linformation documentaire Il y est donc question de description de classificashytion et dindexation Un travail important dobservation et danalyse a dailleurs deacutejagrave eacuteteacute reacutealiseacute en ce qui concerne les collecshytions de documents visuels agrave titre dexemshyples voir les travaux de Shatford (1986 1994) de Yee (1993) de Cawkell (1993 a 1993 b) et de Rasmussen (1997)
Est-il possible et souhaitable dapplishyquer aux collections de ressources visuelshyles les techniques danalyse et de repreacuteshysentation des contenus mises au point pour les documents textuels Agrave cette question aucune reacuteponse simple na enshycore eacuteteacute proposeacutee En ce qui concerne plus particuliegraverement les images en moushyvement il semble que les techniques deacutejagrave eacuteprouveacutees pour stocker et retrouver les doshycuments textuels ne soient pas toujours adeacutequates (Turner 1998 21) Turner croit que dans certaines situations il est preacutefeacuteshyrable dindexer les images en mouvement plan par plan plutocirct que sur la base du doshycument dans son entier (Id 53 75) En compleacutement de limage le texte est utiliseacute pour creacuteer des meacutetadonneacutees qui serviront lors de la recherche Cette information desshycriptive est dautant plus importante quelle ne peut pas toujours ecirctre infeacutereacutee de limage elle-mecircme (Turner Hudon and Devin 2000)
1 Pour un essai de typologie et de repreacutesentation vishysuelle voir Groupe deacutepartemental de recherche en information visuelle (GRTV) de lEcole de bibliotheacute-conomie et des sciences de linformation Universiteacute de Montreacuteal 1998 Vunivers des collections visuelles = The world of visual collections Affiche recto-verso 91 x 61 cm
6 janvier-mars 2001
Documentation et bibliothegraveques
Compte tenu de lexpansion rapide des collections dimages de la quantiteacute dinformation quelles contiennent et des sommes importantes neacutecessaires agrave leur deacuteveloppement et agrave leur exploitation il deshyvient essentiel que soient deacuteveloppeacutees et implanteacutees des meacutethodes communes de gestion de ces collections autant pour reshytrouver rapidement le mateacuteriel dont nous avons besoin que pour partager les resshysources informationnelles que nous posseacuteshydons deacutejagrave Une faccedilon dy arriver par exemple serait de proceacuteder agrave lindexation des ressources de diverses collections agrave laide dun theacutesaurus commun
Analyse et repreacutesentation du contenu de limage en mouvement
Agrave la diffeacuterence de la majoriteacute des textes limage peut ecirctre analyseacutee et intershypreacuteteacutee de diverses maniegraveres Panofsky (1955) suggegravere que lon peut extraire de limage trois niveaux de signification Le premier niveau qualifieacute de preacuteconogra-phique porte sur le sujet primaire ou natushyrel du document Le second niveau liconoshygraphique sinteacuteresse au sujet secondaire ou conventionnel Le troisiegraveme niveau qualifieacute diconologique sattarde au sujet tertiaire ou au contenu symbolique Dans ses travaux baseacutes sur les notions avanshyceacutees par Panofsky Shatford (1986) met dashyvantage laccent sur les premier et second niveaux pour distinguer entre lofness et laboutnessde limage Lohessfait ici reacutefeacuteshyrence agrave la description pure et simple du contenu de la ressource visuelle (ie ce quon y voit) alors que Yaboutness satshytarde agrave linterpreacutetation ou agrave la signification du document (ie ce quon y lit)
Une image fixe ou en mouvement contient une grande varieacuteteacute dinformations et elle peut signifier diffeacuterentes choses pour diffeacuterentes personnes (Id 42) Ce fait peut ecirctre probleacutematique dans la persshypective dune normalisation de la descripshytion en vue du repeacuterage et cest ce qui a ameneacute lOffice national du film du Canada par exemple agrave indexer les stockshots au premier niveau de signification seulement (Turner 1990 12) Il y a lieu de croire que la majoriteacute des collections dimages en mouvement sont ainsi indexeacutees et que les descripteurs neacutecessaires agrave la repreacutesentashytion des contenus nommeront des entiteacutes concregravetes (par exemple un chat et une
chaise) plutocirct que des notions abstraites (par exemple la quieacutetude ou le confort) Dans un tel contexte lutilisation dun theacuteshysaurus preacutesentera un inteacuterecirct certain Le controcircle lexical et structurel offert par le theacutesaurus devrait contribuer agrave ameacuteliorer laccegraves au contenu de la collection agrave reacuteshyduire le bruit et le silence au repeacuterage agrave augmenter le taux de preacutecision et agrave mieux satisfaire lutilisateur qui pourrait ainsi troushyver ce quil cherche sans perte excessive de temps
Le theacutesaurus est un outil dont le deacuteveshyloppement repose sur un ensemble de principes et de regravegles eacutenonceacutes dans des normes internationales (Hudon 1994 75-76) Les descriptions de loutil theacutesaurus rendent compte agrave la fois de sa structure et de sa fonction
Un theacutesaurus est une liste dautoriteacute orgashyniseacutee de descripteurs et de non-descripshyteurs obeacuteissant agrave des regravegles terminologishyques propres et relieacutes entre eux par des reshylations seacutemantiques (hieacuterarchiques assoshyciatives ou deacutequivalence) Cette liste sert agrave traduire en un langage artificiel deacuteshypourvu dambiguiumlteacute des notions exprishymeacutees en langage naturel (Association franccedilaise de normalisation 1981)
Le theacutesaurus est un outil dynamique capable de sadapter aux nouvelles reacutealishyteacutes et aux nouveaux besoins dans les orgashynisations ougrave il est utiliseacute Son lexique sera augmenteacute et bonifieacute pour mieux traduire les requecirctes des utilisateurs Le theacutesaurus est cependant un outil relativement exclushysif normalement deacuteveloppeacute pour deacutecrire un domaine bien deacutelimiteacute et refleacutetant les particulariteacutes propres agrave une collectiviteacute dusagers (Van Slype 1987 117) Contraishyrement aux scheacutemas de classification doshycumentaire et aux reacutepertoires de vedettes-matiegraveres le theacutesaurus traditionnel nest jamais encyclopeacutedique
Quelques theacutesaurus ont eacuteteacute creacuteeacutes speacutecifiquement pour lindexation des docushyments visuels (mateacuteriel artistique photos diapositives films ou plans) Au nombre de ces derniers le plus connu est le Art and Architecture Thesaurus (AAT)2 dont la gestion est assureacutee par la Jean-Paul-Getty Foundation Le y4ATpropose une tershyminologie normaliseacutee de 40 000 termes couvrant lart et larchitecture de lAntiquishyteacute au temps preacutesent Le Thesaurus for Grashyphic Materials (TGM)3 de la Library of Conshygress offre pour sa part une seacuterie de desshycripteurs permettant lindexation de mateacuteshy
riel graphique incluant les imprimeacutes les photographies les dessins les bandes dessineacutees les affiches et les plans archishytecturaux Au Canada il faut mentionner le theacutesaurus de lOffice national du film du Canada (ONF) deacuteveloppeacute agrave partir de 1987 pour faciliter lindexation des stockshyshots conserveacutes agrave la cineacutemathegraveque des plans darchives Seacutecartant davantage des approches de repreacutesentation traditionshynelles quelques theacutesaurus visuels visual thesauri) sont aussi disponibles Ces theacuteshysaurus repreacutesentent les objets par limage plutocirct que par le texte Agrave laide de ces imashyges-concepts il est possible de repeacuterer une seacuterie de ressources visuelles offrant une repreacutesentation de lobjet rechercheacute Cette technique permet dacceacuteder aux imashyges sans avoir agrave recourir au texte (Ras-mussen 1997 182) un avantage certain en environnement multilingue Le NASA Visual Thesaurus deacuteveloppeacute pour faciliter laccegraves aux archives (films) de la NASA (Johnson Space Center) est repreacutesentatif de cette cateacutegorie doutils
Le deacuteveloppement dun theacutesaurus est un travail complexe reacutealiseacute en une seacuteshyquence deacutetapes neacutecessaires et dopeacuterashytions intellectuelles devant mener agrave un grand nombre de deacutecisions Leacutetape de leacutelaboration du lexique en est une de preshymiegravere importance Que les descripteurs proviennent de sources de reacutefeacuterence des images agrave indexer ou des questions des utishylisateurs ils doivent nommer clairement et avec suffisamment de preacutecision les objets repreacutesenteacutes dans les images agrave deacutecrire
Certaines sources plus anecdoti-ques que formelles suggegraverent que le nombre de descripteurs neacutecessaires agrave linshydexation dune collection dimages en moushyvement est en fait limiteacute refleacutetant en cela un pheacutenomegravene reconnu dans la langue nashyturelle ougrave le nombre de mots disponibles est de beaucoup supeacuterieur au nombre de mots utiliseacutes dans le discours et essentiels agrave la communication dinformation4 Un nombre plus restreint quon pourrait le croire de descripteurs (noms communs seulement) serait donc suffisant pour deacuteshycrire une majoriteacute de cateacutegories de personshynes dobjets et deacuteveacutenements de la vie
2 lthttp smVapubgettyeduaat_browsergt (Page conshysulteacutee le 3 feacutevrier 2001)
3 lthttplcweblocgovrrprinttgmlgt et lthttp lcweblocgovrrprinttgm2gt(Pages consulteacutees le 3 feacutevrier 2001)
4 Guiraud indique que 4000 mots couvrent 975 de nimporte quel texte (1960 93)
janvier-mars 2001 7
Documentation et bibliothegraveques
n ^mmim^m^^agrave^mmMMMiim^Mmagravewmmi^
Tableau 1 Le contenu des collections
TYPE ET FORMAT NOMBRE DE
COLLECTIONS
Film
8 mm
16 mm
35 mm
72 mm
Autres (film)
Videacuteo
34 po U-matic
1 po
2po
Beacutetacam
Autres (videacuteo)
11
8
5
13
10
Autres formats
Disque optique etc 5
r ^ M ^ J ^ A i l ^ ^
J courante tels que repreacutesenteacutes dans les resshysources visuelles Cette hypothegravese est-elle conforme agrave la reacutealiteacute Si tel est le cas un lexique commun pourrait peut-ecirctre sufshyfire agrave la description de collections dimashyges en mouvement dans des organisashytions varieacutees
Meacutethodologie
Organisations participantes
Trente-trois organisations5 reacutepondant agrave des critegraveres de seacutelection preacuteeacutetablis ont eacuteteacute identifieacutees comme participantes potenshytielles agrave ce projet (liste agrave lAnnexe 1) Les organisations seacutelectionneacutees geacuteraient deshypuis au moins cinq ans des collections dimages en mouvement de nature autre quartistique Chacune de ces organisashytions a reccedilu une trousse dinformation sur le projet accompagneacutee dune invitation agrave participer agrave leacutetude Au total trois prises de contact preacuteliminaires ont eacuteteacute tenteacutees
Vingt-deux reacuteponses ont eacuteteacute obteshynues (67) Onze organisations (50) ont accepteacute de participer au projet alors que neuf autres (41 ) refusaient de simshypliquer plus avant Les refus provenaient surtout du secteur priveacute pour qui la contrishybution agrave lavancement de la recherche
Tableau 2 Volume des collections
NOMBRE DE NOMBRE TITRES DHEURES
Cl
C2
C3
C4
Ccedil5
C6
C7
C8
C9
CIO
Cil
C12
C13
C14
4 962
14 000
nd
36 848
11755
100 000
nd
nd
50 000
nd
18 500
94 732
5 600
nd
nd
3 800
nd
nd
750
nd
nd
nd
17 500
nd
17 848
nd
nd
nd
sectfpound^m^s^tf^^mf^meacutemm- _r nest pas neacutecessairement une prioriteacute et parce que bon nombre de donneacutees y sont consideacutereacutees comme leur proprieacuteteacute Deux organisations (9) initialement inteacuteresshyseacutees nont jamais donneacute de reacuteponse deacutefinishytive
Chaque organisation participante disshyposait dau moins une collection dimages en mouvement Lensemble des 11 organishysations participantes geacuterait un total de 14 collections
Questionnaire
Les organisations participantes ont reacuteshypondu agrave un questionnaire conccedilu speacutecialeshyment pour ce projet de recherche Le quesshytionnaire disponible en franccedilais et en anshyglais comprenait quatre sections distincshytes lidentification du milieu la caracteacuterisa-tion des collections le mode de gestion des collections la caracteacuterisation des oushytils langagiers utiliseacutes pour lindexation et le repeacuterage
Visite des milieux et entrevues
La visite des milieux a eacuteteacute une eacutetape importante dans notre processus de cueilshylette des donneacutees Une entrevue avec un reacutepondant de lorganisation hocircte a permis de veacuterifier et de compleacuteter les donneacutees
obtenues par les reacuteponses au questionshynaire Un canevas dentrevue structureacute autour de questions ouvertes a servi de cadre de reacutefeacuterence Tous nos reacutepondants eacutetaient associeacutes de tregraves pregraves agrave la gestion des collections et tous posseacutedaient une bonne connaissance de leur milieu des collections et des instruments (bases de donneacutees theacutesaurus etc) servant agrave la gesshytion de celles-ci La visite des milieux a aussi permis de consulter et parfois mecircme dobtenir copie de diffeacuterents documents susceptibles de contenir le type dinformashytion dont nous avions besoin (par exemple un theacutesaurus une politique dinshydexation etc)
Les organisations participantes se sont montreacutees particuliegraverement coopeacuteratishyves et precirctes agrave partager les donneacutees qui nous inteacuteressaient lorsquelles eacutetaient disshyponibles
Reacutesultats et discussion Chacune de nos organisations a une
structure de fonctionnement qui lui est propre et qui reflegravete la philosophie les moshydes de gestion les objectifs et les orientashytions de leacutetablissement Les impeacuteratifs de temps et de production y sont omnipreacuteshysents Agrave loccasion ces impeacuteratifs se trashyduisent concregravetement par la duplication dun mateacuteriel deacutejagrave disponible dans la colshylection mais non retrouveacute dans lheure qui suit la demande dune eacutequipe de producshytion Agrave ces impeacuteratifs sajoutent des exigenshyces de rationalisation budgeacutetaire qui implishyquent de laquofaire plus avec moinsraquo Cette combinaison apparaicirct de prime abord diffishycilement conciliable avec des investisseshyments substantiels dans des outils de gesshytion documentaire complexes et en personshynel speacutecialiseacute
Identification des organisations
Les lieux ougrave sont geacutereacutees les collecshytions dimages en mouvement sont connus sous plusieurs deacutenominations parshyfois mecircme au sein dune mecircme organisa-
5 La plupart des ces organisations eacutetaient repreacutesenteacutees au congregraves de lAssociation of Moving Images Archishyvists (AMIA) tenu agrave Montreacuteal en novembre 1999 Les premiers contacts informels ont eacuteteacute faits lors de ce congregraves
8 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
Compte tenu de lexpansion rapide des collections dimages de la quantiteacute dinformation quelles contiennent et des sommes importantes neacutecessaires agrave leur deacuteveloppement et agrave leur exploitation il deshyvient essentiel que soient deacuteveloppeacutees et implanteacutees des meacutethodes communes de gestion de ces collections autant pour reshytrouver rapidement le mateacuteriel dont nous avons besoin que pour partager les resshysources informationnelles que nous posseacuteshydons deacutejagrave Une faccedilon dy arriver par exemple serait de proceacuteder agrave lindexation des ressources de diverses collections agrave laide dun theacutesaurus commun
Analyse et repreacutesentation du contenu de limage en mouvement
Agrave la diffeacuterence de la majoriteacute des textes limage peut ecirctre analyseacutee et intershypreacuteteacutee de diverses maniegraveres Panofsky (1955) suggegravere que lon peut extraire de limage trois niveaux de signification Le premier niveau qualifieacute de preacuteconogra-phique porte sur le sujet primaire ou natushyrel du document Le second niveau liconoshygraphique sinteacuteresse au sujet secondaire ou conventionnel Le troisiegraveme niveau qualifieacute diconologique sattarde au sujet tertiaire ou au contenu symbolique Dans ses travaux baseacutes sur les notions avanshyceacutees par Panofsky Shatford (1986) met dashyvantage laccent sur les premier et second niveaux pour distinguer entre lofness et laboutnessde limage Lohessfait ici reacutefeacuteshyrence agrave la description pure et simple du contenu de la ressource visuelle (ie ce quon y voit) alors que Yaboutness satshytarde agrave linterpreacutetation ou agrave la signification du document (ie ce quon y lit)
Une image fixe ou en mouvement contient une grande varieacuteteacute dinformations et elle peut signifier diffeacuterentes choses pour diffeacuterentes personnes (Id 42) Ce fait peut ecirctre probleacutematique dans la persshypective dune normalisation de la descripshytion en vue du repeacuterage et cest ce qui a ameneacute lOffice national du film du Canada par exemple agrave indexer les stockshots au premier niveau de signification seulement (Turner 1990 12) Il y a lieu de croire que la majoriteacute des collections dimages en mouvement sont ainsi indexeacutees et que les descripteurs neacutecessaires agrave la repreacutesentashytion des contenus nommeront des entiteacutes concregravetes (par exemple un chat et une
chaise) plutocirct que des notions abstraites (par exemple la quieacutetude ou le confort) Dans un tel contexte lutilisation dun theacuteshysaurus preacutesentera un inteacuterecirct certain Le controcircle lexical et structurel offert par le theacutesaurus devrait contribuer agrave ameacuteliorer laccegraves au contenu de la collection agrave reacuteshyduire le bruit et le silence au repeacuterage agrave augmenter le taux de preacutecision et agrave mieux satisfaire lutilisateur qui pourrait ainsi troushyver ce quil cherche sans perte excessive de temps
Le theacutesaurus est un outil dont le deacuteveshyloppement repose sur un ensemble de principes et de regravegles eacutenonceacutes dans des normes internationales (Hudon 1994 75-76) Les descriptions de loutil theacutesaurus rendent compte agrave la fois de sa structure et de sa fonction
Un theacutesaurus est une liste dautoriteacute orgashyniseacutee de descripteurs et de non-descripshyteurs obeacuteissant agrave des regravegles terminologishyques propres et relieacutes entre eux par des reshylations seacutemantiques (hieacuterarchiques assoshyciatives ou deacutequivalence) Cette liste sert agrave traduire en un langage artificiel deacuteshypourvu dambiguiumlteacute des notions exprishymeacutees en langage naturel (Association franccedilaise de normalisation 1981)
Le theacutesaurus est un outil dynamique capable de sadapter aux nouvelles reacutealishyteacutes et aux nouveaux besoins dans les orgashynisations ougrave il est utiliseacute Son lexique sera augmenteacute et bonifieacute pour mieux traduire les requecirctes des utilisateurs Le theacutesaurus est cependant un outil relativement exclushysif normalement deacuteveloppeacute pour deacutecrire un domaine bien deacutelimiteacute et refleacutetant les particulariteacutes propres agrave une collectiviteacute dusagers (Van Slype 1987 117) Contraishyrement aux scheacutemas de classification doshycumentaire et aux reacutepertoires de vedettes-matiegraveres le theacutesaurus traditionnel nest jamais encyclopeacutedique
Quelques theacutesaurus ont eacuteteacute creacuteeacutes speacutecifiquement pour lindexation des docushyments visuels (mateacuteriel artistique photos diapositives films ou plans) Au nombre de ces derniers le plus connu est le Art and Architecture Thesaurus (AAT)2 dont la gestion est assureacutee par la Jean-Paul-Getty Foundation Le y4ATpropose une tershyminologie normaliseacutee de 40 000 termes couvrant lart et larchitecture de lAntiquishyteacute au temps preacutesent Le Thesaurus for Grashyphic Materials (TGM)3 de la Library of Conshygress offre pour sa part une seacuterie de desshycripteurs permettant lindexation de mateacuteshy
riel graphique incluant les imprimeacutes les photographies les dessins les bandes dessineacutees les affiches et les plans archishytecturaux Au Canada il faut mentionner le theacutesaurus de lOffice national du film du Canada (ONF) deacuteveloppeacute agrave partir de 1987 pour faciliter lindexation des stockshyshots conserveacutes agrave la cineacutemathegraveque des plans darchives Seacutecartant davantage des approches de repreacutesentation traditionshynelles quelques theacutesaurus visuels visual thesauri) sont aussi disponibles Ces theacuteshysaurus repreacutesentent les objets par limage plutocirct que par le texte Agrave laide de ces imashyges-concepts il est possible de repeacuterer une seacuterie de ressources visuelles offrant une repreacutesentation de lobjet rechercheacute Cette technique permet dacceacuteder aux imashyges sans avoir agrave recourir au texte (Ras-mussen 1997 182) un avantage certain en environnement multilingue Le NASA Visual Thesaurus deacuteveloppeacute pour faciliter laccegraves aux archives (films) de la NASA (Johnson Space Center) est repreacutesentatif de cette cateacutegorie doutils
Le deacuteveloppement dun theacutesaurus est un travail complexe reacutealiseacute en une seacuteshyquence deacutetapes neacutecessaires et dopeacuterashytions intellectuelles devant mener agrave un grand nombre de deacutecisions Leacutetape de leacutelaboration du lexique en est une de preshymiegravere importance Que les descripteurs proviennent de sources de reacutefeacuterence des images agrave indexer ou des questions des utishylisateurs ils doivent nommer clairement et avec suffisamment de preacutecision les objets repreacutesenteacutes dans les images agrave deacutecrire
Certaines sources plus anecdoti-ques que formelles suggegraverent que le nombre de descripteurs neacutecessaires agrave linshydexation dune collection dimages en moushyvement est en fait limiteacute refleacutetant en cela un pheacutenomegravene reconnu dans la langue nashyturelle ougrave le nombre de mots disponibles est de beaucoup supeacuterieur au nombre de mots utiliseacutes dans le discours et essentiels agrave la communication dinformation4 Un nombre plus restreint quon pourrait le croire de descripteurs (noms communs seulement) serait donc suffisant pour deacuteshycrire une majoriteacute de cateacutegories de personshynes dobjets et deacuteveacutenements de la vie
2 lthttp smVapubgettyeduaat_browsergt (Page conshysulteacutee le 3 feacutevrier 2001)
3 lthttplcweblocgovrrprinttgmlgt et lthttp lcweblocgovrrprinttgm2gt(Pages consulteacutees le 3 feacutevrier 2001)
4 Guiraud indique que 4000 mots couvrent 975 de nimporte quel texte (1960 93)
janvier-mars 2001 7
Documentation et bibliothegraveques
n ^mmim^m^^agrave^mmMMMiim^Mmagravewmmi^
Tableau 1 Le contenu des collections
TYPE ET FORMAT NOMBRE DE
COLLECTIONS
Film
8 mm
16 mm
35 mm
72 mm
Autres (film)
Videacuteo
34 po U-matic
1 po
2po
Beacutetacam
Autres (videacuteo)
11
8
5
13
10
Autres formats
Disque optique etc 5
r ^ M ^ J ^ A i l ^ ^
J courante tels que repreacutesenteacutes dans les resshysources visuelles Cette hypothegravese est-elle conforme agrave la reacutealiteacute Si tel est le cas un lexique commun pourrait peut-ecirctre sufshyfire agrave la description de collections dimashyges en mouvement dans des organisashytions varieacutees
Meacutethodologie
Organisations participantes
Trente-trois organisations5 reacutepondant agrave des critegraveres de seacutelection preacuteeacutetablis ont eacuteteacute identifieacutees comme participantes potenshytielles agrave ce projet (liste agrave lAnnexe 1) Les organisations seacutelectionneacutees geacuteraient deshypuis au moins cinq ans des collections dimages en mouvement de nature autre quartistique Chacune de ces organisashytions a reccedilu une trousse dinformation sur le projet accompagneacutee dune invitation agrave participer agrave leacutetude Au total trois prises de contact preacuteliminaires ont eacuteteacute tenteacutees
Vingt-deux reacuteponses ont eacuteteacute obteshynues (67) Onze organisations (50) ont accepteacute de participer au projet alors que neuf autres (41 ) refusaient de simshypliquer plus avant Les refus provenaient surtout du secteur priveacute pour qui la contrishybution agrave lavancement de la recherche
Tableau 2 Volume des collections
NOMBRE DE NOMBRE TITRES DHEURES
Cl
C2
C3
C4
Ccedil5
C6
C7
C8
C9
CIO
Cil
C12
C13
C14
4 962
14 000
nd
36 848
11755
100 000
nd
nd
50 000
nd
18 500
94 732
5 600
nd
nd
3 800
nd
nd
750
nd
nd
nd
17 500
nd
17 848
nd
nd
nd
sectfpound^m^s^tf^^mf^meacutemm- _r nest pas neacutecessairement une prioriteacute et parce que bon nombre de donneacutees y sont consideacutereacutees comme leur proprieacuteteacute Deux organisations (9) initialement inteacuteresshyseacutees nont jamais donneacute de reacuteponse deacutefinishytive
Chaque organisation participante disshyposait dau moins une collection dimages en mouvement Lensemble des 11 organishysations participantes geacuterait un total de 14 collections
Questionnaire
Les organisations participantes ont reacuteshypondu agrave un questionnaire conccedilu speacutecialeshyment pour ce projet de recherche Le quesshytionnaire disponible en franccedilais et en anshyglais comprenait quatre sections distincshytes lidentification du milieu la caracteacuterisa-tion des collections le mode de gestion des collections la caracteacuterisation des oushytils langagiers utiliseacutes pour lindexation et le repeacuterage
Visite des milieux et entrevues
La visite des milieux a eacuteteacute une eacutetape importante dans notre processus de cueilshylette des donneacutees Une entrevue avec un reacutepondant de lorganisation hocircte a permis de veacuterifier et de compleacuteter les donneacutees
obtenues par les reacuteponses au questionshynaire Un canevas dentrevue structureacute autour de questions ouvertes a servi de cadre de reacutefeacuterence Tous nos reacutepondants eacutetaient associeacutes de tregraves pregraves agrave la gestion des collections et tous posseacutedaient une bonne connaissance de leur milieu des collections et des instruments (bases de donneacutees theacutesaurus etc) servant agrave la gesshytion de celles-ci La visite des milieux a aussi permis de consulter et parfois mecircme dobtenir copie de diffeacuterents documents susceptibles de contenir le type dinformashytion dont nous avions besoin (par exemple un theacutesaurus une politique dinshydexation etc)
Les organisations participantes se sont montreacutees particuliegraverement coopeacuteratishyves et precirctes agrave partager les donneacutees qui nous inteacuteressaient lorsquelles eacutetaient disshyponibles
Reacutesultats et discussion Chacune de nos organisations a une
structure de fonctionnement qui lui est propre et qui reflegravete la philosophie les moshydes de gestion les objectifs et les orientashytions de leacutetablissement Les impeacuteratifs de temps et de production y sont omnipreacuteshysents Agrave loccasion ces impeacuteratifs se trashyduisent concregravetement par la duplication dun mateacuteriel deacutejagrave disponible dans la colshylection mais non retrouveacute dans lheure qui suit la demande dune eacutequipe de producshytion Agrave ces impeacuteratifs sajoutent des exigenshyces de rationalisation budgeacutetaire qui implishyquent de laquofaire plus avec moinsraquo Cette combinaison apparaicirct de prime abord diffishycilement conciliable avec des investisseshyments substantiels dans des outils de gesshytion documentaire complexes et en personshynel speacutecialiseacute
Identification des organisations
Les lieux ougrave sont geacutereacutees les collecshytions dimages en mouvement sont connus sous plusieurs deacutenominations parshyfois mecircme au sein dune mecircme organisa-
5 La plupart des ces organisations eacutetaient repreacutesenteacutees au congregraves de lAssociation of Moving Images Archishyvists (AMIA) tenu agrave Montreacuteal en novembre 1999 Les premiers contacts informels ont eacuteteacute faits lors de ce congregraves
8 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
n ^mmim^m^^agrave^mmMMMiim^Mmagravewmmi^
Tableau 1 Le contenu des collections
TYPE ET FORMAT NOMBRE DE
COLLECTIONS
Film
8 mm
16 mm
35 mm
72 mm
Autres (film)
Videacuteo
34 po U-matic
1 po
2po
Beacutetacam
Autres (videacuteo)
11
8
5
13
10
Autres formats
Disque optique etc 5
r ^ M ^ J ^ A i l ^ ^
J courante tels que repreacutesenteacutes dans les resshysources visuelles Cette hypothegravese est-elle conforme agrave la reacutealiteacute Si tel est le cas un lexique commun pourrait peut-ecirctre sufshyfire agrave la description de collections dimashyges en mouvement dans des organisashytions varieacutees
Meacutethodologie
Organisations participantes
Trente-trois organisations5 reacutepondant agrave des critegraveres de seacutelection preacuteeacutetablis ont eacuteteacute identifieacutees comme participantes potenshytielles agrave ce projet (liste agrave lAnnexe 1) Les organisations seacutelectionneacutees geacuteraient deshypuis au moins cinq ans des collections dimages en mouvement de nature autre quartistique Chacune de ces organisashytions a reccedilu une trousse dinformation sur le projet accompagneacutee dune invitation agrave participer agrave leacutetude Au total trois prises de contact preacuteliminaires ont eacuteteacute tenteacutees
Vingt-deux reacuteponses ont eacuteteacute obteshynues (67) Onze organisations (50) ont accepteacute de participer au projet alors que neuf autres (41 ) refusaient de simshypliquer plus avant Les refus provenaient surtout du secteur priveacute pour qui la contrishybution agrave lavancement de la recherche
Tableau 2 Volume des collections
NOMBRE DE NOMBRE TITRES DHEURES
Cl
C2
C3
C4
Ccedil5
C6
C7
C8
C9
CIO
Cil
C12
C13
C14
4 962
14 000
nd
36 848
11755
100 000
nd
nd
50 000
nd
18 500
94 732
5 600
nd
nd
3 800
nd
nd
750
nd
nd
nd
17 500
nd
17 848
nd
nd
nd
sectfpound^m^s^tf^^mf^meacutemm- _r nest pas neacutecessairement une prioriteacute et parce que bon nombre de donneacutees y sont consideacutereacutees comme leur proprieacuteteacute Deux organisations (9) initialement inteacuteresshyseacutees nont jamais donneacute de reacuteponse deacutefinishytive
Chaque organisation participante disshyposait dau moins une collection dimages en mouvement Lensemble des 11 organishysations participantes geacuterait un total de 14 collections
Questionnaire
Les organisations participantes ont reacuteshypondu agrave un questionnaire conccedilu speacutecialeshyment pour ce projet de recherche Le quesshytionnaire disponible en franccedilais et en anshyglais comprenait quatre sections distincshytes lidentification du milieu la caracteacuterisa-tion des collections le mode de gestion des collections la caracteacuterisation des oushytils langagiers utiliseacutes pour lindexation et le repeacuterage
Visite des milieux et entrevues
La visite des milieux a eacuteteacute une eacutetape importante dans notre processus de cueilshylette des donneacutees Une entrevue avec un reacutepondant de lorganisation hocircte a permis de veacuterifier et de compleacuteter les donneacutees
obtenues par les reacuteponses au questionshynaire Un canevas dentrevue structureacute autour de questions ouvertes a servi de cadre de reacutefeacuterence Tous nos reacutepondants eacutetaient associeacutes de tregraves pregraves agrave la gestion des collections et tous posseacutedaient une bonne connaissance de leur milieu des collections et des instruments (bases de donneacutees theacutesaurus etc) servant agrave la gesshytion de celles-ci La visite des milieux a aussi permis de consulter et parfois mecircme dobtenir copie de diffeacuterents documents susceptibles de contenir le type dinformashytion dont nous avions besoin (par exemple un theacutesaurus une politique dinshydexation etc)
Les organisations participantes se sont montreacutees particuliegraverement coopeacuteratishyves et precirctes agrave partager les donneacutees qui nous inteacuteressaient lorsquelles eacutetaient disshyponibles
Reacutesultats et discussion Chacune de nos organisations a une
structure de fonctionnement qui lui est propre et qui reflegravete la philosophie les moshydes de gestion les objectifs et les orientashytions de leacutetablissement Les impeacuteratifs de temps et de production y sont omnipreacuteshysents Agrave loccasion ces impeacuteratifs se trashyduisent concregravetement par la duplication dun mateacuteriel deacutejagrave disponible dans la colshylection mais non retrouveacute dans lheure qui suit la demande dune eacutequipe de producshytion Agrave ces impeacuteratifs sajoutent des exigenshyces de rationalisation budgeacutetaire qui implishyquent de laquofaire plus avec moinsraquo Cette combinaison apparaicirct de prime abord diffishycilement conciliable avec des investisseshyments substantiels dans des outils de gesshytion documentaire complexes et en personshynel speacutecialiseacute
Identification des organisations
Les lieux ougrave sont geacutereacutees les collecshytions dimages en mouvement sont connus sous plusieurs deacutenominations parshyfois mecircme au sein dune mecircme organisa-
5 La plupart des ces organisations eacutetaient repreacutesenteacutees au congregraves de lAssociation of Moving Images Archishyvists (AMIA) tenu agrave Montreacuteal en novembre 1999 Les premiers contacts informels ont eacuteteacute faits lors de ce congregraves
8 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
tion La cineacutemathegraveque de stockshots est une deacutenomination populaire utiliseacutee par sept organisations Lappellation centre darchives est preacutefeacutereacutee en cinq endroits Les autres deacutenominations suggeacutereacutees sont Video Art Distributor et News Video Archive
Les collections
Sept collections sur quatorze (50) sont des collections mixtes couvrant agrave la fois des domaines geacuteneacuteraux et des thegraveshymes particuliers Cette constatation ne surshyprendra pas lorsquon sait que le mateacuteriel conserveacute dans ces collections se comshypose de films dextraits de bandes de noushyvelles et dautres mateacuteriels dinteacuterecirct public Nos milieux sont lieacutes de pregraves agrave des reacuteshyseaux de teacuteleacutevision ou de production cineacuteshymatographique pour des clientegraveles divershyses ils ont agrave couvrir une gamme tregraves varieacutee de sujets speacutecialiseacutes et geacuteneacuteraux Trois collections (21 ) sont de nature geacuteshyneacuterale et deux seulement (14) se qualishyfient de speacutecialiseacutees Il est inteacuteressant de noter que deux collections ne peuvent apshyparemment pas ecirctre caracteacuteriseacutees aussi preacuteciseacutement Douze collections sur quashytorze (86) ont moins de 50 ans dacircge
Le Tableau 1 preacutesente une vue denshysemble du mateacuteriel disponible dans les dishyverses collections Ce mateacuteriel est tregraves dishyversifieacute allant du film 8 mm au disque opshytique en passant par le videacuteo de type Beacuteta-cam Cette diversiteacute caracteacuterise bien toute la pluraliteacute propre agrave ce type de document quest limage en mouvement Les supshyports les plus largement repreacutesenteacutes sont les films 16 mm et 35 mm et les videacuteos de type U-Matic et Beacutetacam
Les collections sont souvent imposanshytes Les donneacutees du Tableau 2 ne donnent en fait quune image fragmentaire de limshyportance des collections geacutereacutees par nos orshyganisations teacutemoins Dans la plupart des cas la seule information disponible est associeacutee aux nombre de titres constituant la collection Les donneacutees qui se rapporshytent aux valeurs en nombre dheures de difshyfusion sont sommaires sinon inexistantes (nd = non disponible) et aucune institushytion ne peut fournir de donneacutees sur le voshylume (cest-agrave-dire le nombre de megravetres lishyneacuteaires de rangement)
r Tableau 3 Niveaux de description et
dindexation
NIVEAU NOMBRE DE COLLECTIONS
Titre
Seacutequence
Plan
Les trois niveaux
Autres
11
5
r h^m^gt^ r fampfi laquo9 bull
j
La description et lindexation des documents
Compte tenu de limportance des colshylections et du rythme de croissance de celles-ci la contribution de linformatique est depuis longtemps consideacutereacutee essenshytielle Les organisations visiteacutees ont toutes creacuteeacute des bases de donneacutees agrave structure complexe qui permettent un repeacuterage plus ou moins efficace dimages repreacutesentant des entiteacutes ou des situations particuliegraveres
Presque toutes les collections (1114 ou 79) sont catalogueacutees et indexeacutees sur une base titre (ou document complet) ce pourcentage ne surprend pas si on pense agrave la faciliteacute dobtention et agrave limportance de cet eacuteleacutement dinformation Quelques colshylections sont deacutecrites et indexeacutees plus en profondeur au niveau de la seacutequence (514 ou 36) ou du plan (814 ou 57) Cinq organisations cataloguent et inshydexent aux trois niveaux (titre seacutequence plan) Cinq organisations disent aussi inshydexer agrave dautres niveaux que ceux que nous leur avions proposeacutes au niveau dune bobine complegravete par exemple (Tashybleau 3)
En majoriteacute (1014 ou 71) les colshylections sont traiteacutees au premier et au deuxiegraveme niveaux de signification deacutefinis par Panofsky Il est surprenant de constashyter que cinq collections (514 ou 36) sont apparemment indexeacutees eacutegalement au troisiegraveme niveau soit au niveau de la symbolique cette analyse qui implique une interpreacutetation du mateacuteriel visionneacute est en effet plus courante dans le monde de lœuvre dart Notons cependant quaushycune organisation ne fait ce type dinterpreacuteshytation sans recourir conjointement aux aushytres formes danalyse
Tableau 4 Langages documentaires utiliseacutes
LANGAGE DOCUMENTAIRE
NOMBRE DE COLLECTIONS
Mots-cleacutes 7
Classification 3
Theacutesaurus 2 (commercial)
Theacutesaurus (maison) 5
Theacutesaurus (mixte) 1
Vedettes-matiegraveres 6
Autres 6
^raquoKfimm^^Mr^w^^mj^AcircmgtMicirciumlM^^ - + J Les documents de quatre collections
sont indexeacutes en moyenne par cinq descripshyteurs ou moins Le nombre maximum de descripteurs assigneacutes peut atteindre 15 dans trois collections et aucun maxishymum na eacuteteacute fixeacute dans deux autres Dans tous les cas le nombre maximum de desshycripteurs assigneacutes deacutepend soit de la polishytique dindexation lorsquil y en une soit des capaciteacutes du systegraveme informatique en place
Il est inteacuteressant de souligner lexisshytence dans les organisations participanshytes dun continuum dont une extreacutemiteacute se caracteacuterise par une absence totale de conshytrocircle du processus dindexation (tout est inshydexeacute ou rien nest indexeacute) et lautre par une indexation faite agrave laide dun theacutesaushyrus deacuteveloppeacute speacutecifiquement pour deacuteshycrire une collection particuliegravere Entre ces deux extrecircmes les autres modes de conshytrocircle de lindexation incluent lutilisation des vedettes-matiegraveres de la Library of Conshygress (ou une adaptation de celles-ci) leacutelaboration dune liste de mots-cleacutes ou dune structure de classification simple et la combinaison de diverses techniques Ce continuum vient par ailleurs faire resshysortir la double tendance souligneacutee par Cawkell (1992) dune utilisation maximale de linformatique et du recours agrave des techshyniques deacutejagrave eacuteprouveacutees dans le domaine des sciences de linformation Il est tregraves rare quune politique dindexation formelle soit disponible et nous navons malheureushysement pu en consulter aucune
Vous trouverez au Tableau 4 les types de langages documentaires utiliseacutes pour la repreacutesentation des contenus
Le mot-cleacute extrait de la langue natushyrelle et non controcircleacute quant agrave sa forme et agrave
janvier-mars 2001 9
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
Tableau 5
OUTIL
Theacutesaurus 1
Theacutesaurus 2
Theacutesaurus 3
Theacutesaurus 4
Theacutesaurus 5
Theacutesaurus 6
Contenu des lexiques
NOMBRE TOTAL DE TERMES
6 969
344 500
3 222
1163
704
3 680 (pour les lettres
FIR)
NOMBRE DE NON- DESCRIPTEURS
1451
8 850
nd
42
89
1346
NOMBRE DE 1 NOMS PROPRES 1
2 244 1 220 000 1 660 1
744 1 nd 1
1204 1 (pers coll 1
geacuteographiques) 1
Tableau 6 Structure relationnelle dans les theacutesaurus
son sens est utiliseacute dans sept collections (50) Six collections (43) sont inshydexeacutees par des vedettes-matiegraveres Un scheacutema de classification sert agrave lorganisashytion de trois collections (21 ) Il faut preacutecishyser que les scheacutemas de classification utilishyseacutes sont des classifications laquo maison raquo deacuteshyveloppeacutees en fonction de besoins locaux Nous avons pu constater lors de nos visishytes que six collections au moins sont eacutegaleshyment accessibles par le biais de rechershyches en plein texte alors que deux gestionshynaires de collection seulement avaient mentionneacute cette possibiliteacute en reacuteponse au questionnaire Dans la cateacutegorie laquoAutresraquo se retrouvent notamment une liste de tershymes techniques speacutecifiques au domaine du cineacutema et une liste de termes geacuteograshyphiques
Une mecircme organisation utilise geacuteneacuteshyralement plus dun instrument dindexation pour une ou plusieurs de ses collections la majoriteacute des organisations ayant particishypeacute agrave cette eacutetude disent utiliser entre deux et six outils langagiers diffeacuterents pour la reshypreacutesentation des contenus de leurs collecshytions
Les theacutesaurus
Lutilisation dun theacutesaurus comme oushytil de controcircle du vocabulaire est assez reacuteshypandue Six organisations sur un total de 11 (55) font appel agrave un ou plusieurs oushytils quelles identifient comme eacutetant un theacuteshysaurus Deux collections sont indexeacutees agrave laide dun theacutesaurus commercial une agrave laide dun theacutesaurus mixte et cinq avec un theacutesaurus maison Deux collections sont indexeacutees agrave laide de deux outils de type theacutesaurus diffeacuterents Les six theacutesaurus que nous avons pu consulter nous ont eacuteteacute
preacutesenteacutes sous la forme traditionnelle dune liste alphabeacutetique de descripteurs Une couverture speacutecialiseacutee est releveacutee dans cinq outils (83) alors quun seul est de nature reacutesolument geacuteneacuterale (17) La terminologie est de niveau populaire dans trois theacutesaurus (50) et davantage speacutecialiseacutee dans les trois autres
Plusieurs de nos questions avaient trait au contenu lexical de ces theacutesaurus (nombre total de termes nombre total de non-descripteurs nombre total de noms propres etc) Malheureusement des donshyneacutees preacutecises sur ce sujet ont eacuteteacute presque impossibles agrave obtenir des organisations participantes Il savegravere que la plupart des theacutesaurus sont geacutereacutes par des logiciels inshyformatiques proprieacutetaires aux fonctions statistiques peu deacuteveloppeacutees Les chiffres du Tableau 5 sont donc pour la plupart des estimations agrave partir deacutechantillons lexicaux preacuteleveacutes dans les theacutesaurus auxquels nous avons eu accegraves Nous les donnons agrave titre indicatif en soulignant la grande variashytion dans le nombre de termes constituant les lexiques
Dabord on notera limportante proshyportion dans les lexiques au moins 33 dans presque tous les outils des noms propres de personnes de collectiviteacutes et de lieux geacuteographiques On notera eacutegaleshyment la faible proportion de non-descripshyteurs dans tous les theacutesaurus Il y a donc lieu de supposer que la reacuteduction du vocashybulaire par le controcircle des synonymes na pas eacuteteacute effectueacutee par les gestionnaires de ces lexiques lefficaciteacute du theacutesaurus comme outil pouvant favoriser la qualiteacute du repeacuterage en est certes beaucoup dishyminueacutee
Les termes qui constituent le lexique proviennent de diffeacuterentes sources des
TYPE DE RELATION NOMBRE DE
THEacuteSAURUS
Eacutequivalence intralinguistique
Eacutequivalence interlinguistique
Hieacuterarchie
Association
ouvrages de reacutefeacuterence geacuteneacuteraux et speacuteciashyliseacutes des demandes faites par les usagers ainsi que des reacuteseaux seacutemantiques deacutejagrave existants (dans dautres theacutesaurus par exemple)
La majoriteacute des theacutesaurus en usage dans les organisations participantes reshypose sur une structure relationnelle explishycite au sein de laquelle les descripteurs sont lieacutes par des relations deacutequivalence de hieacuterarchie et dautres types dassociashytions Le Tableau 6 montre que les outils observeacutes ont une structure relationnelle sishymilaire ce qui laisse croire que les normes de deacuteveloppement des theacutesaurus ont tout de mecircme eacuteteacute prises en consideacuteration
Le fait que quatre theacutesaurus seuleshyment se preacuteoccupent du controcircle des eacutequishyvalences conceptuelles et terminologishyques au sein dune mecircme langue suggegravere agrave nouveau que le controcircle seacutemantique ny est que partiel et sans doute assez peu effishycace On notera quun seul des instrushyments observeacutes tient compte de la relation deacutequivalence interlinguistique (ou relation de synonymie entre deux langues) Cinq des outils consulteacutes (83) sont en effet des theacutesaurus de langue anglaise seuleshyment le sixiegraveme outil est un theacutesaurus bishylingue dans lequel langlais et le franccedilais sont repreacutesenteacutes
Lefficaciteacute des outils langagiers sershyvant agrave lindexation ne peut ecirctre maintenue que si leur contenu lexical et relationnel est agrave jour Les reacuteponses agrave une question preacutecise concernant la freacutequence et la reacutegushylariteacute des opeacuterations de mise agrave jour montrent que celle-ci est ponctuelle pour la moitieacute des theacutesaurus de notre eacutechantilshylon (36) les changements requis eacutetant immeacutediatement inteacutegreacutes agrave loutil Dans les autres cas la mise agrave jour est journaliegravere (16) hebdomadaire (16) ou irreacuteguliegravere
10 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
1 Tableau 7 Freacutequence dapparition I (Fx) des termes dans I sept outils lexicaux
Fl
F2
F3
F4
F5
F6
F7
TOTAL
NOMBRE DE DESCRIPTEURS
1680
338
134
72
47
14
7
2 292
POURCENTAGE
730
150
60
30
20
06
03
100
(16) Dans la moitieacute des cas (36) une seule personne assume la responsabiliteacute de la mise agrave jour et du controcircle de lexpanshysion du lexique Deux personnes sont resshyponsables dun autre instrument et un nombre indeacutetermineacute dindividus (cest-agrave-dire tous les utilisateurs) tiennent agrave jour les deux derniers theacutesaurus Les organisashytions et les responsables ne disposent pas toujours de proceacutedures et de directives forshymelles pour la mise agrave jour de ces outils lexishycaux
La mise agrave jour dun theacutesaurus imshyplique dabord la creacuteation de nouveaux descripteurs Agrave la question concernant le nombre de descripteurs ajouteacutes sur une base annuelle les reacuteponses reacutevegravelent une situation pour le moins eacutetonnante puisque la moitieacute des outils senrichissent annuelleshyment dun maximum de 50 nouveaux desshycripteurs et lautre moitieacute de plus de 300 nouveaux descripteurs On peut sinshyterroger sur les causes de cette dispariteacute dans des outils qui en matiegravere de contenu conceptuel devraient ecirctre assez similaishyres Les gestionnaires de theacutesaurus ne peuvent cependant pas dire avec certitude quelle proportion du lexique actuel avait eacuteteacute eacutetabli agrave la fin de la premiegravere de la troishysiegraveme ni de la cinquiegraveme anneacutee dexisshytence du theacutesaurus et agrave quel moment le taux de croissance des vocabulaires a rashylenti et a finalement atteint son niveau acshytuel Bien que nous sachions que le nombre de termes neacutecessaires agrave lindexashytion dune collection atteint toujours un sommet agrave partir duquel il ny a plus beaushycoup dajouts qui doivent ecirctre faits les donshyneacutees obtenues ne nous ont pas permis de savoir ougrave se situait ce sommet dans les colshylections dimages en mouvement
Analyse lexicale
Ideacutealement cest le contenu inteacutegral des diffeacuterents outils lexicaux qui devrait ecirctre analyseacute Dans les faits compte tenu du tregraves grand nombre de termes preacutesents dans la plupart des outils langagiers obsershyveacutes une telle deacutemarche savegravere imposshysible Les observations preacuteliminaires qui suivent sont baseacutees sur un eacutechantillon constitueacute de tous les termes commenccedilant par les lettres F I et R dans les sept outils lexicaux (theacutesaurus listes de mots-cleacutes et de vedettes-matiegraveres) dont nous avons pu obtenir copie Les trois lettres de lalphashybet que nous avons retenues ont eacuteteacute choishysies au hasard parmi la quinzaine de letshytres qui servent dinitiale agrave un minimum de 900 et agrave un maximum de 5 000 mots dans la langue anglaise6
Les chiffres les noms propres de pershysonnes et dorganisation et les titres (lishyvres chansons films etc) ont eacuteteacute retireacutes des listes originales Les termes qui resshytaient ont eacuteteacute combineacutes en une liste unique eacutenumeacuterant 2 292 termes distincts De ce nombre 1 858 (81 ) repreacutesentent des entiteacutes concregravetes et 434 (19) des noshytions abstraites Ces 434 descripteurs seshyraient plutocirct utiles lors dune indexation aux niveaux iconographique et symboshylique
Le Tableau 7 montre quune tregraves large proportion des termes (1 6802 292 ou 73) ne paraicirct que dans un seul outil alors que sept termes seulement (03) sont preacutesents dans les sept outils langashygiers observeacutes
Cette observation a de quoi surshyprendre si on considegravere que le contenu des collections visuelles geacutereacutees par les orshyganisations participantes est similaire De plus elle affaiblit notre hypothegravese de deacuteshypart suggeacuterant que le nombre de termes neacutecessaires agrave la description des collecshytions visuelles est limiteacute et que ces termes seront les mecircmes dans les collections dimages deacutecrivant des objets et des situashytions de la vie quotidienne
Cependant avant de tirer des conclushysions deacutefinitives il nous reste encore agrave analyser de plus pregraves le contenu des sept lexiques teacutemoins que nous avons constishytueacutes Il est plus que probable que les synoshynymes sy retrouvent en tregraves grand nombre et plus particuliegraverement dans la liste des 1 680 termes qui napparaissent quune seule fois dans le lexique inteacutegreacute La reacuteduction du vocabulaire en fonction du
nombre de concepts diffeacuterents repreacutesenshyteacutes par les termes des sept langages dinshydexation simpose De plus il est eacutegaleshyment probable que des regroupements suppleacutementaires seront possibles lorsque les termes repreacutesentant des notions identishyques ou similaires mais agrave des niveaux hieacuteshyrarchiques diffeacuterents auront eacutegalement eacuteteacute identifieacutes
Conclusion Bien que nous nayons pu atteindre
tous les objectifs que nous nous eacutetions fixeacutes notre eacutetude nous a permis de confirshymer quil existe toujours une grande dispashyriteacute dans les meacutethodes et les outils utiliseacutes pour la repreacutesentation du contenu dans les collections dimages en mouvement
Les donneacutees que nous avons pu reshycueillir confirment quen deacutepit de labshysence freacutequente de personnel formeacute aux meacutethodes bibliotheacuteconomiques de gesshytion documentaire et malgreacute les pressions exerceacutees dans un environnement tregraves concurrentiel les organisations participanshytes arrivent agrave repeacuterer linformation voulue dans des deacutelais raisonnables mais ceci gracircce surtout agrave la technologie qui permet de chercher de plus en plus rapidement On ne sait pas cependant si ce qui est ofshyfert agrave lutilisateur est toujours ce quil y avait de plus pertinent dans la base de donshyneacutees Mecircme dans les organismes publics ougrave lon gegravere des collections dimages en mouvement les compressions budgeacutetaishyres de la derniegravere deacutecennie ont malheureushysement entraicircneacute un relacircchement des conshytrocircles au niveau des processus danalyse et de la gestion des langages documentaishyres avec les reacutesultats anticipeacutes quant agrave la qualiteacute du repeacuterage
Tous les gestionnaires de collections qui nous ont offert leur collaboration se sont montreacutes inteacuteresseacutes au projet et aux hypothegraveses proposeacutees Tous ont eacutegaleshyment trouveacute inteacuteressante et reacutealisable lideacutee dun theacutesaurus unique pouvant sershyvir de base agrave lindexation de collections dimages en mouvement deacutecrivant des
6 Les calculs ont eacuteteacute effectueacutes dans les dictionnaires suivants Dictionnaire franccedilais-anglais 1990 Noushyvelle eacutedition enrichie Paris Larousse Harraps New Shorter French and English Dictionary 1978 High Holborn London Harrap amp Co Robert-Collins dictionnaire franccedilais-anglais anglais-franccedilais 1987 Nouvelle eacutedition Paris Dictionnaire Le Robert
janvier-mars 2001 11
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)
12 janvier-mars 2001
Documentation et bibliothegraveques
objets et des situations de la vie quotishydienne Nous eacutetudions preacutesentement la possibiliteacute de creacuteer et de mettre agrave leacutepreuve un tel theacutesaurus en nous inspishyrant entre autres des reacutesultats de lanalyse lexicale des langages dindexation auxshyquels nous avons maintenant accegraves
Sources consulteacutees
Armitage L H and P G B Enser 1997 Analysis of user need
in image archives Journal of Information Science 23 (4)
287-299
Association franccedilaise de normalisation (AFNOR) 1981 Regravegles
deacutetablissement des theacutesaurus monolingues Z-47-100 Pashy
ris AFNOR
Brown P et al 1996 The Democratic indexing of images The
New Review of Hypermedia and Multimedia 2107-120
Cawkell A E 1992 Selected aspects of image processing and
management Review and future prospects Journal of Inforshy
mation Science 18179-192
1993a An Introduction to image processing and picture
management Journal of Document and Text Management
1 (1) 53-63
1993b Developments in indexing picture collections
Information Services and Use 13 (4) 381-388
Guiraud P 1960 Problegravemes et meacutethodes de la statistique linguisshy
tique Paris Presses universitaires de France 145 p
Hudon M 1994 Le Theacutesaurus conception eacutelaboration gestion
Cleacute en main Montreacuteal ASTED 220 p
Hudon M J M Turner and Y Devin 2000 How many terms are
enough Stability and dynamism in vocabulary management
for moving image collections In Dynamism and stability in
knowledge organization Proceedings of the Sixth Internatioshy
nal ISKO Conference Wurzburg Germany Ergon p 333-
338
Jackanicz D W 1999 Reviews The American Archivist 62 (1)
188-191
Panofsky E 1955 Meaning in the visual arts Papers in and on
art history Garden City New York Doubleday Anchor
Press 364 p
Ramsey M C et al 1999 A Collection of visual thesauri for brow-
sing large collections of geographic images Journal of the
American Society for Information Science 50 (9) 826-834
Rasmussen E M 1997 Indexing images Annual Review of
Information Science and Technology 32169-196
Rorvig M E et al 1999 The NASA image collection visual theshy
saurus Journal of the American Society for Information
Science 50 (9) 794-798
Setoff G A 1990 Automated access to the NASA-JSC image arshy
chives Library Trends 38 (4) 682-696
Shatford S 1986 Analysing the subject of a picture a theoretical
Academy of Motion Picture Arts amp Sciences (Beverly Hillsraquo CA) American Film Institute (Los Angeles CA) Archives and Collection (Universal City CA) Archives of Ontario (Toronto ON) Canadian Broadcasting Corporation (Toronto ON) 20th Century Fox (Beverly Hills CA) Channel One (Los Angeles CA) Chisholm Archives (Toronto ON) Cineacutemathegraveque (Montreacuteal QC) CNN (Atlanta GA) Film Reference Library (Toronto ON) Fox News (New York NY) International Image (Toronto ON) industrial Light and Magic (San Rashyfael CA) Media Archive (San Francisco CA) MGM Studios (Santa Monica CA) Milestone Film and Video (New York NY) MTV (New York NY) NBC News Archives (New York NY) New York Public Library (New York NY) NT Audio (Santa Monica CA) Office national ucircu film (Montreacuteal QC) Prelinger Archives (San Francisco CA) School of Cinema (Los Angeles CA) Socieacuteteacute Radio-Canada (Montreacuteal QC) The Image Bank (New York NY) ThirteenWNET (New York NY) TV Ontario (Toronto ON) UCLA Film amp Television Archive (Los Angeles CA) UCLA School of Cinema (Los Angeshyles CA) V tape (Toronto ON) Warner Bros Hollywood (Hollywood CA) WGBH (Boston MA)