13/05/2011 1 La Ricerca dell‟Informazione per le Scienze Umane 13 maggio 2011 1 Informatica per le Discipline Umanistiche - Mauro Cadei La Ricerca dell‟Informazione: Oggetti e Attori 13 maggio 2011 2 Informatica per le Discipline Umanistiche - Mauro Cadei Documento conoscenze e informazioni letteratura di riferimento per una specifica disciplina informazione fattuale (dati) sono registrate su supporti fisici documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale … 13 maggio 2011 3 Informatica per le Discipline Umanistiche - Mauro Cadei Documento risorsa continuativa (più frequente in ambito analogico): documento costituito da più parti che si aggiungono successivamente al contenuto iniziale (es.: rivista, opera multivolume) risorsa integrativa (più frequente in ambito digitale): documento il cui contenuto è modificato con frequenza elevate (es. home page di un sito web) ciclo di vita: periodo di tempo nel quale il contenuto del documento è aggiornato o rilevante 13 maggio 2011 4 Informatica per le Discipline Umanistiche - Mauro Cadei Esigenza Informativa 13 maggio 2011 5 Informatica per le Discipline Umanistiche - Mauro Cadei Anomalous State of Knowledge (ASK): percezione soggettiva di una lacuna di conoscenza che determina una ricerca d‟informazione ricerca di un documento conosciuto (known item search) ricerca di un argomento specifico (specific subject search) esplorazione (browsing) all‟interno di un ambito disciplinare navigazione (surfing) partendo da un documento e seguendo collegamenti serendipità (serendipity): guidato solo dalla curiosità spero di essere fortunato e trovare qualcosa d‟interessante Ricerca di Informazioni tacit knowledge retrieval: rivolgersi ad un esperto information retrieval: interrogare il catalogo di una biblioteca, una web directory, un motore web … full text retrieval: consultare un documento reference linking: consultare i documenti riferiti in un documento 13 maggio 2011 6 Informatica per le Discipline Umanistiche - Mauro Cadei
11
Embed
Informatica per le discipline umanistiche - maurocadei.it · La Catalogazione Semantica: la Classificazione 13 maggio 2011 35 Informatica per le Discipline Umanistiche - Mauro Cadei
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
13/05/2011
1
La Ricerca dell‟Informazione
per le Scienze Umane
13 maggio 2011
1
Informatica per le Discipline Umanistiche - Mauro Cadei
La Ricerca dell‟Informazione:
Oggetti e Attori
13 maggio 2011
2
Informatica per le Discipline Umanistiche - Mauro Cadei
Documento
conoscenze e informazioni
letteratura di riferimento per una specifica disciplina
informazione fattuale (dati)
sono registrate su supporti fisici
documento(risorsa informativa) = supporto + contenuto analogico o digitale
locale o remoto (accessibile in rete)
testuale, grafico, multimediale …
13 maggio 2011
3
Informatica per le Discipline Umanistiche - Mauro Cadei
Documento
risorsa continuativa (più frequente in ambito analogico): documento costituito da più parti che si aggiungono successivamente al contenuto iniziale(es.: rivista, opera multivolume)
risorsa integrativa (più frequente in ambito digitale): documento il cui contenuto è modificato con frequenza elevate(es. home page di un sito web)
ciclo di vita: periodo di tempo nel quale il contenuto del documento è aggiornato o rilevante
13 maggio 2011
4
Informatica per le Discipline Umanistiche - Mauro Cadei
Esigenza Informativa
13 maggio 2011
5
Informatica per le Discipline Umanistiche - Mauro Cadei
Anomalous State of Knowledge(ASK): percezione soggettiva di una lacuna di conoscenza che determina una ricerca d‟informazione
ricerca di un documento conosciuto(known item search)
ricerca di un argomento specifico(specific subject search)
esplorazione (browsing) all‟interno di un ambito disciplinare
navigazione (surfing) partendo da un documento e seguendo collegamenti
serendipità (serendipity): guidato solo dalla curiosità spero di essere fortunato e trovare qualcosa d‟interessante
Ricerca di Informazioni
tacit knowledge retrieval: rivolgersi
ad un esperto
information retrieval: interrogare il
catalogo di una biblioteca, una
web directory, un motore web …
full text retrieval: consultare un
documento
reference linking: consultare i
documenti riferiti in un documento
13 maggio 2011
6
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
2
Information Retrieval (IR)
processo interattivo
richiesta (query) formulata dall‟utente (chi cerca le informazioni)
risposta (result) fornita da un sistema che
seleziona, tra tutte le informazioni di cui dispone, quelle pertinenti con la query
indicizza le informazioni (indica come reperire i documenti che le contengono)
ordina le informazioni secondo il grado di rilevanza (relevanceranking)
13 maggio 2011
7
Informatica per le Discipline Umanistiche - Mauro Cadei
Information Retrieval
disciplina tecnico/scientifica
nata negli anni „50
classical IR: nelle DB
web IR: nei motori di ricerca
13 maggio 2011
8
Informatica per le Discipline Umanistiche - Mauro Cadei
I Metadati
13 maggio 2011
9
Informatica per le Discipline Umanistiche - Mauro Cadei
Query
query con
termini generici
su motore
generalista
es: “Umberto Eco
tesi” su Google
(quasi 60.000
risultati)
13 maggio 2011
10
Informatica per le Discipline Umanistiche - Mauro Cadei
Query
query con valori
qualificati su motore
specialistico
es.
Google Libri
Titolo = “tesi”
Autore = “Umberto Eco”
(1 risultato)
13 maggio 2011
11
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati per l‟IR
metadato: attributo strutturato del documento che ne promuove il reperimento
indicizzazione: inserimento di metadati (cercando di anticipare i criteri di ricerca)
record: insieme di metadati che fornisce una descrizione sufficientemente articolata del documento
schema di metadati: insieme predefinito di elementi che per ogni metadato indicano
nome (etichetta)
valore che può assumere
regole di utilizzo
formati di scambio (per la condivisione con altri sistemi)
13 maggio 2011
12
Informatica per le Discipline Umanistiche - Mauro Cadei
Ih kj kjh kjh kjh kjh kjh
jj lkj lkj lkj lkj lkj lkj lkj
lkj lkj lkj lkj lkj lkj lkj
lkj lk jlk jlk jlk jl kjl kj
lkj lkj lkjl kj lkj lkj lkj.
Lkj lkj lk jlk jlk jlk jl kjl
kj lkj lkj lkj lkj lkj lkj
lkj.
hgfhhgf hgf hgf hg
hgf hgf hgf hgf hg
hgf hgf hggf hgf hf
hgf hgfh gfhgf hgf
hgf hgf hg hgf.
gjh jhg jhg jh jhg jhg
metadato
metadato
metadato
metadato
metadato
13/05/2011
3
Indicizzazione
manuale
catalogatore: operatore umano specializzato che si occupa dell‟indicizzazione (di solito solo da frontespizio e poche altre parti (paratesto))
abstract: indicizzazione di articoli scientifici da parte dell‟autore
social tagging: indicizzazione distribuita nel web
automatica
eseguita da un sistema di IR
può essere su tutto il testo (full text indexing)
13 maggio 2011
13
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati
descrittivi (es. titolo, autore, lingua, data di pubblicazione …)
identificatore (es. ISBN, DOI …)
semantici: riguardano il contenuto intellettuale (es. parole chiave, abstract, codice di classificazione …)
di localizzazione: riguardano l‟esemplare fisico o copia del documento (es. segnatura, URL …)
amministrativi e gestionali: riguardano le modalità di archiviazione e manutenzione
strutturali: collegano le varie componenti di risorse composte
13 maggio 2011
14
Informatica per le Discipline Umanistiche - Mauro Cadei
ISBN
International Standard Book Number
www.isbn.it
13 cifre (5 parti separate da “-”)
prima parte (3 cifre): identifica il tipo di manufatto (libro: 978 e in futuro anche 979)
seconda parte: area linguistica (identifica il Paese o l'area linguistica dell'editore)
quinta parte (1 cifra): numero di controllo (garanzia contro possibili errori)
13 maggio 2011
15
Informatica per le Discipline Umanistiche - Mauro Cadei
DOI
Digital Object Identifier: standard che consente l'identificazione duratura, all'interno di una rete digitale, di qualsiasi entità che sia oggetto di proprietà intellettuale (testi, immagini, risorse audio o video, software …) e di associarvi metadati
www.doi.org
benefici:
persistenza (alla modifica dell‟ubicazione del materiale …)
cooperazione con altri dati, provenienti da altre fonti
estensibilità (possibile aggiungere nuove caratteristiche e servizi attraverso l‟amministrazione dei Gruppi dei DOI Name)
indipendenza dalla piattaforma
aggiornamenti dinamici
13 maggio 2011
16
Informatica per le Discipline Umanistiche - Mauro Cadei
Metadati
esterni: registrati all‟esterno del
documento primario, in un
documento secondario
(surrogato)
(es. scheda catalografica)
interni: all‟interno del documento
primario
specifici tag nei documenti digitali
(es. tag nello header dei file
HTML)
13 maggio 2011
17
Informatica per le Discipline Umanistiche - Mauro Cadei
Elenchi di Record di Metadati
13 maggio 2011
18
Informatica per le Discipline Umanistiche - Mauro Cadei
indici: liste di surrogati,
supportano il browsing
(es. bibliografie, web directory
…)
gestiti in modalità DB:
supportano ricerche più articolate
(es. cataloghi online di
biblioteche …)
13/05/2011
4
La Biblioteca come Sistema di IR
13 maggio 2011
19
Informatica per le Discipline Umanistiche - Mauro Cadei
Biblioteca Tradizionale
missione: rendere liberamente accessibili le informazioni di interesse per il pubblico di riferimento
funzioni:
selezionare e acquisire documenti
disporli fisicamente nella collezione
segnalarne la presenza agli utenti (catalogo, strumenti di disseminazione)
facilitarne la ricerca e l‟accesso (reference: istruzione e aiuto agli utenti)
gestirne la circolazione (consultazione, prestito, copie analogiche e digitali (download))
necessità di confrontarsi con le nuove realtà di gestione e circolazione delle conoscenze (web …)
funzioni di gestione: automazione, accesso online
13 maggio 2011
21
Informatica per le Discipline Umanistiche - Mauro Cadei
IR in Biblioteca
biblioteca a scaffale aperto
disposizione fisica dei documenti per argomento
browsing a scaffale
biblioteca a scaffale chiuso
catalogo: collezione di surrogati (schede catalografiche)
intestazione (punto di accesso): metadato utilizzato come criterio di ordinamento
segnatura: metadato che indica la collocazione fisica
descrizione: altri metadati
13 maggio 2011
22
Informatica per le Discipline Umanistiche - Mauro Cadei
Catalogo
catalogo per autore/titolo: intestazione = cognome dell‟autore o titolo per opere anonime o collettive, riviste …
catalogo per soggetto: intestazione = stringa di testo che esprime l‟argomento
catalogo cartaceo: schede mobili in cassetti
catalogo informatizzato: realizzato con DB
OPAC (Online Public Access Catalog): online
13 maggio 2011
23
Informatica per le Discipline Umanistiche - Mauro Cadei
La Catalogazione Bibliotecaria
13 maggio 2011
24
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
5
Catalogazione Bibliografica
ramo della biblioteconomia (library science)
principi internazionali di catalogazione(Statement of International CataloguingPrinciples) (2009)
standard catalografici: schemi di metadati
metadati descrittivi
International Standard Bibliographic Description(ISBD) (2007)
codici di catalogazione nazionali:
in Italia: Regole Italiane di Catalogazione (RICA) (2009)
metadati semantici testuali (soggetti)
in Italia: Nuovo Soggettario (2006)
metadati semantici codificati (codici di classificazione)
Classificazione Decimale Dewey
13 maggio 2011
25
Informatica per le Discipline Umanistiche - Mauro Cadei
Registrazione Bibliografica
record bibliografico
visualizzazione
nell‟OPAC
intestazione
segnatura
13 maggio 2011
26
Informatica per le Discipline Umanistiche - Mauro Cadei
Registrazione Bibliografica
visualizzazione in formato UNIMARC XML (formato di scambio internazionale tra le biblioteche basato su XML)
punti di accesso indispensabili: metadati indicizzati più utilizzati come criteri di ricerca (titolo, autore, soggetto, anno, identificatore standard)
punti di accesso aggiuntivi: gli altri metadati (Paese, lingua …)
13 maggio 2011
27
Informatica per le Discipline Umanistiche - Mauro Cadei
Controllo di Autorità
effettuato dal
catalogatore per
risolvere problemi
di omonimia e
sinonimia
si crea un record
di autorità e le
varianti sono rinvii
ad esso
13 maggio 2011
28
Informatica per le Discipline Umanistiche - Mauro Cadei
Entità dell‟Universo Bibliografico
opera: puro contenuto intellettuale di un documento
espressione: modo in cui l‟opera si realizza (es. in forma di testo, in
forma di immagini in movimento …)
manifestazione: l‟oggetto fisico in cui l‟espressione si materializza (es. il libro, il film …)
esemplare: la singola copia che istanzia la manifestazione (es. una copia del libro o di un DVD …)
13 maggio 2011
29
Informatica per le Discipline Umanistiche - Mauro Cadei
Relazioni tra Documenti
relazione di equivalenza: tra i documenti cambia solo la manifestazione (es. fotocopie, ristampe, digitalizzazioni …)
relazione derivativa: cambia solo l‟espressione (es. traduzioni, nuove edizioni, revisioni, riduzioni cinematografiche)
relazione descrittiva: cambia l‟opera: uno dei documenti commenta, critica, recensisce o analizza l‟altro
relazione sequenziale: un documento continua l‟altro (es. sequel di un film)
relazione di accompagnamento: un documento si aggiunge ad un altro (es. supplemento di una rivista)
13 maggio 2011
30
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
6
La Catalogazione Semantica:
la Soggettazione
13 maggio 2011
31
Informatica per le Discipline Umanistiche - Mauro Cadei
Soggettazione
descrizione dell‟argomento
principale (aboutness) del
documento con una o più stringhe
di testo strutturate (soggetti)
i termini della stringa sono scelti
da un vocabolario controllato
regole in Italia: Nuovo
Soggettario (2006)
13 maggio 2011
32
Informatica per le Discipline Umanistiche - Mauro Cadei
Soggettazione: Esempio
titolo: “I rag@zzi del web - I preadolescenti e Internet: una ricerca”
soggetto:
Oggetto: Internet
Azione: Internet – Diffusione
Agente/Beneficiario: Internet –Diffusione – Adolescenza
Forma del contenuto: Internet –Diffusione – Adolescenza -Inchieste
13 maggio 2011
33
Informatica per le Discipline Umanistiche - Mauro Cadei
Controllo del Vocabolario
linguaggio di indicizzazione: vocabolario dei termini utilizzati per la soggettazione non controllato: utilizza i termini
contenuti nel documento da catalogare (es. liste di keyword)
controllato: si basa su un vocabolario controllato, elenco di descrittori, termini preferiti cui sono associati termini non-preferiti (sinonimi, quasi sinonimi, forme varianti …)
thesauro: vocabolario controllato con indicazione delle relazioni tra i descrittori di concetti correlati
13 maggio 2011
34
Informatica per le Discipline Umanistiche - Mauro Cadei
La Catalogazione Semantica:
la Classificazione
13 maggio 2011
35
Informatica per le Discipline Umanistiche - Mauro Cadei
Classificazione Bibliografica
classificazione dei documenti in aree disciplinari
attribuisce ad ogni documento un codice
alfabetico
numerico
misto
utile anche per la collocazione a scaffale
si basa su uno schema di classificazione
ambito di applicazione
generale: per l‟intero sapere umano
specialistico: per singole discipline
rappresentazione dei concetti
enumerativo: i concetti sono elencati gerarchicamente
a faccette: ogni concetto è la combinazione di singoli termini (faccette)
13 maggio 2011
36
Informatica per le Discipline Umanistiche - Mauro Cadei
lo schema più diffuso nel mondo (30 lingue, 135 paesi, 60 biblioteche nazionali)
schema generale, enumerativo
codice numerico
13 maggio 2011
37
Informatica per le Discipline Umanistiche - Mauro Cadei
Classificazione Decimale Dewey
classificazione gerarchica del sapere
10 classi (aree disciplinari)
000: generalità
100: flosofia
200: religione
300: scienze sociali
400: linguaggio
500: scienze naturali e matematiche
600: tecnologia (scienze applicate)
700: belle arti e arti decorative
800: letterature
900: geografia - storia13 maggio 2011
38
Informatica per le Discipline Umanistiche - Mauro Cadei
CDD: Esempio
13 maggio 2011Informatica per le Discipline Umanistiche - Mauro Cadei
39
Zangara Aldo, “Il post-infarto e le patologie associate: interventi preventivi, curativi e riabilitativi nella pratica clinica”, Piccin, 1997, ISBN 88-299-1353-7
600 scienze applicate
610 medicina
616 malattie
616.1 specifiche malattie
616.12 malattie del cuore
616.123 malattie delle coronarie
616.1237 infarto miocardico
616.123705 misure preventive
La Ricerca dell‟Informazione
13 maggio 2011
40
Informatica per le Discipline Umanistiche - Mauro Cadei
Informatica per le Discipline Umanistiche - Mauro Cadei
MetaOPAC: TEL
The European Library
www.theeuropeanlibrary.org
13 maggio 2011
53
Informatica per le Discipline Umanistiche - Mauro Cadei
Social Cataloguing
social tagging applicato
alla catalogazione
metadati di giudizio
raccomandazioni
recensioni
voti
in genere i record
bibliografici sono
importati da OPAC
13 maggio 2011
54
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
10
Social Cataloguing: LibraryThing
www.librarything.it13 maggio 2011
55
Informatica per le Discipline Umanistiche - Mauro Cadei
Accesso ai Documenti Primari
in Internet
13 maggio 2011
56
Informatica per le Discipline Umanistiche - Mauro Cadei
Barriere all‟Accesso
non sempre è possibile aprire il testo pieno di un documento
barriere economiche: richiesta di abbonamento o pay-per-view
barriere legali: legate al copyright, strumenti di digital rights management inibiscono alcuni utilizzi (stampa, download …)
barriere tecniche formati proprietari che richiedono SW a
pagamento
formati non interoperabili
forme non fruibili per i disabili
13 maggio 2011
57
Informatica per le Discipline Umanistiche - Mauro Cadei
Archivio Aperto
biblioteca digitale che supporta l‟autoarchiviazionedei documenti da parte degli autori
nasce in ambito accademico per supportare la circolazione del sapere tra i ricercatori archivio istituzionale: supporta
i ricercatori collegati ad un‟istituzione (tesi, preprint, dispense, slide …)
archivio disciplinare: contributi in un ambito scientifico da tutto il mondo
13 maggio 2011
58
Informatica per le Discipline Umanistiche - Mauro Cadei
HAL
Hyper Articles en Lignehttp://hal.archives-ouvertes.fr
archivio aperto istituzionale nazionale francese13 maggio 2011
59
Informatica per le Discipline Umanistiche - Mauro Cadei
arXiv
www.arxiv.org
archivio aperto disciplinare
fisica
matematica
informatica
biologia quantitativa
finanza quantitativa
statistica
oltre 600.000 articoli
13 maggio 2011
60
Informatica per le Discipline Umanistiche - Mauro Cadei
13/05/2011
11
PubMed Central
www.pubmedcentral.nih.gov
archivio aperto disciplinare (medicina)
13 maggio 2011
61
Informatica per le Discipline Umanistiche - Mauro Cadei
Rivista Open Access
rivista
con comitato editoriale
con processo di revisione per la selezione degli articoli
pubblicata in un archivio aperto
Directory of Open Access Journals(www.doaj.org): ne elenca oltre 5.000
13 maggio 2011
62
Informatica per le Discipline Umanistiche - Mauro Cadei
Valutazione dei Sistemi di IR
13 maggio 2011
63
Informatica per le Discipline Umanistiche - Mauro Cadei
Metriche sui Sistemi di IR
rilevanza: indica l‟interesse dell‟utente nei confronti dei documenti reperiti: non è oggettiva, dipende dalle conoscenze pregresse dell‟utente (doppioni, documenti simili, ridondanze …)
precisione: percentuale di documenti rilevanti per l‟utente rispetto al totale dei risultati
rumore: percentuale di documenti irrilevanti per l‟utente rispetto al totale dei risultati
richiamo: percentuale di documenti rilevanti reperiti rispetto al totale dei documenti rilevanti presenti nell‟intera collezione
silenzio: percentuale di documenti rilevanti non reperiti
novelty ratio: percentuale di documenti rilevanti reperiti precedentemente sconosciuti all‟utente
coverage ratio: rapporto tra i documenti rilevanti reperiti e i documenti rilevanti già noti all‟utente
13 maggio 2011
64
Informatica per le Discipline Umanistiche - Mauro Cadei
Legge di Mooers
Calvin Mooers (1952): “un sistema di IR tenderà a non essere usato quando trovare le informazioni è più noioso e doloroso che non trovarle”
rapidità: dipende da
velocità del sistema nel processare la query
capacità del sistema di far risparmiare tempo all‟utente
facilità d’uso: dipende da
facilità di apprendimento delle funzioni del sistema
possibilità di personalizzazioni
efficacia della presentazione dei risultati e dell‟accesso ai documenti primari
13 maggio 2011
65
Informatica per le Discipline Umanistiche - Mauro Cadei
FINE66
Informatica per le Discipline Umanistiche - Mauro Cadei 13 maggio 2011