-
Indexarea documentelor WEB Bibliografie
Regasirea Informatiilor pe WEBCurs 02: Indexare (1)
s.l. dr. ing. Alexandru [email protected]
Facultatea de Automatica si Calculatoare, Iasi
an universitar: 2014 2015
RIWeb 2014 2015/C02: Indexare 1/ 25
-
Indexarea documentelor WEB Bibliografie
Cuprins
1 Indexarea documentelor WEBDefinitiiCaracteristici
generaleProcesul de indexareTipuri de indexareExemplificari ale
tipurilor de indecsi
RIWeb 2014 2015/C02: Indexare 2/ 25
-
Indexarea documentelor WEB Bibliografie
Motor de cautare pe WEB
Figura 1 : Arhitectura generala a motoarelor de catare pe WEB
(preluare din [2])
RIWeb 2014 2015/C02: Indexare 3/ 25
-
Indexarea documentelor WEB Bibliografie
Definitii
Notiuni intoductive
Definitii
Indexarea reprezinta procesul prin care datele unei colectii
sunt reorganizaten scopul de a fi regasite usor si precis.
Indexer-ul reprezinta acea entitate computationala
(program/multime deprograme) ce implementeaza procesul de
indexare.
WEB indexing reprezinta aplicarea procesului de indexare asupra
continutuluiWEB.
In mod uzual, algoritmii de indexare utilizati de motoarele de
cautare WEBsunt algoritmi de indexare orientati pe colectii de tip
text.
Algoritmii specializati pe indexare sunt algoritmi bazati pe
concepteinterdisciplinare din domenii precum lingvistica,
psihologie, matematica,informatica si stiinta calculatoarelor.
RIWeb 2014 2015/C02: Indexare 4/ 25
-
Indexarea documentelor WEB Bibliografie
Caracteristici generale
Caracteristici generale
Factorii ce influeteaza procesul de indexare
Combinarea valorilor unui set de indecsi: influenteaza modul n
care estetratat un document n momentul indexarii.
Dimensiunea unui index si tehnicile de stocare ale
indecsilor:influenteaza modul n care este stocata informatia
indexata si necesarul dememorie.
Viteza de regasire a unui index: este dependenta de structura de
datedestinata stocarii unui index si influenteaza rapiditatea
regasirii unui anumitindex/set de indecsi, precum si operatiile ce
tin de reactualizarea informatiilorreferite de un anumit index/set
de indecsi.
Mentenanta bazei de indecsi.
Toleranta la defecte: influenteaza modalitatea de regasire a
indecsilorcorupti, precum si functionarea indexer-ului n conditii
de indecsi corupti.
RIWeb 2014 2015/C02: Indexare 5/ 25
-
Indexarea documentelor WEB Bibliografie
Caracteristici generale
Caracteristici generale (2)
Structuri de date specifice
Arbori de indecsi structuri de date ordonate, utilizate n
stocarea vectorilor desiruri de caractere (cuvinte), cheia primara
de sortare fiind n acestcaz cuvantul n sine.
Arbori sufix sunt structuri de date arborescente, ce suporta
timpi liniari decautare. Sunt n mod frevent construiti prin
stocarea unui set decuvinte cheie prin intermediul sufixului
acestor cuvinte. Audezavantajul unui consum ridicat de memorie
pentru stocareaindecsilor.
Matrici de tip document-termen structuri de date bidimensionale,
utilizate ncadrul indexarii directe, ce retin relativ la document,
setul deindecsi ce se regasesc n cadrul documentului respectiv.
RIWeb 2014 2015/C02: Indexare 6/ 25
-
Indexarea documentelor WEB Bibliografie
Procesul de indexare
Procesul de indexare
Task de baza/Scop
Procesarea unui set de documente (caz particular documente WEB)
nvederea regasirii rapide a documentelor ce contin un anumit
cuvant/set decuvinte (index/set de indecsi).
Privit din punctul de vedere al intrarilor/iesirilor, procesul
de indexareare:
intrari: colectia de documente ce trebuie indexate;iesiri:
structuri de cautare indexate pentru colectia de intrare.
RIWeb 2014 2015/C02: Indexare 7/ 25
-
Indexarea documentelor WEB Bibliografie
Procesul de indexare
Procesul de indexare (2)
Rezultat
Dictionarul de indecsi contine cheile de indexare obtinute n
urma analizeicolectiei de documente si un set de pointeri catre
valorileindexate corespunzatoare fiecarei chei.
Setul de fisiere de index pentru fiecare cheie de indexare, n
cadrul acestorfisiere se vor retine valorile indexate asociate.
Etape principale
Pre-procesare:
mpartirea textului n cuvinte (se mai numeste
token-izare);prelucrarea listei de token-uri obtinute.
Construirea efectiva a indexului de interes.
RIWeb 2014 2015/C02: Indexare 8/ 25
-
Indexarea documentelor WEB Bibliografie
Procesul de indexare
Procesul de indexare (3)
Preprocesarea
Definitie (n general): procesul prin intermediul caruia un set
de date estealterat n vederea realizarii unei anumite analize.
Particularizare analiza/indexarea documentelor text:
transformareadocumentelor text pentru a elimina/transforma
entitatile/cuvintele ce potafecta negativ procesul de indexare.
Probleme ce trebuie adresate/rezolvate:
ce se considera cuvant semnificativ?semnele de punctuatie
exemplu: e-mail sau vs.?cand sunt semnificative valorile
numerice?cand trebuie considerate fraze/sintagme n loc de
cuvinte?cuvintele trebuie sa se regaseasca n forma de baza.
RIWeb 2014 2015/C02: Indexare 9/ 25
-
Indexarea documentelor WEB Bibliografie
Procesul de indexare
Procesul de indexare (4)
Pre-procesare etapa de token-izare
(pentru documente HTML)
1 (n mod uzual, simplist) se elimina toate etichetele HTML
n principiu, textul util din cadrul atributelor diferitelor
etichete nu esterandat de un browser Web, deci utilizatorul final
nu poate citi acest text...
2 se mparte textul ntr-o lista de cuvinte
prin cuvant se ntelege, n mod uzual, o succesiune de caractere
alfabetice(fara semne de punctuatie, caractere de tip separator,
etc.) [3];se elimina cuvintele de tip zgomot (pe baza unei liste
numite n mod uzualstopwords) [3].
RIWeb 2014 2015/C02: Indexare 10/ 25
-
Indexarea documentelor WEB Bibliografie
Procesul de indexare
Procesul de indexare (5)
Pre-procesare etapa de prelucrare a token-urilor
(stemming and lemmatization)
scopul principal al acestei etape este de a aduce cuvintele la
forma canonica;
etapa este n mod uzual una extrem de laborioasa si puternic
dependenta delimba n care este redactat documentul analizat;
(n mod uzual) exista doua tehnici prin intermediul caror se
poate realizaacest proces:
tehnici de tip stemmingimprecise, supuse unor errori aparent
ridicole (multe cazuri deexceptie), dar foarte rapide
Porter [2, 3], Lovins [2], Paice stemmer [2];
tehnici de tip analiza morfologica (eng.
lemmatization)rezultatele sunt mult mai precise, dar procesul este
unulextrem de laborios [2].
RIWeb 2014 2015/C02: Indexare 11/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare
Indexarea directa
Definitie: reprezinta modalitatea de indexare ce are drept scop
determinareaindecsilor relativ la document.
Utilizeaza structuri de date ordonate, pentru care cheia primara
de ordonareeste data de un identificator unic al documentului.
Sinonim indexare orizontala.
Forma generala
< docID : {termIDx |termIDx docID} >unde:
docID identificator numeric atasat unui document;
termIDx identificator numeric atasat unui token (cuvant obtinut
dupapre-procesare) inclus n documentul curent.
RIWeb 2014 2015/C02: Indexare 12/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (2) Indexarea directa
Utilitatea acestei forme de indexare
Indecsii inversi sunt, n mod uzual, construiti pe baza
indecsilor directicorespunzatori.
Indecsii directi sunt utilizati n cadrul diferitelor metode de
analiza decontinut si pot contribui la determinarea relevantei unui
document relativ la oanumita sintagma de cautare.
RIWeb 2014 2015/C02: Indexare 13/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (3) Indexarea directa (2)
Sub-clase ale index-ului direct
Boolean lista termIDx cuprinde token-urile o singura data, fara
alte datesuplimentare;
Cantitativ lista termIDx cuprinde pentru fiecare token si
numarul de aparitiin cadrul documentului;
Pozitional lista termIDx cuprinde pentru fiecare token si
numarul de aparitiin cadrul documentului si, pentru fiecare
aparitie, pozitia relativaa acelei aparitii (ca numar de
ordine);
aceasta ultima forma este mai putin utilizata.
RIWeb 2014 2015/C02: Indexare 14/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (4)
Indexarea inversa
Definitie: reprezinta modalitatea de indexare ce are drept scop
determinareadocumentelor relativ la index.
Utilizeaza structuri de date ordonate, pentru care cheia primara
de ordonareeste data de indecsi sau de identificatori unici ai
indecsilor.
Sinonim indexare verticala.
Forma generala
< termID : {docIDy |termID docIDy} >unde:
termID identificator numeric atasat unui token (cuvant obtinut
dupapre-procesare);
docIDy identificator numeric atasat unui document n cadrul
caruia seregaseste token curent.
RIWeb 2014 2015/C02: Indexare 15/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (5) Indexare inversa
Utilitatea acestei forme de indexare
Indexarea inversa reprezinta componenta de baza a oricarui motor
decautare!!
RIWeb 2014 2015/C02: Indexare 16/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (6) Indexare inversa (2)
Sub-clase ale indexului invers
Boolean lista docIDy contine numai ID-urilor acelor documente ce
contintoken-ul curent, fara alte date suplimentare;
n mod uzual, aceasta forma de indexare inversa este utilizata
ncadrul motoarelor de cautare ce implementeaza functii
booleenesimpliste.
Cantitativ lista docIDy contine lista ID-urile acelor documente
ce contintoken-ul curent si, pentru fiecare docIDy , numarul de
aparitii aletoken-ului n cadul documentului docIDy ;
n aceasta forma, un astel de index nu este foare util n
cadrulmotoarelor de cautare.
RIWeb 2014 2015/C02: Indexare 17/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (7) Indexare inversa (3)
Sub-clase ale indexului invers (2)
Bi-cuvant (eng. biword index) [2]
reprezinta o derivare a formelor anterioare, menita sa
adresezeinterogarile complexe ale utilizatorilor;
fata de forma generala, indexul invers este populat astfel ncat
saincluda si perechi de token-uri consecutive:< termIDi
termIDi+1 : {docIDy |termIDi docIDy and termIDi+1 docIDy}
>;poate complica mult construirea indexului si nu rezolva decat
uncaz particular de interogari ale utilizatorilor.
RIWeb 2014 2015/C02: Indexare 18/ 25
-
Indexarea documentelor WEB Bibliografie
Tipuri de indexare
Tipuri de indexare (8) Indexare inversa (4)
Sub-clase ale indexului invers (3)
Pozitional
lista docIDy este alterata astfel ncat sa contina
ID-uriledocumentelor ce includ token-ul curent, pentru fiecare
astfel de ID numarul de aparitii n cadrul documentului, si pentru
fiecareastfel de aparitie, pozitia relativa n cadrul
documentului:
< termID : {(docIDy , counttermID : {positioniy |i 1
counttermID}
)}, ...>
unde
counttermID numarul de aparitii alte token-ului n cadrul
luidocIDy ;
RIWeb 2014 2015/C02: Indexare 19/ 25
-
Indexarea documentelor WEB Bibliografie
Exemplificari ale tipurilor de indecsi
Exemplificarea diferitelor tipuri de indecsi
Colectia de documente
Doc1 Data mining este o tehnica noua de analiza a datelor.
Doc2 Tehnicile data mining pot aduce informatii noi.
Doc3 Datele sunt colectate prin tehnici specifice.
Vocabular de lucru
data, mining, tehnica, noutate, analiza, informatie
RIWeb 2014 2015/C02: Indexare 20/ 25
-
Indexarea documentelor WEB Bibliografie
Exemplificari ale tipurilor de indecsi
Exemplificarea diferitelor tipuri de indecsi (2)
Tabelul 1 : Index direct boolean
Doc1 {analiza, data, mining, noutate, tehnica}Doc2 {data,
informatie, mining, noutate, tehnica}Doc3 {data, tehnica}
RIWeb 2014 2015/C02: Indexare 21/ 25
-
Indexarea documentelor WEB Bibliografie
Exemplificari ale tipurilor de indecsi
Exemplificarea diferitelor tipuri de indecsi (3)
Tabelul 2 : Index direct cantitativ
Doc1 {(analiza, 1), (data, 2), (mining, 1), (noutate, 1),
(tehnica, 1)}Doc2 {(data, 1), (informatie, 1), (mining, 1),
(noutate, 1), (tehnica, 1)}Doc3 {(data, 1), (tehnica, 1)}
RIWeb 2014 2015/C02: Indexare 22/ 25
-
Indexarea documentelor WEB Bibliografie
Exemplificari ale tipurilor de indecsi
Exemplificarea diferitelor tipuri de indecsi (4)
Tabelul 3 : Index invers cantitativ
analiza {(Doc1, 1)}data {(Doc1, 2), (Doc2, 1), (Doc3,
1)}informatie {(Doc2, 1)}mining {(Doc1, 1), (Doc2, 1)}noutate
{(Doc1, 1), (Doc2, 1)}tehnica {(Doc1, 1), (Doc2, 1), (Doc3, 1)}
RIWeb 2014 2015/C02: Indexare 23/ 25
-
Indexarea documentelor WEB Bibliografie
Exemplificari ale tipurilor de indecsi
Exemplificarea diferitelor tipuri de indecsi (5)
Tabelul 4 : Index invers pozitional
analiza {(Doc1, 1: )}data {(Doc1, 2: ), (Doc2, 1: ), (Doc3, 1:
)}informatie {(Doc2, 1: )}mining {(Doc1, 1: ), (Doc2, 1: )}noutate
{(Doc1, 1: ), (Doc2, 1: )}tehnica {(Doc1, 1: ), (Doc2, 1:), (Doc3,
1: )}
RIWeb 2014 2015/C02: Indexare 24/ 25
-
Indexarea documentelor WEB Bibliografie
Bibliografie
1 M. Craus et al., Regasirea Informatiilor pe WEB, Editura
POLITEHNIUM,Iasi 2005, capitolul 4
2 Christopher D. Manning, Prabhakar Raghavan and Hinrich
Schutze,Introduction to Information Retrieval, Cambridge University
Press. 2008
3 Raymond J. Mooney Information Retrieval and Web Search (note
de curs)
4 Wikipedia Index (search engine)
RIWeb 2014 2015/C02: Indexare 25/ 25
Indexarea documentelor WEBDefinitiiCaracteristici
generaleProcesul de indexareTipuri de indexareExemplificari ale
tipurilor de indecsi