Digi talna knjižnica 1

Post on 17-Jan-2016

37 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Digi talna knjižnica 1. Osnovni t ehnični pogoji za delovanje d-knjižnice , načini organizacije dokumentov na spletu. D-knjižnica. Zbirka ( lokalnih (?)) e-dokumentov, kazalcev na e -dokumente in institucija, ki jih ureja. Dokumenti so namenjeni rabi preko omrežja. - PowerPoint PPT Presentation

Transcript

Digitalna knjižnica 1

Osnovni tehnični pogoji za delovanje d-knjižnice,

načini organizacije dokumentov na spletu.

D-knjižnica

Zbirka (lokalnih (?)) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja.

Dokumenti so namenjeni rabi preko omrežja. Deluje po načelu virtualnosti: dokumenti

dostopni brez prostorskih in časovnih omejitev. Internet ni d-knjižnica.

D-knjižnica

Običajno je vsebinsko omejena (podobne funkcije, kot

specialna ali deloma visokošolska knjižnica), ni omejena glede tipov dokumentov in tipov

podatkov v dokumentih, vključuje le zaupanja vredne in stabilne

dokumente, uporablja dobra iskalna in prikazovalna orodja.

D-knjižnica Prednost organiziranja dokumentov v d-

knjižnici je tudi možnost storitev z dodano vrednostjo: lažje iskanje dokumentov in konkretnih mest v

dokumentih, ki opisujejo želeno tematiko, personalizacija – poznavanje uporabnikovih

zahtev (t.i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici,

možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu...

Tehnični pogoji za gradnjo d-knjižnice

Internet logična infrastruktura za uporabo funkcij d-knjižnice.

Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW).

Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.

Tehnični pogoji za gradnjo d-knjižnice

Zaradi odločitve za splet Ni potreben razvoj specializirane programske

opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici.

Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi.

Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.

Tehnični pogoji za gradnjo d-knjižnice

Vse te naloge so že razrešene v spletu. Osnovna spletna programska oprema in

aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti.

Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.

Tehnični pogoji za gradnjo d-knjižnice

Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov.

Naslavljanje dokumentov: prevladujoč standard je URL (Uniform Resource

Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta,

URL primeren le za osnovne funkcije rabe stabilnih dokumentov.

Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo.

Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).

Tehnični pogoji za gradnjo d-knjižnice

Standardni transportni protokol HTTP ustrezen za dostop do dokumentov in njihov

transport na uporabnikov računalnik, manj ustrezen za delovanje iskalnikov - otežkoča

implementacijo iskalne seanse in iskalne strategije.

Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij d-knjižnice.

Organizacija dokumentov na Internetu

Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov.

Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.

Organizacija dokumentov na Internetu

Dokument je vsak samostojno dostopen informacijski objekt: članek, monografija, domača stran osebe ali inštitucije, seznam kazalcev na dokumente, rezultati poizvedbe…

Organizacija dokumentov na Internetu

Dokument je najmanj ena samostojna datoteka.

Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka.

Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave.

Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.

Organizacija dokumentov na Internetu

Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov.

Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.

Organizacija dokumentov na Internetu

V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju.

V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.

Organizacija dokumentov na Internetu

Dva prevladujoča načina organizacije dokumentov na Internetu: seznami kazalcev na dokumente, zbirke kazalcev na dokumente.

Dva izpeljana načina organizacije: spletni portali in (kooperativni) spletni katalogi.

Seznami kazalcev na dokumente

Kriteriji urejanja kazalcev: kronološki, abecedni, geografski, glede na hierarhijo pojmov v stroki...

Seznami kazalcev na dokumente

Prednosti seznamov kazalcev: dokumenti urejeni po nekem kriteriju, npr.

vsebinskih kategorijah, kar olajšuje iskanje, večinoma vsebujejo netrivialne dokumente, manjša možnost multiplikatov…

Pomanjkljivosti seznamov kazalcev: velik vložek intelektualnega dela, neažurnost... skratka, podobne pomanjkljivosti, kot jih ima

intelektualno indeksiranje.

Seznami kazalcev na dokumente

Nekateri seznami: DMOZ

http://dmoz.org Yahoo

http://www.yahoo.com Google Directory

http://directory.google.com/ Best of the Web

http://botw.org/

Struktura direktorijev je podobna pri vseh seznamih kazalcev.

Večina seznamov je usmerjenih v zabavo.

Zanimiv primer je DMOZ, http://dmoz.org s kolektivnim in prostovoljnim urejanjem.

Zbirke kazalcev in iskalniki

Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem.

Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne.

Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.

Zbirke kazalcev in iskalniki

Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine.

Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.

Zbirke kazalcev in iskalniki

Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR.

Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene.

Dober povzetek lastnosti iskalnikov:

http://searchenginewatch.com/reports/sizes.html

Zbirke kazalcev in iskalniki

Ocena velikosti spleta, februar 2000:1 milijarda dokumentov

Izjava iskalnika Google, februar 2002:Searching 2,073,418,204 web pages

Izjava iskalnika Google, februar 2003: Searching 3,083,324,652 web pages

Izjava iskalnika Google, februar 2004: Searching 4,285,199,774 web pages

Izjava iskalnika Google, januar 2005Searching 8,058,044,651 web pages

Zbirke kazalcev in iskalniki: feb. 2000

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:

http://searchenginewatch.com/reports/sizes.html

Zbirke kazalcev in iskalniki: jun. 2001

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.

Po:

http://searchenginewatch.com/reports/sizes.html

Zbirke kazalcev in iskalniki: sep. 2003

Legenda:GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista . P

o:

http://searchenginewatch.com/reports/sizes.html

Zbirke kazalcev in iskalniki

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:

http://searchenginewatch.com/reports/sizes.html

Zbirke kazalcev in iskalniki

Legenda:GG=Google, ATW=AllTheWeb, AV=AltaVista, INK=Inktomi, TMA=Teoma Po:

http://searchenginewatch.com/reports/sizes.html

Milijarde indeksiranih dokumentov(december 1995 – september 2003)

Zbirke kazalcev in iskalniki

Uspešna plat - gradnja zbirke: zbiranje podatkov o obstoječih dokumentih z

avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…),

avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).

Delovanje avtonomnih programskih agentov

Agent 1. pregleda dokument,

2. shrani vse kazalce na druge dokumente v seznam,

3. če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira,

4. prikliče naslednji dokument iz seznama in opravi korake 1 - 3.

Zbirko stalno polni več agentov. Zaradi eksponentne rasti števila dokumentov,

splet nikoli ne more biti indeksiran v celoti.

Delovanje avtonomnih programskih agentov

Gradnja zbirk z avtonomnimi prog. agenti

Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov.

Višje povedne moči dobijo krni iz naslova, krni iz hipertekstnih kazalcev, krni z vrhnjih delov strani, krni iz poudarjenih delov dokumenta (mastni,

poševni tisk)...

Gradnja zbirk z avtonomnimi prog. agenti

Posebno učinkovit dodaten faktor računanja relevantnosti je PageRank (Google): Če avtor v svojem spletnem dokumentu postavi

kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober.

Dokumenti, na katere kaže mnogo kazalcev, dobijo visok PageRank (podobnost s citatnimi zbirkami – SCI).

PageRank dokumenta se še poveča, če nanj kažejo dokumenti z visokim PageRank-om.

Zbirke kazalcev in iskalniki

Analiza prekrivanja rezultatov iskanja (l. 1998):iskalna zahteva št. skupnih

kazalcev multilingual AND (information OR document OR text) AND retrieval AND (slovene OR slovenian)

3 / 80

latent AND semantic AND indexing 13 / 80

Analizirani iskalniki: AltaVista, Excite,

Infoseek, Lycos. Preverjeno po 20 najvišje uvrščenih kazalcev. Prešteto število kazalcev, ki se pojavljajo pri

več kot enem iskalniku.

Zbirke kazalcev in iskalniki

Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi.

Priporočilo: poskusi oblikovati čim bolj specifično iskalno

zahtevo, uporabi čimvečje število ključnih besed pri slabše

definiranih informacijskih potrebah.

top related