Top Banner
Kooperační systém článkové bibliografie a báze ANL, ANL FULL INFOS´ 2003 Knižnice - mosty informačnej spoločnosti Stará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS
34

Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Jan 03, 2016

Download

Documents

reed-sullivan

Kooperační systém článkové bibliografie a báze ANL, ANL FULL INFOS´ 2003 Knižnice - mosty informačnej spoločnosti Stará Lesná, 7.-10.4. Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Kooperační systém článkové bibliografie a báze ANL, ANL

FULLINFOS´ 2003

Knižnice - mosty informačnej spoločnosti

Stará Lesná, 7.-10.4.

Ivana Anděrová, oddělení analytického zpracování

NKČR

KOSABI, ANOPRESS

Page 2: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích

na Internetu -1• Nutnost nových modelů získávání, zpracování a zpřístupňování

bibliografických informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování

• Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části.

• Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).

• Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).

Page 3: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Současné trendy ve zpřístupňování plných textů a bibliografických informací o

článcích na Internetu -2• Metadata : bibliografický záznam (MARC), DC - metadatový formát pro

www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované.

• Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).

• Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě.

• XML/RDF: popis systému značek DTD (Document Type Description) tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky.

• Identifikace plných textů: URL , PURL (databáze, PURL je přiřazeno danému URL), URN , SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv).

• Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.

Page 4: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Současné trendy ve zpřístupňování plných textů a bibliografických informací o

článcích na Internetu - 3• Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol

HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML, XHTML, XML/RDF.

• Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).

• Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).

• Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.

Page 5: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Současné trendy ve zpřístupňování plných textů a bibliografických informací o

článcích na Internetu - 4

• Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny.

• Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí.

• Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně.

• Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla.

Page 6: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Článková bibliografie a zpřístupnění plných textů - některé projekty řešené

v NKČR• Souborná databáze Kooperačního systému

článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004).

• Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003).

Page 7: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

• Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a „širší“ (plus oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem.

• Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL.

• Kooperace po linii regionální a oborové. • Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r.

1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR.

• Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty.

• Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI.

Bibliografické zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL

FULL. SKAT (Lanius)

Page 8: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

ANL, ANL FULLNKČR

KOSABI

MZK

????

krajská knihovna

odborná knihovna

SKAT (LANIUS)městské/okresní knihovny

Page 9: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Excerpční základna KOSABI

• Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost:

• A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR

• B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR

• C: noviny (ústřední, regionální) a kulturně politické časopisy

• D: populárně naučné časopisy• Vyloučena periodika místní, závodní a zábavného

charakteru, časopisy pro děti event. mládež

Page 10: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Úplnost excerpce a kategorie titulů

• A: 1 (100-80 %)

• B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %)

• C: 2, 3 (80-25, někdy méně) %)

• D: 3 (25 – méně %)

Page 11: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Výběr typů článků• Faktograficky přínosné články.• Články odborné, články s dokumentární a uměleckou hodnotou.• Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení).• Zprávy a informace o kulturních, sportovních, politických, vědeckých

aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích).

• Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře.

• Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky).

• Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné).

• Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.

Page 12: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Profil ANL a ANL FULL

• Výběrové článkové databáze.• Obory: všechny (lékařství a sport okrajově, technika posílila).• Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL

FULL zatím převažuje kategorie C .• Úplnost excerpce (výběr článků vzhledem k typům seriálů). • Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2,

MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML.

• ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-).• ANL FULL/linka zpracování bibliografických záznamů z

plných textu/TOPIC (107 000 plných textů s metadaty, 16 titulů, r. 1997-).

• Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface

Page 13: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Akvizice dokumentů -

ANL

Lokální pracovní

stanice systémů

servery (lokální)

Aplikační,datové

ANL

OPAC Web servery (lokální)

OPACWeb server – báze

ANL

ALEPH MNG KOSABI (Oracle, Linux)

Server ANL

MNG KOSABI – bibliografická báze ANL,

plnotextová báze ANL FULL

(Dell, TOPIC, WinNT), ANL

FULL

Server full.nkp.cz

Akviziceplných textů

(pro ANL FULL z báze TamTam)

Internet Information

Server – báze ANL FULL

Linka TTDE

Page 14: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Management báze ANL

• Aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace:

• upload předávání dat od kooperujících institucí do KOSABI;

• import dat na server ANL, export dat do báze ANL- ALEPH);

• kontrola na duplicity vně ALEPHu - klíče;• báze titulů.

Page 15: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Management ANL FULL

• Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam).

• Báze ANL FULL v systému TOPIC.

• Strukturovaný portál Periodika na WWW.

Page 16: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Linka zpracování bibliografických záznamů z plných textů - lokální stanice

TamTamdokumenty

TTSNK

TamTam Data Extractor

TTDE

extrakce dat

generování dat

editování dat

TTDE

extrakce dat

generování dat

editování dat

Formulář UNIMARC-A UNIMARC Dublin CoreZobrazovací

hlavička

Indexovací

hlavička

Výstup

HTML, DC

pro TOPIC+

UNIMARC

pro ALEPH

Page 17: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Vyhledání příslušného zdroje

Page 18: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Označení článků a jejich stáhnutí

Page 19: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Doplnění dat do formuláře – 1. strana ze 3. Po doplnění

dat odeslání dat do ANL a ANL FULL

Page 20: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Bibliografická báze ANL. Zobrazení plného textu přes bibliografický

záznam ANL

Page 21: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Plnotextová báze ANL FULL. Systém TOPIC - principy

Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o.

• Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky.

• Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy.

• Kvantifikace obsahu dokumentů.

• Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization).

• Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).

Page 22: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Topik=dotaz• Dotaz - výraz složený ze slov a frází, který hledáme v

dané databázi.• Topik - je předem definovaný uložený strukturovaný

dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání.

• Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy).

• Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu.

• Topik je konceptuální popis znalosti o dané problematice ve formě znalostního stromu.

• Definice topiků tvoří tzv. znalostní bázi.

Page 23: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Detail topiku ekologie, životní prostředí

Page 24: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání

• Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků.

• Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz.

• Tři druhy formulářů: základní, rozšířený, rozšířený s tématy.

• Seznam výsledků: jednoduchý, se souhrnem, seskupený.

• Třídění seznamu: skóre, výsl./str., vlastní třídění.

• Zobrazení metadat: uživatelské formáty, pracovní formáty.

• Rejstříky - nadefinováno 17 rejstříků.

Page 25: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Dotaz v rozšířeném formuláři s tématy - topik ekologie, životní prostředí, dotaz krajina

Page 26: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Vyhledaný článek na základě topiku ekologie, životní prostředí

Page 27: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Metadata v XML

Page 28: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Označení článků ke stažení

Page 29: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Stažení plných textů - TTSNK

Soubor bibliografických

záznamů pro ANL ALEPH s propojením na

plný text a báze ANL

Zpracování plných textů - TTDE

Soubor metadat a plných textů pro ANLFULL v NK na serveru  FULL.NKP.CZ

Vyhledávání a zobrazení záznamů s

propojením na plný text v

ALEPHu - báze ANL

Vyhledávání, zobrazení

metadat a plných textů - báze ANL

FULL v NK na serveru

FULL.NKP.CZ

Export metadat,

plných textů

Soubor metadat (plných textů) pro prostor mezi NK aj.

inst. (nakladatelství, vydavatelství, inf.

agentury aj.)

Majitel plného

textu/vlastník autorských

práv (nakladatel, vydavatel,

inf. agentura aj.)

---

Budoucnost linky?

Page 30: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

• Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně.

• Přerozdělení titulů, kde bude potřeba• KOSABI a SKAT - koordinace zpracování titulů

v budoucnu.• Spolupráce s dalšími knihovnami a informačními

institucemi.• Spolupráce se společností Anopress, event.

navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).

Perspektivy KOSABI•Organizace

Page 31: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

• Doladit převod z některých systémů do standardního UNIMARCu a báze ANL.

• Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu).

• Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu.

• Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI.

• Napojení linky zpracování na autority• Spolupráce s projektem Webarchiv?

•Metody zpracování, standardizace

Page 32: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

•KOSABI a jeho výstupy

• Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj.

• Báze ANL FULL zpřístupněna v JIB jako odkaz.• Plné texty báze ANL FULL a přes bázi ANL

přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi.

• Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.

Page 33: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Některé paralely a odlišnosti na Slovensku a v Česku

• Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku.

• Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB.• Súborný katalog knižníc SR, Souborný katalog ČR, Caslin.• Systém ALEPH v obou národních knihovnách.• Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza

regionálnej bibliografie Košice, Rožňava, Trebišov.• Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius).• Česko - fy Anopress, Slovensko fy Slovakia Online a Siac.• Slovensko - poskytování povinných kopií elektronických publikací

UK v Bratislavě a SNK, Česko - nikoli ?

Page 34: Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS

Prezentované informace včetně použité literatury jsou přístupné na adresách: http://full.nkp.cz, http://full.nkp.cz/nkkr/NKKR.html(periodikum Národní knihovna)http:// www.nkp.cz (z Katalogy a databáze, báze ANL aj.)http://www.anopress.cz(báze TamTam)

Ivana Anděrová, NKČR, oddělení analytického zpracování [email protected]