Top Banner
Webarchiv Budoucnost českého webového archivu
19

Budoucnost českého webového archivu

Aug 06, 2015

Download

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Budoucnost českého webového archivu

WebarchivBudoucnost českého webového archivu

Page 2: Budoucnost českého webového archivu

Jsme Webarchiv

digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.

Page 3: Budoucnost českého webového archivu

Jak archivujeme?

Provádíme kompletní archivaci“celého” českého webu.

WWWWWWWW

Souběžně probíhá výběrováa tematická archivace.

Page 4: Budoucnost českého webového archivu

Bohužel!

Ne všechna data jsou dostupná online. w

Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.

Page 5: Budoucnost českého webového archivu

Budoucnost

Webový archiv není jen skladiště URL, na které usedá prach. Pracujeme na vytvoření fulltextu celého archivu. Potřebujeme porozumět tomu, co nesou jednotlivé digitální objekty a co budou znamenat historicky. wwWČeká nás otevření Webarchivu analytickému výzkumu a propojení našich dat s jinými archivy.

Page 6: Budoucnost českého webového archivu

Bude možné studovat 90. léta a dál bez webových archivů?

Ian Milligan

Page 7: Budoucnost českého webového archivu

Webový archiv Živý web

Page 8: Budoucnost českého webového archivu

Bude možné studovat 90. léta a dál bez webových archivů?

Ne.

Page 9: Budoucnost českého webového archivu

~210 TB komprimovaných dat~4 miliardy digitálních objektů~1,2 miliónu webových stránek

*.cz

Page 10: Budoucnost českého webového archivu

méně jak ~1% webových stránekWebarchivu, je volně přístupnéz Internetu

w

Page 11: Budoucnost českého webového archivu

METADATA

WWWWWWWW

Page 12: Budoucnost českého webového archivu

URL, Timestamp, SHA-1, Size, Outlinks, Content-Type, IP, Response, Title, Author ...

WWW

Page 13: Budoucnost českého webového archivu

Ian Milligan, opět

Page 14: Budoucnost českého webového archivu
Page 15: Budoucnost českého webového archivu

Identifikace formátu jednotlivých dig. objektů

verze PDF, HTML, MS Word apod.

Extrakce plného textu

z HTML, PDF, DOC apod.

Page 16: Budoucnost českého webového archivu

Rozponání žánru např. recenze, rozhovor, článek apod.

Identifikace entit např. místa, osoby, události apod.

Identifikace témat a klíčových slov např. Volby 2013, Útok ISIS, Ukrajinská krize

Rozpoznání jazyka dokumentu

Page 17: Budoucnost českého webového archivu

Obrazový hash hledání podobných obrázků

Audio2text prohledávání audiovizuáních dokumentů

Slovní popis obrázků včetně klíčových slov

černé a ryšavé koťátko si hrají na zelené trávě

Rozpoznávání tváří

Page 18: Budoucnost českého webového archivu

A co zajímá vás?