Top Banner
Webarchiv Památník českého internetu, více
29

Webarchiv AKM 2015

Feb 14, 2017

Download

Documents

vutram
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Webarchiv AKM 2015

WebarchivPamátník českého internetu, více

Page 2: Webarchiv AKM 2015

Proč archivujeme web? Jak ho archivujeme? Co v archivu máme?

Co nás trápí?Co plánujeme?

[email protected]á realizace archivace webu

Page 3: Webarchiv AKM 2015

Proč archivujeme web?

Page 4: Webarchiv AKM 2015
Page 5: Webarchiv AKM 2015

“… více jak 70% URL v Harvard Law Review a 50% URL v nálezích nejvyššího

soudu Spojených států amerických, neodkazuje k původnímu webovému zdroji. “

Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Jonathan Zittrain, Kendra Albert a Lawrence Lessig. Legal Information Management / Volume 14 / Issue 02 / June 2014, pp 88-99, DOI: http://dx.doi.org/10.1017/S1472669614000255, Published online: 12 June 2014

Page 6: Webarchiv AKM 2015
Page 7: Webarchiv AKM 2015

404 Not Found The 404 (Not Found) status code indicates that the origin server did

not find a current representation for the target resource or is not willing to disclose that one exists. A 404 status code does not

indicate whether this lack of representation is temporary or permanent; the 410 (Gone) status code is preferred over 404 if the

origin server knows, presumably through some configurable means, that the condition is likely to be permanent.

A 404 response is cacheable by default; i.e., unless otherwise indicated by the method definition or explicit cache controls (see

Section 4.2.2 of [RFC7234]).

Page 8: Webarchiv AKM 2015

✝url urn

Page 9: Webarchiv AKM 2015

Bude možné studovat naše století bez webových archivů?

Page 10: Webarchiv AKM 2015

miluj výzkumníka svého

Page 11: Webarchiv AKM 2015
Page 12: Webarchiv AKM 2015

Jak archivujeme web?

Page 13: Webarchiv AKM 2015

Heritrix / OpenWaybacksklízení / zpřístupnění

Otevřený softwareMezinárodní komunita

Page 14: Webarchiv AKM 2015

Měsíční výběrové sklizně

Občasné tématické sklizně

Roční sklizně domény cz

Page 15: Webarchiv AKM 2015
Page 16: Webarchiv AKM 2015

Co máme v archivu?

Page 17: Webarchiv AKM 2015

~ 228 TB

~ 6 miliard digitálních objektů / URL

~1,2 milónu domén druhého řádu

Page 18: Webarchiv AKM 2015
Page 19: Webarchiv AKM 2015

Co nás trápí?

Page 20: Webarchiv AKM 2015

méně než 1 % je volně přístupné=

~ 4000 webů z 1,2 miliónu webů

Page 21: Webarchiv AKM 2015

JavaScript

Page 22: Webarchiv AKM 2015
Page 23: Webarchiv AKM 2015

228 TB při čtení 80 MB/s = 32 dní

Page 24: Webarchiv AKM 2015

Co plánujeme?

Page 25: Webarchiv AKM 2015

metadata

Page 26: Webarchiv AKM 2015
Page 27: Webarchiv AKM 2015
Page 28: Webarchiv AKM 2015
Page 29: Webarchiv AKM 2015

Oddělení archivace webu | ODIF | Národní knihovna ČRVedoucí: Jaroslav KvasnicaZástupce: Barbora RudišínováTechnické zajíštění: [email protected]átoři: Markéta Hrdličková, Pavla Kupcová

webarchiv.czfacebook.com/webarchivcrslideshare.net/webarchivCZ github.com/webarchivcz