DIGITAL LONG TERM PRESERVATION: Glusterfs in BNCF Cristiano Corsani Biblioteca Nazionale Centrale di Firenze 30/31 ottobre 2012
Jun 29, 2015
DIGITAL LONG TERM PRESERVATION:Glusterfs in BNCF
Cristiano CorsaniBiblioteca Nazionale Centrale di Firenze30/31 ottobre 2012
DIGITAL LONG TERM PRESERVATION:glusterfs in BNCF
Breve presentazione BNCF Digital long term Preservation:
Perché glusterfs? Progetti:
Magazzini Digitali Low cost cloud Desktop storage “Teca Digitale” storage
BNCF: cenni storici
La Biblioteca Nazionale Centrale Firenze (BNCF) ha origini nei 30.000 volumi della biblioteca privata di Antonio Magliabechi lasciata in eredità nel 1714 alla città di Firenze.
Nel 1861 la Biblioteca Magliabechiana fu unificata con la Biblioteca Palatina (creata da Ferdinando III di Lorena) e assunse il nome di Biblioteca Nazionale e, nel 1885, quello di Biblioteca Nazionale Centrale.
Dal 1870 la BNCF ha il deposito legale di tutta la produzione editoriale italiana.
BNCF: numeri
Le raccolte della Biblioteca si sviluppano su oltre 120 chilometri di scaffali con un aumento annuo di quasi 2 chilometri e comprendono:
4.000 incunaboli
25.000 manoscritti
68.000 incisioni
oltre 6 milioni di libri
oltre 120.000 testate di periodici. i nuovi magazzini
BNCF: compiti istituzionali
La BNCF ha come compito la raccolta, la conservazione, la documentazione e la valorizzazione della memoria storica italiana attraverso:
il deposito legale in coordinamento con BNCR e le
istituzione depositarie regionali
la produzione della Bibliografia Nazionale Italiana (BNI)
la cooperazione al Servizio Bibliotecario Nazionale
l'attività di studio e ricerca nel campo della conservazione
nel lungo periodo delle risorse digitali
BNCF: digitalizzazione
Manoscritti:
Unità bibliografiche: 11.104
Immagini: 166.728
Libro antico:
Unità bibliografiche: 53.466
Immagini: 433.151
Libro moderno:
Unità bibliografiche: 77.330
Immagini: 2.276.848 le lune di Galileo
Digital long term Preservation Formati: quale formato scegliere per garantire la
conservazione e la fruizione nel tempo?
Storage: quale tecnologia scegliere per garantire la
sicurezza dei dati? Flessibile: semplice e facile da gestire Scalabile: aggiungere spazio al bisogno Sicuro: nessuna perdita di dati Economico: hardware low cost
Glusterfs
File system distribuito: aggrega spazi disco in rete
Scalabile: oltre i Petabytes
Flessibile: installabile in ogni ambiente
Prestazioni lineari: nessun degrado
Namespace unificato: come una cartella locale
No single-point of failure: completamente decentralizzato
Affidabile: ridondanza dei dati, anche geografica
Integrità: garantisce integrità del dato
Magazzini Digitali:deposito legale di opere digitali
Sicurezza: replica 6 su nodi
geograficamente distanti
Spazio: 32TB storage
Scalabilità: dimensione dei nodi
e il numero di nodi
Numeri: 30 server, 96 x 2TB
disks, apparati di rete
Nodi: 3 provider iso 27001
Hardware: standard, low cost.
Torino: BNCF
Bologna: BNCR
Roma: Dark Archive
Magazzini Digitali:schema formato dati
Opera: formato digitale
standard (PDF?)
Metadati: xml, contiene i dati
descrittivi dell'opera da
indicizzare
WARC: archivio compresso di
200Mb circa – opere+metadati
(ISO 28500:2009)
Documento
WARC
INDEX File SystemIn
de
x
sto
reco
mp
ress
STORAGE
Magazzini Digitali: replica dati sul nodoreplicated glusterfs – replica 2
Hardware: 4 x 2TB x 8 server
Volume: glusterfs replica 2
simmetrica su 4 + 4 server
Totale: 32TB utili
Accesso: index del front-end
fornisce il path del file WARC
contenente il documento.
WARC
Sys disksSys disks
sto
re
Front end
Index
read
Magazzini Digitali: replica dati geograficatodo: georeplica glusterfs o torrent – replica 3 x 2
BNCR
BNCF
DARK ARCHIVE
rep
lica
deploy
deploy
Replica: geografica dei
singoli file WARC
Torrent?
Low Cost Cloud:cloud dei servizi BNCF
Open hypervisor
disponibile nel kernel di ogni distro standard Open orchestrator
live migration, ha, backup, … interfaccia web intuitiva Hardware standard
no raid, no-frills (Gb net minima) No centralized storage system
file system distribuito sui dischi di sistema
Low Cost Cloud: storage backend
Lo storage condiviso non è un opzione per la live migration e l'alta affidabilità
Scelte comuni: NAS/SANdedicati (NetApp, EMC, ...)
Soluzione storage glusterfs: Flessibile: semplice e facile
da gestire Scalabile: aggiungi spazio
al bisogno Economico: usa i dischi di sistema ...
GlusterfsSTORAGE
System disks
Hosts
VM
dat
a
Low Cost Cloud: storage backend1TB – replicated glusterfs – replica 3
… aggrega lo spazio disponibile dei dischi di sistema
Sicuro: replica dati (previene data-loss)
Sicuro: no single-point of failure (HA)
Data disponibili via LAN con protocolli standard: FUSE, NFS, CIFS.
Low Cost Cloud 2: storage backend1TB – glusterfs replicated + georeplica
GlusterfsSTORAGE
System disks
Hosts
VM
dat
a
GlusterfsSTORAGE
System disks
HostsV
M d
ata
geo-replica
Ipotesi di georeplica tra volumi su nodi gemelli per garantire I servizi in caso di crash
Desktop migration: home storage8TB – glusterfs replicated – replica 2
Migrazione desktop a Linux Oltre 250 postazioni attive Oltre il 60% migrato 2 server 8TB glusterfs storage
replica 2 (/home) Servizi virtuali:
KVM, proxmox (LDAP, PXE, …)
GlusterfsSTORAGE
System disks ho
me
s
Hosts
Desktop migration 2: home storage8TB – glusterfs replicated + georeplica
GlusterfsSTORAGE
System disks ho
me
s
Hosts
GlusterfsSTORAGE
System disks
ho
me
s
Hosts
geo-replica
Ipotesi georeplica dei dati su nodo remoto.
In caso di crash i client accedono al volume remoto
Possibile uso dei fs locali
Teca Digitale: storage immagini32TB – glusterfs distributed + georeplica
GlusterfsSTORAGE
System disks
Hosts
GlusterfsSTORAGE
System disks
Hosts
geo-replica
WEB server
Cristiano Corsani
Servizi InformaticiBiblioteca Nazionale Centrale di FirenzePiazza dei Cavalleggeri, 150122 Firenze
Voce: 055 24919 302 / 339 2287466mail: [email protected]: http://www.bncf.firenze.sbn.it
Link:http://www.rinascimento-digitale.ithttp://www.slideshare.com - keysearch: bncfhttp://www.bncf.firenze.sbn.it/pagina.php?id=212http://http://www.depositolegale.it