Top Banner
GT Digital Preservation Rio de Janeiro Setembro de 2011
32

Apresentação GT - Digital Preservation

Jun 05, 2015

Download

Business

Apresentação geral do GT - Digital Preservarion, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Apresentação GT - Digital Preservation

GT Digital Preservation

Rio de JaneiroSetembro de 2011

Page 2: Apresentação GT - Digital Preservation

● Motivação

● Serviço proposto

● Modelo de replicação

● Implementação e arquitetura do sistema

● Protótipo no PlanetLab

● Conclusão

Roteiro

Page 3: Apresentação GT - Digital Preservation

Importância dos dados digitais

● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros

● Hoje uma quantidade considerável de informação está sendo produzida em formato digital

● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais

Motivação

Page 4: Apresentação GT - Digital Preservation

Preservação digital

● Boa parte das instituições tem grande dificuldade para preservar seus dados

● Dificuldades principais: ● Custos com hardware e infra-estrutura● Ausência de pessoal especializado● O volume de informação armazenada cresce

constantemente

Motivação

Page 5: Apresentação GT - Digital Preservation

Preservação digital

● Redes de compartilhamento de arquivos Peer-to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular

● Nuvens computacionais não oferecem as garantias de longo prazo necessárias

● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas

Motivação

Page 6: Apresentação GT - Digital Preservation

Objetivo

Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído

garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos

Serviço proposto

Page 7: Apresentação GT - Digital Preservation

Algumas considerações importantes

● O sistema é baseado no modelo de federação● Facilidade de adesão é importante

● Os dados são imutáveis

● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA

● Desempenho para recuperação dos dados não é uma preocupação

● Heterogeneidade é desejável

Serviço proposto

Page 8: Apresentação GT - Digital Preservation

Algumas considerações importantes

● O sistema é baseado no modelo de federação● Facilidade de adesão é importante

● Os dados são imutáveis

● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA

● Desempenho para recuperação dos dados não é uma preocupação

● Heterogeneidade é desejável

Serviço proposto

Page 9: Apresentação GT - Digital Preservation

Requisitos para implementação

● O sistema deve ser o menos intrusivo possível

● Evitar sobrecargas, especialmente em disco

● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis

● Instalável em uma grande variedade de plataformas

Serviço proposto

Page 10: Apresentação GT - Digital Preservation

Modelo de replicação

● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente

● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns

● A unidade de preservação é um item ou objeto digital

O Modelo

Page 11: Apresentação GT - Digital Preservation

Definições do modelo

● Uma métrica de confiabilidade é associada a cada repositório

● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item

● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios

O Modelo

Page 12: Apresentação GT - Digital Preservation

●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%

O Modelo

Page 13: Apresentação GT - Digital Preservation

O processo de auditoria

● Réplicas podem ser perdidas durante o tempo

● É necessário verificar periodicamente a existência destas réplicas

● Quanto maior o número de auditorias maior a confiabilidade obtida● Entretanto esse intervalo de tempo não pode ser pequeno

Auditoria

Page 14: Apresentação GT - Digital Preservation

Implementação

● Repositórios são PC rodando alguma distribuição Linux

● Uso de ferramentas padrão do sistema

● Bash scripts, linguagem C e Java

● Software Livre GPL

Implementação do Protótipo

Page 15: Apresentação GT - Digital Preservation

Arquitetura do protótipo

Page 16: Apresentação GT - Digital Preservation

Camada de Armazenamento

● Responsável pelo armazenamento das réplicas dos objetos digitais

● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas

● Secure Shell (SSH) e Rsync

Implementação

Page 17: Apresentação GT - Digital Preservation

Camada de Gerenciamento

● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade

● Inserção, auditoria, recuperação e consulta de objetos

Implementação

Page 18: Apresentação GT - Digital Preservation

Estratégia para seleção de réplicas

● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item

● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada

● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema

Implementação

Page 19: Apresentação GT - Digital Preservation

● Espaço total: 200TB● Utilização de 99% do espaço● Total de ítens: 58.000● 48.437.231MB (48TB)

N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%)

50 1000000 80 10 30 10

50 1000000 90 10 30 10

50 1000000 80 10 45 10

50 1000000 90 10 45 10

Simulação

Page 20: Apresentação GT - Digital Preservation

100 anos sem auditoria

Page 21: Apresentação GT - Digital Preservation

100 anos com auditoriaImplementação

Page 22: Apresentação GT - Digital Preservation

500 anos com auditoria

Page 23: Apresentação GT - Digital Preservation

Tudo foi perdido!

500 anos sem auditoria

Page 24: Apresentação GT - Digital Preservation

Camada da Interface

● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web

● Web Service (SOAP, WSDL, Java)

● Inserir, consultar e recuperar

Implementação

Page 25: Apresentação GT - Digital Preservation

Camada de Aplicações

● Diversas aplicações podem necessitar ou desejar um serviço de preservação

● Usuário pode inserir, consultar e recuperar seus arquivos

● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)

ImplementaçãoImplementação

Page 26: Apresentação GT - Digital Preservation

Camada de Aplicações

● Diversas aplicações podem necessitar ou desejar um serviço de preservação

● Usuário pode inserir, consultar e recuperar seus arquivos

● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)

Implementação

Page 27: Apresentação GT - Digital Preservation

O Ambiente

● Rede formada por milhares de computadores espalhados pelo planeta

● Nodos do slice estão quase sempre sobrecarregados

● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade

Protótipo no Planetlab

Page 28: Apresentação GT - Digital Preservation

Avaliação

● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto

● Devemos ampliar o número de repositórios no futuro próximo

● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR

Protótipo no Planetlab

Page 29: Apresentação GT - Digital Preservation

Avaliação

● Principais funcionalidades estão implementadas

● As decisões iniciais de projetos se mostraram acertadas

● Existe um bom número de interessados em utilizar o sistema

Protótipo no Planetlab

Page 30: Apresentação GT - Digital Preservation

Avaliação

● Principais funcionalidades estão implementadas

● As decisões iniciais de projetos se mostraram acertadas

● Dissertações e TCC também foram produzidos

● Existe um bom número de interessados em utilizar o sistema

Protótipo no PlanetlabImplementação

Page 31: Apresentação GT - Digital Preservation

Para uma nova fase

● Estimar a confiabilidade de cada repositório

● Compartilhamento das chaves SSH

● Sistema de Indexação

● Controle do consumo de recursos

● Ferramentas para operação do serviço

● O modelo de governança a ser adotado

Protótipo no Planetlab

Page 32: Apresentação GT - Digital Preservation

● O problema atacado é relevante

● O modelo parece adequado e o protótipo mostra a viabilidade prática do serviço

● Integrar mais nodos do PlanetLab e também

● Fase de “acabamento” do projeto: versão final da documentação, novo site, etc.

Conclusão e Trabalhos Futuros