A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.
Post on 07-Apr-2016
213 Views
Preview:
Transcript
A Worldwide Flock of Condors: Load Sharing among Workstation
Clusters
D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne
Apresentado por Nazareno
12.07.2002 Aplicações Distribuídas - DSC/UFCG 2
Roteiro
• Introdução• Condor• Flocking• Resultados• Conclusões
12.07.2002 Aplicações Distribuídas - DSC/UFCG 3
Introdução – o problema
• Computação científica e problemas compute-intensive;
• High-Throughput Computing (HTC) (diferente de High Performance Computing);
• Custo;• Wait-While-Idle;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 4
Introdução – a solução
• Necessidade do usuário << Capacidade da máquina;
• Posse distribuída;• Em um cluster: Condor;• Em diversos clusters:Flocks of Condors;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 5
Condor
• Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute-intensive em um pool de workstations conectadas;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 6
Condor – diretivas de design
1. Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários;
2. Completamente responsável por localizar os recursos necessários para um processo e pela execução deste;
3. Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 7
Condor - estrutura
Schedd
Startd
Máquina 1
Schedd
Startd
Máquina 2
Schedd
Startd
Máquina n-1
CENTRAL MANAGER
(...)
LAN
12.07.2002 Aplicações Distribuídas - DSC/UFCG 8
Condor - funcionamento
• Stard– Inicia, monitora e encerra processos
designados para esta estação;
• Schedd– Enfileira processos submetidos ao Condor
nesta estação e busca os recursos para estes.
12.07.2002 Aplicações Distribuídas - DSC/UFCG 9
Condor - protocolo
Schedd
Solicitante
CENTRAL MANAGER
Startd
Executora
contexto de J contexto da máquina
Faz um casamento entre o contexto de J
e da Executora
identificação de E
Shadow
forkrequisitos de J
ok, EStarter
JJ
12.07.2002 Aplicações Distribuídas - DSC/UFCG 10
Condor – protocolo
• A máquina que recebe o processo não avisa ao CM que não está mais disponível?
• Falhas – São tratadas transparentemente?– E falhas do CM?
12.07.2002 Aplicações Distribuídas - DSC/UFCG 11
Condor – outros aspectos
• Ambiente na máquina que executa é mantido:– Shadow;– Sistema de arquivos uniforme;
• Preempção– Prioridade total para o usuário da estação;– Checkpoints na máquina solicitante.
12.07.2002 Aplicações Distribuídas - DSC/UFCG 12
Flocking
• WWI entre pools;
• Novas diretivas:4. A instalação e manutenção de quaisquer
mecanismos adicionais deve ser fácil;5. Adicionar e retirar um pool de um flock
deve ser fácil;6. Deve ser fácil definir acordos de
compartilhamento de recursos entre os donos dos pools.
12.07.2002 Aplicações Distribuídas - DSC/UFCG 13
Flocking - acordos de compartilhamento
• Cooperação entre donos dos pools torna-se fundamental;
• Acordos de compartilhamento de recursos;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 14
Flocking - design
• Unir pools X formar um bando (flocking):
• Centralização:– Centralização de controle;– Falta de escalabilidade;– Gargalo;
• Bando:– Isolamento de falhas;– Escalabilidade;– Distribuição da gerência (permissões, prioridades...).
12.07.2002 Aplicações Distribuídas - DSC/UFCG 15
Flocking – design
• Estrutura de bando centralizada X distribuída.
• Distribuída:– Escalabilidade;– Tolerância a falhas;– Distribuição da administração;
P2P??
12.07.2002 Aplicações Distribuídas - DSC/UFCG 16
Flocking - design
• Estrutura integrada X em camadas;
• Integrada:– Modificação dos CMs;– Transparência;
• Em camadas:– Estrutura atual mantida;– Modularização;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 17
Flocking - funcionamento
• Máquinas Gateway– GW–Schedd– GW-Startd : máquinas disponíveis em outro
pool
• Um pool pode ter diversas, e cada uma pode se conectar a diversos pools;– Flock configuration file;
12.07.2002 Aplicações Distribuídas - DSC/UFCG 18
Flocking - funcionamento
Schedd
Solicitante
CENTRAL MANAGER
GW-Startd
GW
Contexto de uma máquina de outro pool
contexto de J
GW
contexto de J
Startd child
Startd
E
CENTRAL MANAGER
GW-Startd
GW
Shadow
contexto de J
contexto de JE
GW-Simulate Shadow
OK,E
OK, E
J
J
12.07.2002 Aplicações Distribuídas - DSC/UFCG 19
Flocking - escalonamento
• GW usa uma máquina aleatória de um pool para representar aquele pool;
• É impossível determinar a melhor máquina para representar o pool;
• Tudo, inclusive Checkpoints, fica transparente;
??
12.07.2002 Aplicações Distribuídas - DSC/UFCG 20
Flocking – outras considerações
• I/O na máquina solicitante não fica proibitivo na escala de WANs;
• Refinamentos no escalonamento ainda são necessários (?);
12.07.2002 Aplicações Distribuídas - DSC/UFCG 21
Resultados
• 1994: cerca de 250 estações em 5 países diferentes;
• Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.
• Versão 6.2– Integração com Globus (Condor-G);
12.07.2002 Aplicações Distribuídas - DSC/UFCG 22
Conclusões
• Estrutura robusta para execução e gerência de processos compute-intensive numa perspectiva de High Throughput Computing;
• Previsão de Flocks heterogêneos e globais;
top related