Top Banner
A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado por Nazareno
22

A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

Apr 07, 2016

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

A Worldwide Flock of Condors: Load Sharing among Workstation

Clusters

D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne

Apresentado por Nazareno

Page 2: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 2

Roteiro

• Introdução• Condor• Flocking• Resultados• Conclusões

Page 3: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 3

Introdução – o problema

• Computação científica e problemas compute-intensive;

• High-Throughput Computing (HTC) (diferente de High Performance Computing);

• Custo;• Wait-While-Idle;

Page 4: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 4

Introdução – a solução

• Necessidade do usuário << Capacidade da máquina;

• Posse distribuída;• Em um cluster: Condor;• Em diversos clusters:Flocks of Condors;

Page 5: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 5

Condor

• Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute-intensive em um pool de workstations conectadas;

Page 6: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 6

Condor – diretivas de design

1. Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários;

2. Completamente responsável por localizar os recursos necessários para um processo e pela execução deste;

3. Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;

Page 7: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 7

Condor - estrutura

Schedd

Startd

Máquina 1

Schedd

Startd

Máquina 2

Schedd

Startd

Máquina n-1

CENTRAL MANAGER

(...)

LAN

Page 8: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 8

Condor - funcionamento

• Stard– Inicia, monitora e encerra processos

designados para esta estação;

• Schedd– Enfileira processos submetidos ao Condor

nesta estação e busca os recursos para estes.

Page 9: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 9

Condor - protocolo

Schedd

Solicitante

CENTRAL MANAGER

Startd

Executora

contexto de J contexto da máquina

Faz um casamento entre o contexto de J

e da Executora

identificação de E

Shadow

forkrequisitos de J

ok, EStarter

JJ

Page 10: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 10

Condor – protocolo

• A máquina que recebe o processo não avisa ao CM que não está mais disponível?

• Falhas – São tratadas transparentemente?– E falhas do CM?

Page 11: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 11

Condor – outros aspectos

• Ambiente na máquina que executa é mantido:– Shadow;– Sistema de arquivos uniforme;

• Preempção– Prioridade total para o usuário da estação;– Checkpoints na máquina solicitante.

Page 12: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 12

Flocking

• WWI entre pools;

• Novas diretivas:4. A instalação e manutenção de quaisquer

mecanismos adicionais deve ser fácil;5. Adicionar e retirar um pool de um flock

deve ser fácil;6. Deve ser fácil definir acordos de

compartilhamento de recursos entre os donos dos pools.

Page 13: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 13

Flocking - acordos de compartilhamento

• Cooperação entre donos dos pools torna-se fundamental;

• Acordos de compartilhamento de recursos;

Page 14: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 14

Flocking - design

• Unir pools X formar um bando (flocking):

• Centralização:– Centralização de controle;– Falta de escalabilidade;– Gargalo;

• Bando:– Isolamento de falhas;– Escalabilidade;– Distribuição da gerência (permissões, prioridades...).

Page 15: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 15

Flocking – design

• Estrutura de bando centralizada X distribuída.

• Distribuída:– Escalabilidade;– Tolerância a falhas;– Distribuição da administração;

P2P??

Page 16: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 16

Flocking - design

• Estrutura integrada X em camadas;

• Integrada:– Modificação dos CMs;– Transparência;

• Em camadas:– Estrutura atual mantida;– Modularização;

Page 17: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 17

Flocking - funcionamento

• Máquinas Gateway– GW–Schedd– GW-Startd : máquinas disponíveis em outro

pool

• Um pool pode ter diversas, e cada uma pode se conectar a diversos pools;– Flock configuration file;

Page 18: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 18

Flocking - funcionamento

Schedd

Solicitante

CENTRAL MANAGER

GW-Startd

GW

Contexto de uma máquina de outro pool

contexto de J

GW

contexto de J

Startd child

Startd

E

CENTRAL MANAGER

GW-Startd

GW

Shadow

contexto de J

contexto de JE

GW-Simulate Shadow

OK,E

OK, E

J

J

Page 19: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 19

Flocking - escalonamento

• GW usa uma máquina aleatória de um pool para representar aquele pool;

• É impossível determinar a melhor máquina para representar o pool;

• Tudo, inclusive Checkpoints, fica transparente;

??

Page 20: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 20

Flocking – outras considerações

• I/O na máquina solicitante não fica proibitivo na escala de WANs;

• Refinamentos no escalonamento ainda são necessários (?);

Page 21: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 21

Resultados

• 1994: cerca de 250 estações em 5 países diferentes;

• Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.

• Versão 6.2– Integração com Globus (Condor-G);

Page 22: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

12.07.2002 Aplicações Distribuídas - DSC/UFCG 22

Conclusões

• Estrutura robusta para execução e gerência de processos compute-intensive numa perspectiva de High Throughput Computing;

• Previsão de Flocks heterogêneos e globais;