Top Banner
HNSciCloud e estensione del Tier1 Luca dell’Agnello CCR, 16 Settembre 2015
30

HNSciCloude estensione del, Tier21

May 17, 2022

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: HNSciCloude estensione del, Tier21

HNSciCloud e  estensione del  Tier-­‐1Luca  dell’Agnello

CCR,  16  Settembre 2015

Page 2: HNSciCloude estensione del, Tier21

Evoluzione computing  HEP• Sostanziale incremento delle risorsenecessariedopo il Run2  di  LHC

• Difficilmente sostenibile con  risorse in-­‐house• Nuove tecnologie (es.  GPU,  processori low  power)?• Nuovo paradigma?  “Nostri”  Data  Center  specializzati sui  dati

• Capacita’  di  calcolo acquisita (anche)  con  estensione elastica su Cloud  (anchecommerciale)

• Costruzionedi  una e-­‐infrastructure  europea• Open  Science  Cloud

0

50

100

150

200

Run  1 Run  2 Run  3 Run  4

GRIDATLASCMS

0,0

100,0

200,0

300,0

400,0

500,0

Run  1 Run  2 Run  3 Run  4

CMS

ATLAS

ALICE

LHCb

Previsione necessita’   CPU  per  online   e  offline

Stime volumi dati raw16/09/2015 Luca  dell'Agnello 2

Page 3: HNSciCloude estensione del, Tier21

HNSciCloud (1)• Proposta  per  “Pre-­‐Commercial  Procurement”  nella  call  ICT  8a    di  H2020  per  servizi  cloud innovativi  di  tipo  IaaS approvataa  fine  Agosto  • Pre-­‐Commercial  Procurement  per  servizi cloud  innovativi di  tipo IaaS

• Cofinanziamento EU  (~2/3  del  totale)• Copre il 5%  delle necessita’  di  calcolo

• 11  partner:  • 9  “acquirenti”  (CERN,  CNRS,  DESY,  EMBL,  IFAE,  INFN,  KIT,  STFC,  SURFSARA)• 2  “experts”  (EGI.eu,  TRUST  -­‐ IT)

• Contributo EU:  4,716,374.79  €• Effort  totale:  78.8  PM

• INFN:  3.5  PM  finanziati +  3  PM  unfunded• Durata del  progetto:  30  mesi (inizio 1/1/2016)• Se  funzionante  previsto  un  progetto  EU  molto  più  grande  entro  2  anni

16/09/2015 Luca  dell'Agnello 3

Page 4: HNSciCloude estensione del, Tier21

HNSciCloud (2)• Basato su HelixNebula

• “Helix  Nebula  was  formed  in  2011  by  leading  research  organisations  in  collaboration  with  Europe’s  commercial  cloud  suppliers  to  develop  such  a  platform.”  (i.e.  European  Open  Science  Cloud)

• Comprendevari partner  pubblici e  privati

• Non  l’INFNal  momento• “HNSciCloud should  and  will  become  a  cornerstone  of  what  the  e-­‐Infrastructure  Reflection  Group  (e-­‐IRG)  in  its  2012  Roadmap  paper10  refers  to  as  the  single  e-­‐Infrastructure  Commons.”

Strategic)Plan

! Establish)multi,tenant,)multi,provider)cloud)infrastructure

! Identify)and)adopt)policies)for)trust,)security)and)privacy

! Create)governance)structure

! Define)funding)schemes

To)support)the)computing)capacity)needs)for)the)LHC)

experiments

Setting)up)a)new)service)to)simplify)analysis)of)large)genomes,)for)a)

deeper)insight)into)evolution)and)biodiversity

To)create)an)Earth)Observation)platform,)

focusing)on)earthquake)and)volcano)research

To)improve)the)speed)and)quality)of)

research)for)finding)surrogate)biomarkers)

based)on)brain)images

Adopters

Suppliers

Additional)Users:

16/09/2015 Luca  dell'Agnello 4

Page 5: HNSciCloude estensione del, Tier21

HNSciCloud (3)• Modello di  Cloud  ibrida

• Servizi cloud  commerciali• e-­‐Infrastructures

• GEANT  network• eduGAIN Fed.  Id  mgmt.• EGI  Fed  Cloud

• In-­‐house  IT  resources

• Risorse rese  disponibili (nell’ultimafase del  progetto)  a  vari gruppi di  end-­‐user  • BBMI,  DARIAH,  ELIXIR,  EISCAT_3D,   EPOS,  INSTRUCT,  LifeWatch,  LHC,  etc.

• INFN  supportera’  comunita’  utenti HEP,  Astro-­‐particle  e  DARIAH

516/09/2015 Luca  dell'Agnello 5

Page 6: HNSciCloude estensione del, Tier21

Preparazione

•Analisi deirequirements,  offerte dimercatoe  standards•Preparazionedel  tender

Implementazione Risultati

• Best  practises• Raccomandazioni• Training

Oct’16

PCP  (fasi  del  progetto)

Lancio tender Pilot  testato

6  mesi 18  mesi 6  mesi

Jan’16 Jan’18 Jun’18

Design

Prototipo

Pilot

Le  agenzie confermano impegnoper  i fondi

16/09/2015 Luca  dell'Agnello 6

Page 7: HNSciCloude estensione del, Tier21

PCP:  fase  di  implementazione  del  progetto

Design

Prototype

Pilot(*)

6    mesi  per  realizzazione  prototipi  e  test  funzionalità  e  sicurezza  da  parte  di  personale  esperto  dei  centri  di  calcolo.

6  mesi  per  realizzazione  prototipi  estesi  per  test  di  scalabilità.  Successivamente  i  prototipi    vengono  aperti  agli  utenti.

3  mesi  per  rispondere  al  bid(concorrenti  dovranno   fornire  dettagli  tecnici  dei  componenti  e  costi  unitari)

Selezionati  ≥3  soluzioni

Selezionati  ≥2  prototipi  tenendo  conto  del  feedback  degli  esperti

Il  comitato  di  valutazione  comprenderà  rappresentanti  di  tutti  gli  acquirenti.

Sono  previste  interazioni  ripetute  con  i  venditori  sia  nella  fase  del  prototipo  che  in  quella  del  pilot.

16/09/2015 Luca  dell'Agnello 7

(*)  responsabilità   INFN

Design15%

Prototype25%Pilot

60%

Suddivisione   budget(in  totale:  ~5.4  M€)

Page 8: HNSciCloude estensione del, Tier21

Costi acquisizione risorse

16/09/2015 Luca  dell'Agnello 8

Page 9: HNSciCloude estensione del, Tier21

Budget  

16/09/2015 Luca  dell'Agnello 9

Page 10: HNSciCloude estensione del, Tier21

Organizazzione del  progetto

WP1:  Consortium  Management

WP2:  Preparation  of  procurement  &Tendering

WP3:  Design  Platform

WP4:  Prototype  Platform

WP5:  Pilot  Platform

WP6:  Pilots  Evaluation  &  Recommendation

WP7:  Stakeholder  Engagement,  Dissemination,  Impact  &  Exploitation

CERN

CERN CNRS DESY INFN EGI.eu

TRUST-­‐IT

Il  finanziamento  EU  copre  parte  dei  costi  delle  risorse,  il  costo  di  gestione  del  progetto  e  delle  gare  e  i  PM  dei  WP  leader.Tutti  gli  acquirenti  offriranno  supporto  tecnico  per  valutare  le  varie  fasi  (design/prototipi/pilot)

16/09/2015 Luca  dell'Agnello 10

Page 11: HNSciCloude estensione del, Tier21

Organigramma

16/09/2015 Luca  dell'Agnello 11

Page 12: HNSciCloude estensione del, Tier21

User  GroupsThe  cloud  resources  procured  will  be  made  available  to  user  groups  during  the  pilot  phase

• LHC  experiments  via  WLCG• Procured   resources   will   count   against  the  buyers’   pledges  (during   pilot   phase)• CERN   will  provide   the  interface   via  Tier-­‐0  (OpenStack  in  tender   spec.)

• ELIXIR• Managed  by  EMBL-­‐EBI  via  the  ELIXIR  Compute   platform

• Other  research  communities  via  EGI  Fed  Cloud• Request   OCCI  interface   in  tender   spec.

• Local  users  at  each  buyers  site• Each  buyer  is  responsible   for  integration• Request   web  GUI  interface  in  tender   spec.

• Sites  can  also  use  OpenStack  or  OCCI  interface  as  well

Each  buyer  decides  what  fraction  of  their  procured  resources  is  made  available  to  each  user  group  but  cannot  assign  only  to  their  local  users

Collectively  the  users  will  form  a  user  group  with  a  role  in  the  project  to  define  requirements  and  provide  feedback  on  pilot  deployments  

BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-­‐tail

16/09/2015 Luca  dell'Agnello 12

Page 13: HNSciCloude estensione del, Tier21

User  GroupsThe  cloud  resources  procured  will  be  made  available  to  user  groups  during  the  pilot  phase

• LHC  experiments  via  WLCG• Procured   resources   will   count   against  the  buyers’   pledges  (during   pilot   phase)• CERN   will  provide   the  interface   via  Tier-­‐0  (OpenStack  in  tender   spec.)

• ELIXIR• Managed  by  EMBL-­‐EBI  via  the  ELIXIR  Compute   platform

• Other  research  communities  via  EGI  Fed  Cloud• Request   OCCI  interface   in  tender   spec.

• Local  users  at  each  buyers  site• Each  buyer  is  responsible   for  integration• Request   web  GUI  interface  in  tender   spec.

• Sites  can  also  use  OpenStack  or  OCCI  interface  as  well

Each  buyer  decides  what  fraction  of  their  procured  resources  is  made  available  to  each  user  group  but  cannot  assign  only  to  their  local  users

Collectively  the  users  will  form  a  user  group  with  a  role  in  the  project  to  define  requirements  and  provide  feedback  on  pilot  deployments  

BBMRIDARIAHEISCAT_3DEPOSINSTRUCTLifeWatchLong-­‐tail

Bob  Jones

Page 14: HNSciCloude estensione del, Tier21

Estensione elastica del  Data  Center  ed usoopportunistico

• Q1-­‐Q2  2015:  primi test  estensione remotadel  Data  Center• Effettuato test  di  funzionalita’  con  un  altro sito GARR  per  estensione trasparente di  LSF• Setup  pilota per  accesso remoto trasparente da  farm  AMS  a  storage  presso il CNAF

• Uso (opportunistico)  di  risorse remote• A  Giugno preso contatto con  provider  commerciale Aruba  • A  Luglio contatto esplorativocon  Unicredit• Trattativa per  uso di  Bari  RECAS  in  corso

• 20000  HS06  (pledge)  nel 2016?

16/09/2015 Luca  dell'Agnello 14

Page 15: HNSciCloude estensione del, Tier21

Cloud commerciali  – perché?

• Interesse  soprattutto  in  test  di  espansione  elastica  dei  nostri  centri  di  calcolo,  per  assorbire  picchi  di  attività• Le  nostre  attività  sono  in  gran  parte  non  real time,  per  cui  Spot  Market  è  usabile• Abbiamo  differenti  attività  di  calcolo  che  possono  adattarsi  a  diverse  situazioni• Alto  o  basso  I/O• Alto  o  basso  traffico  WAN• Presenza  o  assenza  di  storage locale  al  sito• RAM  genericamente  bassa  (2  GB/core  o  meno)• Pochi  requirement sul  sistema:  Linux64bit

• Containers  =  ok

16/09/2015 Luca  dell'Agnello 15

Page 16: HNSciCloude estensione del, Tier21

ARUBA  &  CNAF

Page 17: HNSciCloude estensione del, Tier21

ARUBA

Arezzo6  MW80  Gbit/sRidondanza 2N

16/09/2015 Tommaso Boccali,   Luca  dell'Agnello 17

Page 18: HNSciCloude estensione del, Tier21

Cosa  ci  offrono  per  il  test

• Macchine  con  VMWare vSphere• Sono  tutti  haswell v3,  Dell

• Bassa  priorità  (siamo  utenti  opportunistici)• Ma  senza  terminazione  delle  VM,  semplicemente  downclocking quando  gli  utenti  “gold”  usano  le  risorse  (stima:  10%  max del  tempo)

• Macchine  virtuali  con  8  cores,  24  GB  di  RAM,  200  GB  di  disco• 80  Gbit/s “usabili”,  ma  verso  MIX,  Telecom  etc (connessione  con  GARR  non  ottimale)• Al  momento  nel  “grant”

• 160  core  (se  ne  possono  creare  di  più  ,  ma  CPU  virtuale  scala  di  conseguenza)• 6  TB  di  disco• 500  GB  di  RAM

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 18

Page 19: HNSciCloude estensione del, Tier21

vSphere• Abbiamo  raggiunto  un  buon  punto  nella  comprensione  del  sistema• “catalogo”  INFN  per  I  WN,  2  click  per  creare  nuova  macchina  

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 19

Page 20: HNSciCloude estensione del, Tier21

Schema  di  utilizzo

• VM  Aruba  “agganciate”  dalle  code  Mcore degli  esperimenti• Solo  CMS  finora,  ATLAS  sta  cominciando  ora

• Squidper  Condizioni  e  CVMFS  locale  in  Aruba,  i  VM  puntano  a  questo  e  non  agli  squiddel  CNAF• Tunnel    per  connessione  a  LSF  e  ai  CE,  vengono  visti  da  CNAF  come    rete  locale• Logs di  LSF  via  AFS  montati  da  un  nodo  di  servizio  e  distribuiti  via  NFS  ai  WN

• Il  tunnel  NON  da’  accesso  a  risorse  del  CNAF,  se  non  LSF  e  CE• In  particolare  nessun  accesso  ai  dati  di  esperimento• GPFS:  si  vede  solo  l’area  di  lavoro  di  LSF  (tramite  cache  AFM  in  ro)

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 20

Page 21: HNSciCloude estensione del, Tier21

Accesso  ai  dati

• Al  momento  attuale  a  gestione  dell’accesso  ai  dati  è  demandata  agli  esperimenti  (CMS)• Visto  che  NON  si  vede  lo  storage di  esperimento,  l’accesso  è  via  fallback xrootd• Nessuna  redirezione attiva  da  parte  CNAF

• Stageout verso  il  CNAF/Storm• Da  vedere  come  fare  per  Atlas  (xrootd,  http?)

• Attivare  cache  locale  per  i  dati?

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 21

Page 22: HNSciCloude estensione del, Tier21

Setup  risorse

• Al  momento  creati• Una  macchina  di  lancio,  raggiungibile  ssh dall’esterno• Una  macchina  di  servizio  CNAF

• Squid• AFS  per  LSF• Gangliamaster

• 18  WN  8  core  24  GB  RAM  200  GB  disco  (accesso  di  CMS)• 1  WN  abilitato  per  Atlas  per  i  primi  test• Installatoun  ganglia  basilare,  visibileda  https://80.88.92.48:80/ganglia/

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 22

Page 23: HNSciCloude estensione del, Tier21

Alcuni plot

Load_one ultima settimana

Rete  entrante

Rete  uscente

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 23

Page 24: HNSciCloude estensione del, Tier21

CMS:  lato  esperimento

• SAM  tutti  verdi• Non  banale,  un  po’  di  tweak delle  configurazione,  sito  definito  come  “sottosito”  del  CNAF:  T1_IT_CNAF-­‐ARUBA• Jobs  successful con  stessa  percentuale  dei  job  locali  CNAF

• Ad  occhio,  non  vero  studio• CPU  efficiency.  Al  momento  come  CMS  non  è  possibile  decidere  con  buona  granularità  quali  job  mandare,  per  cui  ci  finiscono  gli  stessi  job  del  CNAF  (sia  a  basso  sia  a  alto  IO)

• Basso  IO:  efficienza  100%• Alto  IO:  efficienza  O(20%)  – un  fattore  2  meno  di  quelli  locali

• Serve  lavoro  lato  CMS  per  dirigere  i  job  giusti  ….

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 24

Page 25: HNSciCloude estensione del, Tier21

Prospettive

• Aggiungere  un  server  AFM  per  l’accesso  ai  dati• O(100)  TB-­‐N,  O(20)  Gbit/s verso  la  LAN• Disponibilità  prestito  da  parte  di  Aruba  per  test• Anche  disponibilità  di  housingdi  un  nostro  sistema

• In  questo  modo  Aruba  diventerebbe  molto  simile  a  quello  che  si  vuole  fare  con  Bari-­‐RECAS• Nuovo  meeting  previsto,  per  capire  come  proseguire

• Costi  veri  post  sperimentazione  ?• Housing /  hosting?

16/09/2015 Tommaso  Boccali,   Luca  dell'Agnello 25

Page 26: HNSciCloude estensione del, Tier21

• Implementazionee  test  a  cura di:• TommasoBoccali• Stefano  Dal  Pra• Vincenzo  Ciaschini• Andrea  Chierici• Vladimir  Sapunenko

16/09/2015 Luca  dell'Agnello 26

Page 27: HNSciCloude estensione del, Tier21

Backup  slides

16/09/2015 Luca  dell'Agnello 27

Page 28: HNSciCloude estensione del, Tier21

Beyond Run  2?• Huge  increase  of  resources  foreseen  and  our  Data  Center  will  be  unlikely  able  to  support  it  (budget  issues  not  considered!)

• New  technologies  (e.g.  GPU,  low  power  processors)• Data  Center  extension  on  remote  sites?• Data  Center  extension  on  Cloud?  

• Hybrid   Cloud?

16/09/2015 Luca  dell'Agnello 28

0,0

100,0

200,0

300,0

400,0

500,0

Run  1 Run  2 Run  3 Run  4

CMS

ATLAS

ALICE

LHCb

0

50

100

150

200

Run  1 Run  2 Run  3 Run  4

GRIDATLASCMS

CPU  requirements   for  online  and  offline  processing

Raw  data  volumes  estimations  

Talk  a  CCR  27/05/2015

Page 29: HNSciCloude estensione del, Tier21

Trends  

16/09/2015 Luca  dell'Agnello 29

From  Ian  Bird’s   talk  atWLCG  workshop   in  Okinawa  

Talk  a  CCR  27/05/2015

Page 30: HNSciCloude estensione del, Tier21

Elastic  Data  Center  and  opportunistic  use• Remote  Data  Center  Extension  under  study

• Functionality  tests  ongoing  with  another  site  on  GARR  • Goal:  transparent   LSF  extension  

• Also  pilot  setup  for  transparent  remote  storage  access  with  AMS  and  theorists  groups  • GPFS   extension   based  on  a  new   feature  

• Opportunistic  use• Preliminary  contacts  on  going  also  with  one  of  the  main  Commercial  Cloud  Providers and  with  Unicredit Bank

• Use  of  other  centers  (e.g.  GARR,  RECAS)?• Planning  tests  with  CINECA  for  HPC  system

• HNSciCloud PCP  proposal,  if  approved,  will  lead  to  build  an  hybrid  cloud  pilot  with  Commercial  providers• Hybrid  infrastructure  as  a  Service  (IaaS)  platform  • 70%  funded  by  EU• (If  approved  and  successful!)  much  larger  project  in  2  years

16/09/2015 Luca  dell'Agnello 30Talk  a  CCR  27/05/2015