M.Biasotto, Padova, 6 dicembre 2001 M.Biasotto, Padova, 6 dicembre 2001 1 1 Esperienze con la farm CMS a Esperienze con la farm CMS a LNL LNL e prospettive del WP4 di e prospettive del WP4 di DataGrid DataGrid Massimo Biasotto - LNL Massimo Biasotto - LNL
26
Embed
Esperienze con la farm CMS a LNL e prospettive del WP4 di DataGrid
Esperienze con la farm CMS a LNL e prospettive del WP4 di DataGrid. Massimo Biasotto - LNL. Sommario. La farm CMS di Legnaro Configurazione Installazione e Management Monitoring Il WP4 (Fabric Management) del progetto Datagrid Overview architettura Installation & Node Management system - PowerPoint PPT Presentation
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 11
Esperienze con la farm CMS a LNLEsperienze con la farm CMS a LNLe prospettive del WP4 di DataGride prospettive del WP4 di DataGrid
Massimo Biasotto - LNLMassimo Biasotto - LNL
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 22
SommarioSommario
La farm CMS di LegnaroLa farm CMS di Legnaro– ConfigurazioneConfigurazione– Installazione e ManagementInstallazione e Management– MonitoringMonitoring
Il WP4 (Fabric Management) del progetto DatagridIl WP4 (Fabric Management) del progetto Datagrid– Overview architetturaOverview architettura– Installation & Node Management systemInstallation & Node Management system– Il prototipo attuale: LCFGIl prototipo attuale: LCFG– Futuri sviluppiFuturi sviluppi
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 33
Layout Farm CMS@LNLLayout Farm CMS@LNL
FFastastEEthth
32 – GigaEth 1000 BT32 – GigaEth 1000 BT
SWITCHSWITCH
N1N1FFastastEEthth
SWITCHSWITCH
11 88
S1S1 S16S16
NN2424 N1N1 NN2424
Nx – Computational NodeNx – Computational NodeDual PIII – 1 GHzDual PIII – 1 GHz512 MB512 MB3x75 GB Eide disk + 1x20 GB for O.S.3x75 GB Eide disk + 1x20 GB for O.S.
Sx – Disk Server NodeSx – Disk Server NodeDual PIII – 1 GHzDual PIII – 1 GHzDual PCI (33/32 – 66/64) 512 MBDual PCI (33/32 – 66/64) 512 MB4x75 GB Eide Raid disks (exp up to 10) 4x75 GB Eide Raid disks (exp up to 10) 1x20 GB disk O.S.1x20 GB disk O.S.
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 44
Farm CMS@LNLFarm CMS@LNL
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 55
Farm CMS@LNLFarm CMS@LNL
7 m
10 m
max 16 PC (5 kW)max 16 PC (5 kW)x shelf modulex shelf module
max 64 PC (20 kW)max 64 PC (20 kW)x shelf (4 modules)x shelf (4 modules)~ 6 KSI95 Now~ 6 KSI95 Now
19” rack (5 kW)19” rack (5 kW)for network for network Equipments,Equipments,Disks, etc.Disks, etc.
Max 200 BoxMax 200 Box
T2+ Prototype T2+ Evolution
max 30 1Umax 30 1U PC (10 kW) x rackPC (10 kW) x rack
Replacing old shelfs with 19” racksMax 1000 Boxes
~ 3 KSI95 Now
~ 25 TB Now
2001
2001
2002
2002
T2+ Rif.~ 70 KSI95~ 250 TB
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 66
ConfigurazioneConfigurazione
GATEWAY
SERVERS COMPUTING NODES
OS
DATA
OS
LOCALDATA
RAID 0 HW
Users homeApp. software
OS
RAID 1 HW
RAID 0 SW
NFS
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 77
InstallazioneInstallazione
Procedura automatica di installazioneProcedura automatica di installazione– network boot (DHCP)network boot (DHCP)– RedHat Kickstart (tftp + nfs)RedHat Kickstart (tftp + nfs)– script di configurazione inizialescript di configurazione iniziale
ANIS: script per automatizzare la gestione dei vari servizi ANIS: script per automatizzare la gestione dei vari servizi necessari alla procedura (DHCP, tftp, nfs, kickstart files)necessari alla procedura (DHCP, tftp, nfs, kickstart files)
Kickstart file e script di installazione per ogni tipologia di Kickstart file e script di installazione per ogni tipologia di nodo (attualmente cms_server e cms_client)nodo (attualmente cms_server e cms_client)
L’installazione da zero di un nodo è (quasi) completamente L’installazione da zero di un nodo è (quasi) completamente automaticaautomatica
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 88
ManagementManagement
Il Gateway è gestito manualmenteIl Gateway è gestito manualmente– upgrades, installazione nuovi applicativi, utentiupgrades, installazione nuovi applicativi, utenti
Tutti gli altri nodi gestiti in maniera automatizzataTutti gli altri nodi gestiti in maniera automatizzata– home utenti e software montati via NFS dal gatewayhome utenti e software montati via NFS dal gateway– upgrades e modifiche di configurazione tramite scripts upgrades e modifiche di configurazione tramite scripts
(con aggiornamento degli scripts di ANIS)(con aggiornamento degli scripts di ANIS)– semplice tool (“distributed shell”) per esecuzione di semplice tool (“distributed shell”) per esecuzione di
comandi su tutti i nodi (o parte di essi)comandi su tutti i nodi (o parte di essi)– files utenti (passwd, group) distribuiti dal gateway files utenti (passwd, group) distribuiti dal gateway
tramite rdisttramite rdist Qualunque nodo può essere reinstallato da zero in ogni Qualunque nodo può essere reinstallato da zero in ogni
momento: in pochi minuti è pronto e configuratomomento: in pochi minuti è pronto e configurato
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 99
MonitoringMonitoring
Inizialmente con MRTGInizialmente con MRTG– pesante impatto sul server (gateway)pesante impatto sul server (gateway)– instabile: molti problemi quando un nodo non rispondeinstabile: molti problemi quando un nodo non risponde
Investigati diversi altri sistemi di monitoring basati su Investigati diversi altri sistemi di monitoring basati su RRDtool ( RRDtool ( http://people.ee.ethz.ch/~oetiker/webtools/rrdtool/ ): NRG, NRG, Orca, ...Orca, ...
Attualmente in uso ‘remstats’ Attualmente in uso ‘remstats’ – http://silverlock.dgim.crc.ca/remstats/releasehttp://silverlock.dgim.crc.ca/remstats/release
– molto pimolto piùù leggero di MRTG, pi leggero di MRTG, piùù flessibilit flessibilitàà nella nella creazione di grafici, impostazione di ‘alerts’, facilmente creazione di grafici, impostazione di ‘alerts’, facilmente espandibileespandibile
– perperòò funziona in modalit funziona in modalitàà sequenziale e non parallela sequenziale e non parallela– http://cmsfarmgw.lnl.infn.it/remstats/http://cmsfarmgw.lnl.infn.it/remstats/
Ci manca un tool per il monitoraggio delle temperature Ci manca un tool per il monitoraggio delle temperature delle CPUdelle CPU
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 1010
RemstatsRemstats
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 1111
RemstatsRemstats
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 1212
Remstats vs MRTGRemstats vs MRTG
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 1313
Sviluppi futuriSviluppi futuri
L’attuale gestione della farm è in parte manuale ed in parte L’attuale gestione della farm è in parte manuale ed in parte automatizzata con tools non molto sofisticatiautomatizzata con tools non molto sofisticati– utilizzo di molti custom-scriptsutilizzo di molti custom-scripts– molte delle soluzioni non sono scalabilimolte delle soluzioni non sono scalabili
Con l’espansione della farm prevista per i prossimi anni Con l’espansione della farm prevista per i prossimi anni questa modalità di gestione risulterà inadeguataquesta modalità di gestione risulterà inadeguata– possibilità di utilizzare i tools di fabric management del possibilità di utilizzare i tools di fabric management del
WP4 di Datagrid?WP4 di Datagrid?
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 1414
DatagridDatagrid
Project structured in many “Work Packages”:Project structured in many “Work Packages”:– WP1: Workload ManagementWP1: Workload Management– WP2: Data ManagementWP2: Data Management– WP3: Monitoring ServicesWP3: Monitoring Services– WP4: Fabric ManagementWP4: Fabric Management– WP5: Mass Storage ManagementWP5: Mass Storage Management– WP6: TestbedWP6: Testbed– WP7: NetworkWP7: Network– WP8-10: ApplicationsWP8-10: Applications
L’attuale prototipo è basato su un tool originariamente L’attuale prototipo è basato su un tool originariamente sviluppato all’Università di Edinburgo: LCFG (Large Scale sviluppato all’Università di Edinburgo: LCFG (Large Scale Linux Configuration)Linux Configuration)http://www.dcs.ed.ac.uk/home/paul/publications/ALS2000/http://www.dcs.ed.ac.uk/home/paul/publications/ALS2000/
Funzionalità principali:Funzionalità principali:– installazione automatica del S.O.installazione automatica del S.O.– installazione/upgrade/remove di tutti i pacchetti installazione/upgrade/remove di tutti i pacchetti
software (rpm-based)software (rpm-based)– configurazione e gestione centralizzata delle macchineconfigurazione e gestione centralizzata delle macchine– estendibilità: configurazione e gestione di software estendibilità: configurazione e gestione di software
applicativo customapplicativo custom
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2121
A collection of agents read configuration parameters and either generate traditional config files or directly manipulate various services
Abstract configuration parameters for all nodes stored in a central repository
ldxprof
LoadProfile
Generic
Component
ProfileObject
rdxprof
ReadProfile
LCFG Objects
Local cache
Client nodes
Web Server
HTTP
XML Profile
LCFG Config Files
Make XMLProfile
Server
LCFG diagramLCFG diagram
+inet.services telnet login ftp
+inet.allow telnet login ftp sshd
+inet.allow_telnet ALLOWED_NETWORKS
+inet.allow_login ALLOWED_NETWORKS
+inet.allow_ftp ALLOWED_NETWORKS
+inet.allow_sshd ALL
+inet.daemon_sshd yes
.....
+auth.users myckey
+auth.userhome_mickey /home/mickey
+auth.usershell_mickey /bin/tcsh
+inet.services telnet login ftp
+inet.allow telnet login ftp sshd
+inet.allow_telnet ALLOWED_NETWORKS
+inet.allow_login ALLOWED_NETWORKS
+inet.allow_ftp ALLOWED_NETWORKS
+inet.allow_sshd ALL
+inet.daemon_sshd yes
.....
+auth.users myckey
+auth.userhome_mickey /home/mickey
+auth.usershell_mickey /bin/tcsh
Config files
<inet>
<allow cfg:template="allow_$ tag_$ daemon_$">
<allow_RECORD cfg:name="telnet">
<allow>192.168., 192.135.30.</allow>
</allow_RECORD>
.....
</auth>
<user_RECORD cfg:name="mickey">
<userhome>/home/MickeyMouseHome</userhome>
<usershell>/bin/tcsh</usershell>
</user_RECORD>
<inet>
<allow cfg:template="allow_$ tag_$ daemon_$">
<allow_RECORD cfg:name="telnet">
<allow>192.168., 192.135.30.</allow>
</allow_RECORD>
.....
</auth>
<user_RECORD cfg:name="mickey">
<userhome>/home/MickeyMouseHome</userhome>
<usershell>/bin/tcsh</usershell>
</user_RECORD>
XML profiles
ProfileObject
inet auth
/etc/services/etc/services
/etc/inetd.conf/etc/inetd.conf
/etc/hosts.allow
in.telnetd : 192.168., 192.135.30.
in.rlogind : 192.168., 192.135.30.
in.ftpd : 192.168., 192.135.30.
sshd : ALL
/etc/hosts.allow
in.telnetd : 192.168., 192.135.30.
in.rlogind : 192.168., 192.135.30.
in.ftpd : 192.168., 192.135.30.
sshd : ALL
/etc/shadow/etc/shadow
/etc/group/etc/group
/etc/passwd
....
mickey:x:999:20::/home/Mickey:/bin/tcsh
....
/etc/passwd
....
mickey:x:999:20::/home/Mickey:/bin/tcsh
....
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2222
Cos’e’ un oggetto LCFG?Cos’e’ un oggetto LCFG?
È un semplice shell script (ma in futuro sarà usato perl)È un semplice shell script (ma in futuro sarà usato perl) Ciascun oggetto fornisce un certo numero di “metodi” Ciascun oggetto fornisce un certo numero di “metodi”
(start, stop, reconfig, query, ...) che sono invocati al (start, stop, reconfig, query, ...) che sono invocati al momento opportunomomento opportuno
Funzionamento tipico di un semplice oggetto:Funzionamento tipico di un semplice oggetto:– viene avviato dall’oggetto ‘profile’ a seguito di notifica viene avviato dall’oggetto ‘profile’ a seguito di notifica
di un cambiamento di configurazionedi un cambiamento di configurazione– carica dalla cache locale la sua configurazionecarica dalla cache locale la sua configurazione– configura gli opportuni servizi, o traducendo i parametri configura gli opportuni servizi, o traducendo i parametri
di config nei tradizionali files di config oppure di config nei tradizionali files di config oppure controllando direttamente i servizi (ad es. avviando un controllando direttamente i servizi (ad es. avviando un demone con i parametri della command-line derivati demone con i parametri della command-line derivati dalla configurazione)dalla configurazione)
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2323
LCFG: oggetti customLCFG: oggetti custom
LCFG mette a disposizione gli oggetti per gestire tutti i LCFG mette a disposizione gli oggetti per gestire tutti i servizi standard di una macchina: inet, syslog, nfs, cron, servizi standard di una macchina: inet, syslog, nfs, cron, dns, ...dns, ...
Un amministratore può creare nuovi oggetti custom per Un amministratore può creare nuovi oggetti custom per configurare e gestire le proprie applicazioni:configurare e gestire le proprie applicazioni:– definisce le proprie “risorse” custom (parametri di definisce le proprie “risorse” custom (parametri di
configurazione) da aggiungere al profilo di un nodoconfigurazione) da aggiungere al profilo di un nodo– include nel nuovo script l’oggetto “generic”, in cui sono include nel nuovo script l’oggetto “generic”, in cui sono
definite delle “common functions” usate da tutti gli definite delle “common functions” usate da tutti gli oggetti (config loading, log, output, ...)oggetti (config loading, log, output, ...)
– sovrascrive i metodi standard (start, stop, reconfig, ...) sovrascrive i metodi standard (start, stop, reconfig, ...) con il proprio codice customcon il proprio codice custom
– per oggetti semplici in genere si tratta di poche righe di per oggetti semplici in genere si tratta di poche righe di codicecodice
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2525
LCFG: summaryLCFG: summary
Pro:Pro:– A Edinburgo A Edinburgo èè in uso da anni in un ambiente complesso in uso da anni in un ambiente complesso
ed eterogeneo, con centinaia di nodi da gestireed eterogeneo, con centinaia di nodi da gestire– Supporta la completa installazione e gestione di tutto il Supporta la completa installazione e gestione di tutto il
software (sia O.S. che applicazioni)software (sia O.S. che applicazioni)– Molto flessibile e facile da estendere e customizzareMolto flessibile e facile da estendere e customizzare
Contro:Contro:– Complesso: curva di apprendimento iniziale molto Complesso: curva di apprendimento iniziale molto
ripidaripida– Nello stato attuale Nello stato attuale èè ancora un prototipo: incompleto e ancora un prototipo: incompleto e
probabilmente la versione futura non sarà del tutto probabilmente la versione futura non sarà del tutto compatibilecompatibile
– Mancanza di tools user-friendly per la creazione e Mancanza di tools user-friendly per la creazione e gestione dei files di configurazione (ed eventuali errori gestione dei files di configurazione (ed eventuali errori possono essere molto pericolosi!)possono essere molto pericolosi!)
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2626
LCFG: sviluppo futuroLCFG: sviluppo futuro
ldxprof
LoadProfile
Generic
Component
ProfileObject
rdxprof
ReadProfile
LCFG ObjectsLocal cache
Client nodes
Web Server
HTTP
XML Profile
LCFG Config Files
Make XMLProfile
Server
SoftwareRepository
(RPMs)
Installation Server(DHCP, kernel images
installroot)NFS
SoftwareRepository
(RPMs)
FTPHTTP
NMA Objects
NMAConfigCache
ManagerConfiguration
DataBase
BootstrapService
Images PXETFTP
DHCP
UserInterface
M.Biasotto, Padova, 6 dicembre 2001M.Biasotto, Padova, 6 dicembre 2001 2727
ConclusioniConclusioni
Il prototipo attuale non Il prototipo attuale non èè ancora usabile in produzione ancora usabile in produzione– incompleto, bugs, mancanza del DB di configurazione, incompleto, bugs, mancanza del DB di configurazione,
parzialmente incompatibile con la prossima release parzialmente incompatibile con la prossima release Prossima milestone: settembre 2002Prossima milestone: settembre 2002
– il sistema di installazione e management dovrebbe il sistema di installazione e management dovrebbe essere sufficientemente completo e usabileessere sufficientemente completo e usabile
– sarsaràà integrato con il DB di configurazione, ma abbiamo integrato con il DB di configurazione, ma abbiamo dei dubbi su quest’ultimo (solo un prototipo, mancanza dei dubbi su quest’ultimo (solo un prototipo, mancanza di adeguata interfaccia utente)di adeguata interfaccia utente)
– il sistema di monitoring saril sistema di monitoring saràà solo un prototipo (alcuni solo un prototipo (alcuni sensori, protocollo di trasporto dei dati, repository e sensori, protocollo di trasporto dei dati, repository e display solo degli allarmi)display solo degli allarmi)
L’INFN nel WP4 sta spingendo per avere a Set. 2002 un L’INFN nel WP4 sta spingendo per avere a Set. 2002 un sistema di Fabric Management realmente usabile nelle sistema di Fabric Management realmente usabile nelle nostre farm nostre farm