Name: DFH NAF - Update
Start: 2023-06-30T13:00:00+03:00
End: 2023-06-30T15:00:00+03:00
Location: No location set

1

Intro

Dear All,

As we decided in our last HPD weekly meeting, we will meet today,
February 2nd, at 9:00 a.m. in the Conference Hall for a discussion
related to an efficient use of NAF and its upgrade.

See you in a good mood,

 Mihai

Speaker: Prof. Mihai Petrovici (National Institute for Physics and Nuclear Engineering (IFIN-HH))

2

Update

General description

Speaker: Claudiu Schiaua (IFIN-HH/DFH)

Cu mare intarziere, noul cluster NAF este acum disponibil. Masina
front-end este sdaq01.dfh (accesibila din DFH). Utilizatorii si
parolele sunt aceleasi ca pe vechiul cluster (alice.nipne.ro).

Directoarele /naf/{01,...05} sunt aceleasi ca pe vechiul cluster si
sunt disponibile pe workeri, la fel ca pe vechiul cluster.

/home este diferit de spatiul /home de pe vechiul cluster. Pe noul
cluster /home este un spatiu de 1.5 TB SSD (foarte rapid) care se
gaseste fizic pe sdaq01.dfh. Tot acolo se gaseste partitia /data (tot
1.5 TB, SSD) unde utilizatorii pot scrie in /data/niham . Vom folosi
aceeasi conventie, fiecare utilizator isi va crea un subdirector in
/data/niham .

Atat /home cat si /data sunt disponibile pe workeri.

Avand in vedere spatiul limitat, evitati sa folositi /home si /data pt.
fisiere mari, folositi /naf pt. asta.

Spatiul /home de pe vechiul cluster (alice.nipne.ro) este disponibil pe
noul cluster (atat pe sdaq01.dfh cat si pe workeri) in /ahome .

Pe fiecare worker (si pe sdaq01 pt. simetrie) exista 2 spatii locale
(specifice fiecarei masini) dedicate: /scratch1 si /scratch2, de ~1TB
fiecare (cu exceptia sdaq01 unde sunt symlink-uri la niste directoare
in /home si /data, deci nu sunt spatii dedicate), unde exista
subdirectorul "niham" unde utilizatorii pot scrie. Vom folosi aceeasi
regula, fiecare utilizator isi va crea propriul subdirector numit cu
propriul username. Aceste spatii nu sunt modificate de sistem, ce
puneti acolo nu este sters automat de sistem.

Pe noul cluster este instalat Fedora 38 (ultima versiune stabila). Este
o distributie cu ultima versiune gcc, pot fi mici probleme cu diverse
software-uri. Ca un exercitiu, am compilat cbmroot (si dependentele
fairsoft si fairroot) in /data/cbmsoft . Modificarile necesare pt. noua
versiune gcc au fost minore si destul de evidente, a fost mai multa
bataie de cap pt. a le face in sensul sistemului de build (aceste mari
colaborari au tendinta de a folosi versiuni specifice pt. diverse
pachete externe). Pt. a-l folosi:

. /data/cbmsoft/cbmroot/cbmroot/build/config.sh

(are grija sa configureze si fairroot si fairsoft).

Masina sdaq01 este una foarte buna (256 GB RAM, 2x AMD EPYC 7351), mai
buna decat workerii. Asta poate creea probleme: un software compilat pe
sdaq01 poate sa nu mearga pe workeri, daca la compilare au fost
folosite optiuni de folosire a unor seturi de instructiuni care nu sunt
disponibile pe workeri asa ca trebuie evitata folosirea unor astfel de
optiuni. Uneori asta poate fi dificil, diverse pachete pot avea un
"build system" care face asta si dezactivarea acestui comportament
necesita cunoasterea sistemului de "build". Daca apar astfel de
probleme, putem folosi un worker ca un al 2-lea front-end unde sa fie
compilat software-ul. Totusi, avand in vedere ca in viitor vom adauga
masini noi (deci vom avea, inevitabil, un cluster eterogen), e bine ca
utilizatorii sa stie sa rezolve astfel de probleme.

O alta metoda de a mai simplifica lucrurile in ceea ce priveste
compilarea software-ului ar fi utilizarea cvmfs. Asta e un soi de
"filesystem global" folosit de marile colaborari (de exemplu CERN il
foloseste pt. job-urile grid). Ideea e ca marile colaborari au oameni
care se ocupa cu compilat-ul software-ului si produc diverse
distributii binare care pot fi rulate "more-or-less" independent de
ceea ce exista pe worker, eventual folosind un mecanism de container
(gen singularity). Din pacate mecanismul de compilare al pachetului
cvmfs e unul neobisnuit si are probleme (se pare la ultimele 4 versiuni
Fedora). Inca n-am deslusit acesta problema, o sa mai dureze.

Vechiul cluster NAF (alice.nipne.ro) este disponibil cum a fost si pana
acum, doar ca parte din workeri au fost mutati la noul cluster. Inca
mai are un numar semnificativ de workeri, dar, in timp, vom mai
transfera la noul cluster, dupa nevoi.

Un numar mare de workeri defecti au fost reparati, in principiu sunt
mai multe resurse disponibile acum. Dupa reparatie eu am facut unele
teste, dar e posibil sa mai gasim workeri nu foarte fiabili.

Toate bune,
Claudiu

PS:

Patch-urile pt. cbmroot "HEAD", de azi (inclusiv pt. cod aparut ieri)
sunt in /data/cbmsoft/cbmroot-2023-06-30 (nu include si compilarea, sa
nu ocupe spatiul). In final, sunt destul de putine. Poate e o idee sa
submiti un MR pt. ele, nu vad de ce n-ar accepta.

Toate bune,
Claudiu

3

User experience

Speaker: Alexandru Bercuci (IFIN-HH)

iar aceasta este alocarea pe "clusteri":

alice (old)

[abercuci@alice ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
niham*       up   infinite      4 drain* pic[14,20-21,29]
niham*       up   infinite      1 drain pic09
niham*       up   infinite     23 idle~ pic[01-08,11-13,15-19,22-28]
niham*       up   infinite      1 alloc pic10

si sdq01 (new)

abercuci@sdaq01 ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
niham* up infinite 37 idle~ pic[30-34,37-44,48-55,57,59-61,63-71,73,75-76]
niham* up infinite 10 drain* pic[35-36,45-47,56,58,62,72,74]

==========================================

Pot oricand sa mut workeri de la vechiul NAF la noul NAF, nu invers.
Din acest motiv, am lasat mai multi workeri in vechiul NAF decat am
discutat (am discutat sa lasam ~10 workeri "buni"), urmand sa mai mut
ulterior. Din cei 29 workeri lasati in vechiul NAF, 5 sunt defecti (din
astia 1 probabil o sa-l pot repara) iar din ceilalti 24 mai bine de 1/2
sunt reparati, o sa vedem cati sunt cu adevarat buni. "Reparatiile" au
constat, in principal, in schimbarea modulelor de memorie care nu
functionau corect. Dupa asta am rulat un test de memorie (dureaza 4-5
h) si doar workerii care l-au trecut au fost declarati "reparati".
Totusi, cu ocazia instalarii noului NAF am constatat ca 2 dintre
workerii "reparati" au in continuare probleme, asa ca e posibil ca si
printre cei reparati din vechiul NAF sa mai fie cativa cu probleme (pe
care le vom vedea ulterior). In plus, cei 37 workeri activi in noul NAF
sunt aproape cati erau activi in vechiul NAF, inainte de reparatii
(cred ca erau 40).

Toate bune,
Claudiu

Choose timezone

DFH NAF - Update