DFH NAF - Update
-
-
1
Intro
Dear All,
As we decided in our last HPD weekly meeting, we will meet today,
February 2nd, at 9:00 a.m. in the Conference Hall for a discussion
related to an efficient use of NAF and its upgrade.See you in a good mood,
MihaiSpeaker: Prof. Mihai Petrovici (National Institute for Physics and Nuclear Engineering (IFIN-HH)) -
2
Update
General description
Speaker: Claudiu Schiaua (IFIN-HH/DFH)Cu mare intarziere, noul cluster NAF este acum disponibil. Masina front-end este sdaq01.dfh (accesibila din DFH). Utilizatorii si parolele sunt aceleasi ca pe vechiul cluster (alice.nipne.ro). Directoarele /naf/{01,...05} sunt aceleasi ca pe vechiul cluster si sunt disponibile pe workeri, la fel ca pe vechiul cluster. /home este diferit de spatiul /home de pe vechiul cluster. Pe noul cluster /home este un spatiu de 1.5 TB SSD (foarte rapid) care se gaseste fizic pe sdaq01.dfh. Tot acolo se gaseste partitia /data (tot 1.5 TB, SSD) unde utilizatorii pot scrie in /data/niham . Vom folosi aceeasi conventie, fiecare utilizator isi va crea un subdirector in /data/niham . Atat /home cat si /data sunt disponibile pe workeri. Avand in vedere spatiul limitat, evitati sa folositi /home si /data pt. fisiere mari, folositi /naf pt. asta. Spatiul /home de pe vechiul cluster (alice.nipne.ro) este disponibil pe noul cluster (atat pe sdaq01.dfh cat si pe workeri) in /ahome . Pe fiecare worker (si pe sdaq01 pt. simetrie) exista 2 spatii locale (specifice fiecarei masini) dedicate: /scratch1 si /scratch2, de ~1TB fiecare (cu exceptia sdaq01 unde sunt symlink-uri la niste directoare in /home si /data, deci nu sunt spatii dedicate), unde exista subdirectorul "niham" unde utilizatorii pot scrie. Vom folosi aceeasi regula, fiecare utilizator isi va crea propriul subdirector numit cu propriul username. Aceste spatii nu sunt modificate de sistem, ce puneti acolo nu este sters automat de sistem. Pe noul cluster este instalat Fedora 38 (ultima versiune stabila). Este o distributie cu ultima versiune gcc, pot fi mici probleme cu diverse software-uri. Ca un exercitiu, am compilat cbmroot (si dependentele fairsoft si fairroot) in /data/cbmsoft . Modificarile necesare pt. noua versiune gcc au fost minore si destul de evidente, a fost mai multa bataie de cap pt. a le face in sensul sistemului de build (aceste mari colaborari au tendinta de a folosi versiuni specifice pt. diverse pachete externe). Pt. a-l folosi: . /data/cbmsoft/cbmroot/cbmroot/build/config.sh (are grija sa configureze si fairroot si fairsoft). Masina sdaq01 este una foarte buna (256 GB RAM, 2x AMD EPYC 7351), mai buna decat workerii. Asta poate creea probleme: un software compilat pe sdaq01 poate sa nu mearga pe workeri, daca la compilare au fost folosite optiuni de folosire a unor seturi de instructiuni care nu sunt disponibile pe workeri asa ca trebuie evitata folosirea unor astfel de optiuni. Uneori asta poate fi dificil, diverse pachete pot avea un "build system" care face asta si dezactivarea acestui comportament necesita cunoasterea sistemului de "build". Daca apar astfel de probleme, putem folosi un worker ca un al 2-lea front-end unde sa fie compilat software-ul. Totusi, avand in vedere ca in viitor vom adauga masini noi (deci vom avea, inevitabil, un cluster eterogen), e bine ca utilizatorii sa stie sa rezolve astfel de probleme. O alta metoda de a mai simplifica lucrurile in ceea ce priveste compilarea software-ului ar fi utilizarea cvmfs. Asta e un soi de "filesystem global" folosit de marile colaborari (de exemplu CERN il foloseste pt. job-urile grid). Ideea e ca marile colaborari au oameni care se ocupa cu compilat-ul software-ului si produc diverse distributii binare care pot fi rulate "more-or-less" independent de ceea ce exista pe worker, eventual folosind un mecanism de container (gen singularity). Din pacate mecanismul de compilare al pachetului cvmfs e unul neobisnuit si are probleme (se pare la ultimele 4 versiuni Fedora). Inca n-am deslusit acesta problema, o sa mai dureze. Vechiul cluster NAF (alice.nipne.ro) este disponibil cum a fost si pana acum, doar ca parte din workeri au fost mutati la noul cluster. Inca mai are un numar semnificativ de workeri, dar, in timp, vom mai transfera la noul cluster, dupa nevoi. Un numar mare de workeri defecti au fost reparati, in principiu sunt mai multe resurse disponibile acum. Dupa reparatie eu am facut unele teste, dar e posibil sa mai gasim workeri nu foarte fiabili. Toate bune, Claudiu
PS:
Patch-urile pt. cbmroot "HEAD", de azi (inclusiv pt. cod aparut ieri) sunt in /data/cbmsoft/cbmroot-2023-06-30 (nu include si compilarea, sa nu ocupe spatiul). In final, sunt destul de putine. Poate e o idee sa submiti un MR pt. ele, nu vad de ce n-ar accepta. Toate bune, Claudiu
-
3
User experienceSpeaker: Alexandru Bercuci (IFIN-HH)
iar aceasta este alocarea pe "clusteri":
alice (old)
[abercuci@alice ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
niham* up infinite 4 drain* pic[14,20-21,29]
niham* up infinite 1 drain pic09
niham* up infinite 23 idle~ pic[01-08,11-13,15-19,22-28]
niham* up infinite 1 alloc pic10
si sdq01 (new)
abercuci@sdaq01 ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
niham* up infinite 37 idle~ pic[30-34,37-44,48-55,57,59-61,63-71,73,75-76]
niham* up infinite 10 drain* pic[35-36,45-47,56,58,62,72,74]==========================================
Pot oricand sa mut workeri de la vechiul NAF la noul NAF, nu invers. Din acest motiv, am lasat mai multi workeri in vechiul NAF decat am discutat (am discutat sa lasam ~10 workeri "buni"), urmand sa mai mut ulterior. Din cei 29 workeri lasati in vechiul NAF, 5 sunt defecti (din astia 1 probabil o sa-l pot repara) iar din ceilalti 24 mai bine de 1/2 sunt reparati, o sa vedem cati sunt cu adevarat buni. "Reparatiile" au constat, in principal, in schimbarea modulelor de memorie care nu functionau corect. Dupa asta am rulat un test de memorie (dureaza 4-5 h) si doar workerii care l-au trecut au fost declarati "reparati". Totusi, cu ocazia instalarii noului NAF am constatat ca 2 dintre workerii "reparati" au in continuare probleme, asa ca e posibil ca si printre cei reparati din vechiul NAF sa mai fie cativa cu probleme (pe care le vom vedea ulterior). In plus, cei 37 workeri activi in noul NAF sunt aproape cati erau activi in vechiul NAF, inainte de reparatii (cred ca erau 40). Toate bune, Claudiu
-
1