Managerul de joburi

    Sistemul HPC Cluster2 folosește PBS Professional Open Source pentru a gestiona resursele necesare proceselor și pentru programarea și execuția joburilor. Serverul principal care găzduiește serviciul central pentru PBSPRO este serverul master.hpc.ugal.ro (Linux).

    Pentru a executa un job de calcul paralel trebuie respectate următoarele reguli:

  • De pe calculatorul personal utilizatorii se conectează pe unul din cele 3 sisteme dedicate conectării (Login-Node): 
    • LN1 - Windows - adresa:  ln1.hpc.ugal.ro
    • LN2 - Linux - adresa: master.hpc.ugal.ro sau ln2.hpc.ugal.ro
    • LN3 - Windows - adresa: ln3.hpc.ugal.ro
  • Din aceste sisteme se lansează jobul către managerul de joburi PBSPRO, care va asigura execuția programului sau a scriptului în cadrul serverelor pentru calcul paralel.

    Accesul direct pe serverele de calcul paralel este strict interzis, conectarea la aceste servere este posibilă doar prin intermediul sistemului de joburi („Job Manager”=PBSPRO). Imaginea de mai jos descrie modul în care este posibilă lansarea unui job în cadrul sistemului HPC.

 

        Cozi pentru execuția joburilor

    Sistemul de gestiune a execuției joburilor preia comenzile de la sistemul de management al resurselor și plasează job-ul utilizatorului într-o coadă pentru execuția acestuia. În sistemul HPC Cluster2 sunt configurate mai multe cozi pentru joburi, descrise mai jos. Fiecare coadă pentru execuție are o durată maximă pentru jobul executat, la atingerea limitei respective jobul este oprit, resursele sunt eliberate și dacă se află în coadă un alt job acesta este pornit, dacă sunt disponibile suficiente resurse pentru rularea sa.

    Fiecare coadă are un nivel de prioritate diferit, astfel încât joburile aflate într-o coadă de execuție cu o prioritate mai mare vor fi executate înaintea celor dintr-o coadă cu o prioritate mai mică. Există și o coadă specială destinată execuției joburilor în mod interactiv, cu o prioritate ridicată, care permite suspendarea joburilor care se află în curs de execuție și aflate într-o coadă cu o prioritate mai mică. După terminarea jobului din coada specială se va relua execuția joburilor care au fost suspendate.

    Dacă sunt introduse într-o coadă de execuție mai multe joburi acestea vor fi lansate în ordinea în care acestea au fost plasate în coadă conform principiului FIFO/FCFS (first come, first served).

    Accesul la fiecare coadă în parte este un alt aspect de care trebuie ținut cont în momentul în care se dorește lansarea unui job. Unele cozi sunt cu acces general ceea ce permite oricărui utilizator care are acces la sistemul HPC să plaseze un job în coada respectivă, alte cozi sunt cu acces restricționat pentru care trebuie solicitat acces în mod explicit cu o justificare adecvată.

    Sistemul de cozi pentru execuția joburilor este implementat pentru a asigura un acces echilibrat și egal distribuit între utilizatorii sistemului HPC și pentru a preveni eventualele abuzuri asupra exploatării resurselor de calcul paralel.

    Cozile pentru execuția joburilor definite în sistemul HPC Cluster2 sunt următoarele:

  • short - coadă implicită (default)
    • număr maxim de joburi/user: 2; joburile vor fi lansate în limita numărului maxim de procesoare alocate
    • durata maximă: 480 minute (8h)
    • număr maxim de procesoare alocate: 120
    • nivel de prioritate: 100
    • acces: general
    • poate suspenda joburi: NU
  • medium
    • număr maxim de joburi/user: 2; joburile vor fi lansate în limita numărului maxim de procesoare alocate
    • durata maximă: 48h (2 zile)
    • număr maxim de procesoare alocate: 120 
    • nivel de prioritate: 70
    • acces: general
    • poate suspenda joburi: NU
  • long
    • număr maxim de joburi/user: 2; joburile vor fi lansate în limita numărului maxim de procesoare alocate
    • durata maximă: 168h (7 zile)
    • număr maxim de procesoare alocate: 120 
    • nivel de prioritate: 50
    • acces: restricționat, la cerere
    • poate suspenda joburi: NU
  • express
    • număr maxim de joburi/user: 2
    • durata maximă: 168h (7 zile)
    • număr maxim de procesoare: nelimitat
    • nivel de prioritate: 200
    • acces: restricționat, cazuri speciale, la cerere
    • poate suspenda/opri joburi: DA

    Observații.: Sistemul de joburi poate suferi modificări în configurare în funcție de necesitățile care pot apărea la anumite momente. Toate modificările asupra sistemului de joburi vor fi reliefate prin actualizarea informațiilor din această pagină și prin postarea unui anunț în zona de Anunțuri.

    Detalii referitoare la modul de conectare de la distanță pe serverele de conectare (Login Node) se găsesc în pagina ”Mediul de lucru”

    Mai multe informații despre cum se poate crea, executa și gestiona un job pot fi găsite în secțiunea ”Gestiunea joburilor”.

 

        Accesul la cozi

    Pentru a rula joburi care necesită acces la orice coadă de execuție trebuie efectuată o cerere prin completarea formularului disponibil aici. Trebuie justificată necesitatea rulării jobului pe o durată mai lungă sau cu o prioritate crescută și programele care vor fi folosite, precum și necesitatea de a rula joburi care solicit resursele de calcul o perioadă mai lungă. Accesul la toate cozile definite mai sus se furnizează în regim temporar, pe o perioadă determinată și, de asemenea, doar în baza unei justificări fundamentate a necesităților.

    Monitorizarea activității de lucru pe sistemul de calcul HPC va fi efectuată de Direcția generală informatizare și comunicații digitale.

Ultima modificare: 30 iulie 2020

Ultimele actualizări

Informații generale