Souhrn

Výpočetní středisko zajišťuje provoz výpočetních klastrů, diskových serverů a dalších zařízení v serverovně FZÚ. 

Text

Výpočetní středisko FZÚ zabezpečuje provoz několika počítačových klastrů a diskových serverů zapojených do národních i mezinárodních gridových projektů. Největší klastr Goliáš poskytoval na začátku roku 2021 přibližně 10000 logických (5000 reálných) výpočetních jader. Klastr se průběžně rozšiřuje o nové servery, proto zahrnuje různě staré verze CPU od Intel a AMD. Spolu s diskovými servery o celkové kapacitě přes 5 PB (leden 2021) je zapojen do mezinárodního gridu EGI, projektu WLCG (distribuované zpracování dat pro experimenty na LHC urychlovači) i OpenScience gridu (převážně pro projekty v USA). Díky spolupráci s národní e-Infrastrukturou eINFRA má výborné externí připojení (100 Gbps do privátní sítě pro LHC a 40 Gbps do internetu). Všechny servery spravujeme pomocí Puppet, změny uchováváme v Git. Rozsáhlé lokální monitorování obstarává Nagios a Prometheus jeho vizualizaci munin a Grafana. Distribuci úloh na servery zajišťuje dávkový systém HTCondor. Statistiky využití se publikují na portálu EGI. Kapacita pro výpočty je rozšířena fungujícím přeposíláním vybraných úloh do národního superpočítačového střediska IT4I, zálohy a rozšíření úložných prostor provádíme na zdrojích CESNET. 

Další 2 HPC klastry jsou určeny pro náročné paralelní úlohy. 

Klastr Koios pro skupinu CEICO (Central European Institute for Cosmology and Fundamental Physics) sestává z 30 výkonných serverů propojených nízkolatenční sítí s vysokou propustností Infiniband EDR (100Gb/s) a zálohovaného sdíleného úložiště o kapacitě 100TB. Výpočetní kapacitu 960 CPU jader dopňuje 14336 GPU jader, uživatelé mohou využít až 11 TB RAM. Systém podporuje dávkové i interaktivní úlohy, přístup z příkazové řádky i grafické uživatelské prostředí. Rozdělení úloh na servery provádí dávkový systém Slurm. Pro uživatele je předpřipraveno vývojové prostředí obsahující nejnovější nástroje z rodin kompilátorů GNU gcc a Intel, interaktivní nástroj Wolfram Mathematica a nástroje pro interaktivní práci s daty nejen v jazyce Python Jupyter Hub/Notebook. Modularita a přenositelnost kódu je zajištěna kontejnery Singularity a frameworkem pro build vědeckých nástrojů EasyBuild.  

Klastr LUNA určený převážně pro uživatele FZÚ ze Sekce fyziky pevných látek je zapojený do národního gridového prostředí Metacentrum. Na počátku roku 2021 poskytoval 2048 výpočetnícj jader AMD ve 32 serverech s celkovou kapacitou 16 TB RAM. Uživatelé FZÚ mají k dispozici prioritní frontu úloh v dávkovém systému PBSPro, který plánuje úlohy na všechny klastry v Metacentru. Pokud nejsou dočasně některé servery plně obsazené, mohou se na nich spouštět i kratší úlohy jiných uživatelů Metacentra. Lokální diskové pole poskytuje 100 TB pro rychlé sdílení spouborů mezi servery, zálohovaný prostor pro domovské adresáře je k dispozici na vzdáleném serveru CESNET. V případe potřeby jiného operačního systému pro úlohy je stejně jako na ostatních klastrech VS k dispozici Singularity pro virtualizaci. Mnoho aplikací je dostupných na sdíleném souborovém systému AFS a nověji též na CVMFS. 

Parametry velké serverovny (speciálních místností pro servery máme více):

plocha 62 m^2
UPS: 1X250 kVA, 2X100 kVA, celkem 400 kVA
větší UPS zajištěna dieselovým agregátem 350 kVA, který v případě delšího výpadku elektrického napájení pokrývá i spotřebu klimatizací
vzduchové chlazení s kapacitou 108 kW
vodní chlazení s kapacitou 144 kW