Hardware und Konfiguration

Übersicht

Das Cluster besteht grundsätzlich aus mehreren Sektionen:

MPI Sektion für MPI-intensive Anwendungen
ACC Sektion für Anwendungen, die von Akzeleratoren profitieren
MEM Sektion für Anwendungen, die sehr viel Hauptspeicher (pro Knoten) benötigen
TEST Teilsektion für die Evaluation neuer Hardware

Das Komplettsystem befindet sich im HLR-Gebäude (L5|08) auf dem Campus Lichtwiese und besteht aus mehreren gleichzeitig laufenden Ausbaustufen (ehem. Phasen).

Phase II von Lichtenberg II – In Vorbereitung – Testphase ab 5. Dez. 2023
Phase I von Lichtenberg II wurde im Dezember 2020 in Betrieb genommen.
Phase II von Lichtenberg I wurde Februar 2015 in Betrieb genommen und wurde im Mai 2021 abgeschaltet.
Phase I von Lichtenberg I war seit Herbst 2013 in Betrieb und wurde im April 2020 abgeschaltet.

Jeder Rechenknoten einzeln mit entweder einem größeren oder mehreren kleinen Jobs/Programmen
Mehrere Knoten gleichzeitig mit Inter-Prozess-Kommunikation (MPI) über InfiniBand

Die verschiedenen Ausbaustufen (ehem. Phasen) des Lichtenberg 2 sind für sich jeweils große Inseln in Bezug auf den Interconnect : nur die Rechenknoten derselben Phase können gleichzeitig und annähernd gleich schnell miteinander kommunizieren – ihr InfiniBand-Netzwerk ist (innerhalb ihrer Insel/Ausbaustufe) „non-blocking“ angelegt.

Im Gegensatz dazu ist die Bandbreite zwischen den Ausbaustufen/Inseln limitiert.

643 Rechenknoten und 8 Loginknoten

Prozessoren: Zusammen ~4,5 PFlop/s Rechenleistung (DP-Genauigkeit, peak – theoretisch)
- Real erreichbar ca. 3,15 PFlop/s Rechenleistung mit Linpack
Akzeleratoren: Zusammen 424 TFlop/s Rechenleistung (DP/FP64-Genauigkeit, peak – theoretisch) und ~6,8 Tensor PFlop/s (Half Precision/FP16)
Speicherausbau: insgesamt ~250 TByte Hauptspeicher
Alle Rechenknoten in einer großen Insel:
- MPI Sektion: 630 Knoten (je 96 Rechenkerne, 384 GByte Hauptspeicher)
- ACC Sektion: 8 Knoten (je 96 Rechenkerne, 384 GByte Hauptspeicher)
  - 4 Knoten mit je 4x Nvidia V100 GPUs
  - 4 Knoten mit je 4x Nvidia A100 GPUs
- MEM Sektion: 2 Knoten (je 96 Rechenkerne, 1536 GByte Hauptspeicher)
NVIDIA DGX A100
- 3 Knoten (je 128 Rechenkernen, 1024 GByte Hauptspeicher)
  - 8x NVIDIA A100 Tensor Core GPUs (320 GByte total)
  - Lokales Storage: ca. 19 TByte (Flash, NVME)

Unter „Betrieb“/„Hardware“ finden SIe die Prozessor- und Beschleuniger-Details .

Das jüngste Speicher-System ist ein IBM/Lenovo „Elastic Storage System“ und ging am 20. Dezember 2022 in Betrieb. Das ESS besteht nicht mehr aus herkömmlichen (magnetischen) Festplatten, sondern ausschließlich aus NVMe-Flash-Speichern (insgesamt 576). Das sind Solid State Disks, bei denen kein SATA/SAS-„Controller“ mit eigenen Latenzen mehr im Datenpfad liegt – stattdessen sind sie direkt per PCI-Express an die CPUs der Storage-Server angebunden.

Das ESS stellt daher wesentlich höhere Bandbreite bzw. Durchsatz sowie wesentlich mehr I/O-Operationen pro Sekunde zur Verfügung als das alte System.

Insgesamt stehen momentan 2,1 PByte zur Verfügung.

Das parallele Hochgeschwindigkeits-Dateisystem ist „IBM Storage Scale“ (früher General Parallel File System), das für seine besonders hohe parallele Performance und Flexibilität bekannt ist.

Es stellt die gespeicherten Daten allen Cluster-Knoten über den schnellen Interconnect zur Verfügung, wobei alle Knoten gleichzeitig Lese- und Schreibzugriff haben.

Eine weitere Besonderheit an diesem System ist, dass alle Dateisysteme / Verzeichnisse über alle Platten bzw. SSDs/NVMe so verteilt werden, dass es kaum noch Geschwindigkeits-Unterschiede, trotz unterschiedlicher Konfiguration für den jeweiligen Zweck, mehr zwischen z.B. /work/scratch oder /home gibt. Außerdem bewirkt jede Kapazitätserweiterung somit auch eine substantielle Erhöhung des Speicherdurchsatzes.

Hardware

Übersicht

Nutzungsformen der Rechenknoten

Hardware der Ausbaustufe 2 Lichtenberg II

586 Rechenknoten und 8 Loginknoten

Hardware der Ausbaustufe 1 Lichtenberg II

643 Rechenknoten und 8 Loginknoten

Hardware Lichtenberg I Phase II (2015-2021)

632 Rechenknoten und 8 Loginknoten (abgeschaltet seit 31.5.2021)

Hardware Lichtenberg I Phase I (2013-2020)

780 Rechenknoten und 4 Loginknoten (abgeschaltet seit 27.4.2020)

Dateisysteme / Storage

GPFS

ILM