GPU-Server
Zur Zeit gibt es am Institut mehrere Server mit GPUs von Nvidia (Tesla V100, RTX6000). Neben CUDA ist auch OpenCL und TensorFlow (Python) installiert.
Die PC in den Pool-Räumen "Berlin" und "Brandenburg" haben Grafikkarten von Nvidia, die ebenfalls über CUDA, OpenCL und Tensoflow genutzt werden können. Alle PCs in den Pool-Räumen haben eine Intel-Grafikkarte (Onboard). Diese lässt sich über OpenCL zum Rechnen nutzen.
Die Rechner sind auch über SSH bzw. RDP (gruenau[9-10]) nutzbar. Nutzen Sie dazu bitte eine VPN-Verbindung.
Übersicht über GPU-Rechner
Die folgende Tabelle gibt eine Übersicht über die vorhandenen Rechner mit GPUs und welche GPUs verbaut sind.
Server/PCs | Karte | CUDA | Sonstiges | Slurm gres |
---|---|---|---|---|
gruenau1 |
2x Nvidia Tesla V100 1x Nvidia RTX6000 |
Y (11.8) | OpenCL,TensorFlow | |
gruenau2 | 3x Nvidia RTX6000 | Y (11.8) | OpenCL,TensorFlow | RTX6000 |
gruenau7 | 4 x Nvidia RTX A6000 | Y (11.8) | OpenCL,TensorFlow | |
gruenau8 | 4 x Nvidia RTX A6000 | Y (11.8) | OpenCL,TensorFlow | |
gruenau9 | 3 x Nvidia Tesla A100 | Y (11.8) | OpenCL,TensorFlow | A10080GB |
gruenau10 | 3 x Nvidia Tesla A100 | Y (11.8) | OpenCL,TensorFlow | A10080GB |
PC-Pool (Berlin/Brandenburg) | 1x GeForce GTX 745 | Y (11.8) | OpenCL, TensorFlow | GTX745 |
restliche PC-Pools | 1x Intel Skylake GT2 | N | OpenCL |
Aktuelle Auslastung der GPUs finden sich hier.
Informationen zu den GPUs
Im folgenden finden Sie detailiertere Informationen zu den GPUs, die Ihnen eine gezielte Auswahl der passenden GPU ermöglichen soll.
Karte | RAM (GB) | RAM Bandwidth (GB/s) | GPU Speed (MHz) | CUDA Kerne | Tensor Kerne | Raytracing Kerne | Compute Cap |
---|---|---|---|---|---|---|---|
GeForce GTX 745 | 4GB | 28.8 | 1033 | 384 | / | / | 5.0 |
Nvidia Tesla V100 | 32GB | 897.0 | 1530 | 5120 | 640 | / | 7.0 |
Nvidia Tesla T4 | 16GB | 320.0 | 1515 | 2560 | 320 | 40 | 7.5 |
Nvidia RTX6000 | 24GB | 672.0 | 1770 | 4608 | 576 | 72 | 7.5 |
GeForce RTX 3090 | 24GB | 936.2 | 1695 | 10496 | 328 | 82 | 8.6 |
Nvidia RTX A6000 | 48GB | 768 | 2100 | 10752 | 336 | 84 | 8.6 |
Nvidia Tesla A100 | 80GB | 1600 | 1410 | 6912 | 432 | / | 8.0 |
Bitte nutzen Sie die Tools "clinfo" und "nvidia-smi" um weitere Informationen zu erhalten.
Auswahl-Hilfe
Abhängig vom Workload kann es sinnvoll sein, ein System dem anderen vorzuziehen. Die folgenden Tabellen geben eine Übersicht über den Durchsatz der Grafikkarte basierend auf dem Input.
Vergleich GPUs High-End Systeme:
Karte | FP16 (TFLOPS) |
FP32 (TFLOPs) |
FP64 (TFLOPS) | Deep Learning (TOPs) | Ray Tracing (TFLOPS) |
---|---|---|---|---|---|
Nvidia Tesla V100 | 30.0 | 15.0 | 7.5 | 120 | / |
Nvidia Tesla T4 | 16.2 | 8.1 | 0.25 | 65 | / |
Nvidia RTX6000 | 32.6 | 16.3 | 0.5 |
130 |
34 |
GeForce RTX 3090 | 35.58 | 35.58 | 1.11 | 142 / 284* | 58 |
Nvidia RTX A6000 | 38,7 |
38,7 | 1.21 | 309,7 |
75,6 |
Nvidia Tesla A100 | 77,97 |
19,49 |
9.746 | ? |
/ |
Die Empfehlungen für bestimmte Szenarien sind jeweils in gelb markiert.
Legende:
TFLOPs = Tera Floating Point Operations per Second
TOPs = Tera Operations per Second
INTX = Integer variable with X-bits
FPX = Floating point variable with X-bits
GRays = Giga Rays per second
* = Doppelte Performance, wenn Sparsity-Feature genutzt wird
Vergleich Gesamtsysteme:
Server |
Geekbench5 CPU (Single) |
Geekbench5 CPU (Multi) |
GPUs | Empfohlenes Szenario |
---|---|---|---|---|
gruenau1 | 1078 | 25239 (36/72 Cores) | 2 x RTX6000 | Multi GPU Ray Tracing Deep Learning max. CPU |
gruenau2 | 1078 | 25239 (36/72 Cores) | 2 x RTX6000 | Multi GPU Ray Tracing Deep Learning max. CPU |
gruenau9 | 854 | 14169 (16/32 Cores) | 3 x T4 | FP64 Computation max. RAM |
gruenau10 | 1078 | 25239 (36/72 Cores) | 2 x V100 |
FP64 Computation |
PC-Pool (Berlin/Brandenburg) | 1109 | 4308 (4C/8T) | GeForce GTX 745 | / |
gruenau[5-8] | 695 | 27451 (60C/120T) | / | / |
Für weitere Infos zu den Spezifikationen der Compute-Servern auf den jeweiligen Namen in der Tabelle klicken.
allgemeiner Hinweis:
Da alle Ressourcen unter den Nutzern geteilt werden, kann es auch sinnvoll sein, ein System zu nutzen, welches nicht die optimale Performance für ein Experiment bereitstellt.
Zur besseren Verteilung der Ressourcen ist die Verwendung von SLURM empfohlen.
Links
[3] https://docs.nvidia.com/cuda/ampere-tuning-guide/index.html