Suchen

NVIDIA DGX A100 DFKI installiert neuartiges KI-System für Machine Learning

| Autor / Redakteur: Christian Heyer* / Vivien Deffner

Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) und dessen Machine-Learning-Rechenzentrum bekommen Zuwachs: der erste NVIDIA DGX A100, ein neuer Hochleistungsrechner für KI-Algorithmen, wurde Ende Juli in Betrieb genommen. Vier weitere der Rechner sollen folgen.

Firmen zum Thema

Das hocheffiziente Rechenzentrum für Machine Learning des DFKI wurde um eine erste NVIDIA DGX A100 erweitert. Vier weitere folgen in den nächsten Monaten.
Das hocheffiziente Rechenzentrum für Machine Learning des DFKI wurde um eine erste NVIDIA DGX A100 erweitert. Vier weitere folgen in den nächsten Monaten.
(Bild: DFKI)

Nach dem Karlsruher Institut für Technologie (KIT) setzt nun auch das DFKI auf die Leistung des Hochleistungsrechners NVIDIA DGX A100. Mit den insgesamt fünf geplanten Hochleistungsrechnern möchte das DFKI dann zu einem führenden Anbieter für Machine Learning mit den neuen DGX A100-Systemen werden.

Rechenleistung mehr als verdoppelt

Die Rechenleistung des Machine-Learning-Clusters des DFKI wird damit mehr als verdoppelt, von derzeit etwa 20 PetaFLOPS auf 45 PetaFLOPS. Die dritte Generation des NVIDIA DGX-Systems bietet mit jeweils acht der weltweit fortschrittlichsten NVIDIA A100 Tensor Core Rechenbeschleunigern 5 PetaFLOPS an Leistung. Ein PetaFLOP entspricht 1 Billiarde Rechenoperationen pro Sekunde.

Zum Vergleich: Würde man jedem Menschen auf der Welt einen Taschenrechner geben und jeder würde damit innerhalb einer Sekunde 125.000 Berechnungen durchführen, entspräche die Rechenleistung etwa einem PetaFLOP.

Gleichzeitig wird der Energieverbrauch des hocheffizienten Rechenzentrums weiter optimiert. Während vorhergehende Systeme etwa 5 Kilowatt pro PetaFLOP verbrauchen, sind es bei dem DGX A100 nur noch ca. 1,2.

Für die KI-Infrastruktur des DFKI kommt das NVIDIA Mellanox-InfiniBand-Netzwerk zum Einsatz, um die DGX-Systeme mit einer ultraschnellen Fabric mit niedriger Latenz zu verbinden. Dadurch wird ein Multisystem-KI-Training ermöglicht, was so die schnellste Zeit zur Lösung von Rechenproblemen bietet.

Das DFKI setzt die neuen Systeme als einer der weltweit ersten Anwender ein. Damit wird die KI-Forschung zu lernenden Systemen und deren Erklärbarkeit weiter beschleunigt und komplexe KI-Algorithmen werden für den praktischen Einsatz in der Industrie verfügbar gemacht.

Hochleistungsfähiges Rechensystem für KI

„Hochleistungsfähige Hardware ist eine zentrale Grundlage für datenreiche und rechenintensive KI-Methoden“, so Prof. Andreas Dengel, geschäftsführender Direktor und Leiter des Forschungsbereichs Smarte Daten und Wissensdienste in Kaiserslautern. „Durch die immense Zunahme der Datenmengen in den verschiedensten Anwendungsfeldern verlangen viele unserer Projektfragestellungen und auch der Markt nach der optimalen Kombination von hochleistungsfähigen KI-Rechensystemen und ausgeklügelten Algorithmen.“

Neben der Einbindung des DGX A100 wird das DFKI optimierte Container für Deep Learning-Frameworks wie TensorFlow und PyTorch einsetzen. Diese sind über NGC, NVIDIAs Hub für GPU-optimierte Software für Deep Learning, maschinelles Lernen und Hochleistungsrechnen, leicht zugänglich und werden von den Forschenden des DFKI im Verlauf erweitert.

Auf Basis von NVIDIA KI-Plattformen erzielten die DFKI-Forschenden in den letzten Jahren bemerkenswerte Ergebnisse in der Anwendung, der Erklärbarkeit und zur Optimierung von Neuronalen Netzen und Deep-Learning-Methoden.

* Christian Heyer arbeitet am Deutschen Forschungszentrum für Künstliche Intelligenz in Kaiserslautern.

(ID:46746724)