Zurück zu resources
Vorherige
|
Nächste

Neue Funktionen führen zu Durchbruch bei der Qualität von Modellen

Partnerschaft mit Argonne National Laboratory

Mit den Funktionen des DataScale-Systems von SambaNova haben Forscher des Argonne National Laboratory des US-Energieministeriums und SambaNova gemeinsam ein bedeutendes Problem der Bildsegmentierung in der Neutrino Physik beseitigt. Die Anwendung wurde durch die Genauigkeit der Ausführung auf ein neues, nie dagewesenes Niveau gehoben (siehe Bild unten).

Das DataScale-System von SambaNova wurde kürzlich als Teil des KI-Testbed der Argonne Leadership Computing Facility (ALCF) eingesetzt. Dabei handelt es sich um eine Infrastruktur von KI-Beschleunigern der nächsten Generation, mit deren Hilfe die Nutzbarkeit und Performance von High-Performance-Anwendungen bewertet werden soll, die auf maschinellem Lernen basieren. Zuvor schulten Forscher von Argonne ihr Modell auf GPU-basierten Plattformen (Graphics Processing Unit). Dabei waren sie durch die Bildgröße, mit der sich diese Plattformen trainieren ließen, erheblich eingeschränkt. Im Unterschied dazu ermöglicht die rekonfigurierbare Datenflussarchitektur des DataScale-Systems von SambaNova nahtlos neue Funktionen zum Schulen mit enormen Bildgrößen. In Zusammenarbeit mit Argonne nutzen wir diese Funktion, um die Modellqualität bei vielen wichtigen und schwierigen Bildverarbeitungsproblemen zu verbessern.

In diesem Blogbeitrag erfahren Sie, wie Argonne mit dem DataScale-System von SambaNova in die Lage versetzt wurde, die Modellqualität für die Aufgabe des markieren kosmischer Pixel zu verbessern. Bei dem Beitrag handelt es sich um eine Fallstudie, in der ein bestimmtes Bildverarbeitungsproblem (Neutrino Physik) beschrieben wird. Die von uns verwendeten Techniken lassen sich jedoch auf jedes Convolutional Neural Network (CNN) unter einem SambaNova DataScale-System übertragen. Da hochauflösende Kameras und Datensätze immer häufiger verwendet werden, ist es von entscheidender Bedeutung, die Hindernisse bei der hochauflösenden Bildverarbeitung in alten Anwendungsversionen zu überwinden.

MODERNER ALS HOCHMODERN – KOSMISCHE Markierung

In „Cosmic Background Removal with Deep Neural Networks in SBND“ wird in eine modifizierte UResNet-Architektur eingeführt, die für die Entfernung von kosmischen Hintergründen aus LArTPC-Bildern (Liquid Argon Time Projection Chamber) optimiert ist. Es handelt sich um eine klassische Bildsegmentierungsaufgabe zur Klassifizierung aller Eingabepixel in eine von drei Klassen – kosmisch, Muon oder Hintergrund. Die ursprünglichen Eingabebilder sind 1280 Pixel hoch und 2048 Pixel breit, mit 3 Kanälen. Da die zu segmentierten Bilder so groß sind, wird der Speicher auf der GPU (V100) auch bei der Verarbeitung schon eines einzelnen Stapels voll.

Um dieses Problem beim Trainieren mit GPUs zu lösen, hatten die Autoren ihre Eingabebilder zuvor auf eine Auflösung von 50 % reduziert und das Modell mit Eingaben geschult, die 3x640x1024 Pixel enthalten. Dies führt jedoch zu einem Datenverlust, der für dieses Problem und in vielen anderen sensiblen Bereichen wie medizinischer Bildgebung und Astronomie kritisch ist (siehe Abbildung über Genauigkeitsabfall).

Im Unterschied dazu werden diese Probleme in der rekonfigurierbaren Datenflussarchitektur des DataScale-Systems von SambaNova überwunden. Das Team von Argonne und SambaNova ist in der Lage, CNNs mit Bildern ab einer Auflösung von 50k x 50k nahtlos zu trainieren. Wir verwenden das gleiche Modell, die gleiche Konfiguration und die gleichen Hyperparameter, können aber Bilder mit ihrer Originalgröße ohne Downsampling verwenden. Zum Vergleich der Leistung verschiedener Modelle verwenden wir als Bewertungsmetrik die Mean Intersection over Union (MIoU) nur von Nicht-Hintergrundpixeln.. Ausgehend von den unten dargestellten Ergebnissen übertrifft der Einsatz größerer Bilder das bestehende, hochmoderne Modell in Bezug auf die MIoU deutlich um fast 6%.

Obwohl das Modell auf der RDU (Reconfigurable Dataflow Unit) von DataScale mit einer geringeren Präzision (bfloat16) im Vergleich zu FP32 der GPU trainiert wird, können wir eine stabile Konvergenz gewährleisten und bessere Ergebnisse erzielen. Bestimmte Verlustfunktionen wie der fokale Verlust sind geringer, wenn eine geringere Batchgröße pro Replikat verwendet wird. Während GPUs (A100) nur ein Bild pro Replikat in voller Bildgröße einpassen können, sind Sie mit RDUs in der Lage, bis zu 32 Samples pro Replikat zu trainieren und die Genauigkeit weiter zu verbessern.

SCHLUSSFOLGERUNG

Dank des technologischen Fortschritts haben wir nun Zugriff auf Datensätze mit Bildern, die Milliarden von Pixeln enthalten. Bei der Verwendung von Deep Learning und Computer Vision zur Verarbeitung und Nutzung dieses umfangreichen Datenvolumens bringt dies neue Herausforderungen mit sich. Mit minimalen Änderungen am Originalcode bietet das DataScale-System von SambaNova eine Möglichkeit, Deep-CNN-Modelle mit Gigapixel-Bildern effizient zu trainieren. Andere Aufgaben der Computer Vision, wie Klassifizierung und Bild-Superpixel-Auflösung würden von der Fähigkeit, Modelle ohne Informationsverluste zu trainieren, erheblich profitieren. Diese Arbeit ist nur ein kleiner Vorgeschmack auf das, was mit hochauflösendem Bildtraining möglich ist.

DANKSAGUNG:

Für diese Untersuchung wurden Ressourcen der Argonne Leadership Computing Facility genutzt, die mit dem Vertrag DE-AC02-06CH11357 vom Amt für wissenschaftliche Benutzeranlagen des US-Energieministeriums unterstützt wird.

Image of Marshall Choy
Marshall Choy

Marshall ist Vice President of Product bei SambaNova Systems und verantwortlich für Produktmanagement und Markteinführung.

Zurück zu resources
Vorherige
|
Nächste