Zurück zu resources
Vorherige
|
Nächste

Beschleunigung des „ML-Arbeitspferds“: Empfehlungsinferenz

Aktualisiert am 31. Januar 2021

Die Inferenz für Empfehlungsdienste ist vielleicht der weltweit am weitesten verbreitete Workload für maschinelles Lernen (ML). Hier zeigen wir, dass sich mit dem SambaNova DataScale-System Empfehlungsinferenzen gegenüber der führenden GPU um mehr als das 20-Fache beschleunigen lassen (gemessen anhand eines branchenüblichen Benchmark-Modells). Behalten Sie unsere Software in diesem Bereich im Auge, denn wir entwickeln sie rasant weiter und erzielen kontinuierlich weitere Verbesserungen.

Die Auswirkungen sind sowohl aus technologischer Sicht als auch aus der geschäftlichen Perspektive enorm. Laut Facebook entfallen 79 % der KI-Inferenzzyklen in seinen Produktionsrechenzentren auf Empfehlungen (Quelle). Diese Engines sind primäre Antreiber der Nutzerbindung und unterstützen die Gewinngenerierung zahlreicher anderer Fortune-100-Unternehmen. So basieren etwa 35 % der Käufe bei Amazon und 75 % der angeschauten Netflix-Sendungen auf Empfehlungen (Quelle).

Zur Messung der Performance des SambaNova DataScale-Systems verwenden wir das Empfehlungsmodell aus dem Benchmark MLPerf, dem maßgebenden Benchmark für ML-Forscher und -Anwender. Für die Messung der Empfehlungsleistung verwendet das DLRM-Modell das Terabyte Clickthrough Dataset. Da Nvidia keine Zahlen für A100 angegeben hat, messen wir eine für Nvidia optimierte Version dieses Modells (Quelle). Sie wird auf einem einzigen A100 ausgeführt, der der mit einem Triton Server (Version 20.06) mit FP16-Präzision ausgerüstet ist. Wir führen diesen Prozess mit verschiedenen Batchgrößen aus, da dies ein realistisches implementierte Inferenzszenario simuliert. Als V100-Zahlen verwenden wir die von Nvidia berichteten Performanceergebnisse für FP16 (Quelle).

In Bereitstellungsszenarien sind häufig geringe Batchgrößen erforderlich, da Abfragen in Echtzeit gestreamt werden und die Latenz entscheidend ist. Bei diesen niedrigen Batchgrößen tritt der Vorteil der Datenflussarchitektur deutlich hervor. Bei einer Batchgröße von 1 bietet das SambaNova DataScale-System eine 20 Mal schnellere Leistung als ein einzelner A100.

Während in bereitgestellten Systemen bei einer Batchgröße von 1 Online-Inferenz ein häufiges Anwendungsbeispiel ist, möchten Kunden oft auch einen Teil ihrer Daten in Batchverarbeitung erfassen, um den Gesamtdurchsatz des Systems zu verbessern. Um die Vorteile des SambaNova DatasScale-Systems zu demonstrieren, zeigen wir den gleichen DLRM-Benchmark auch bei einer Batchgröße von 4K. Bei dieser höheren Batchgröße erreicht DataScale für Durchsatz und Latenz mehr als doppelt so gute Performanzwerte wie ein A100.

Die kombinierte Lösung: Schulung und Inferenz zusammen

Viele dieser Messungen sind auf den Inferenz-Task von MLPerf ausgerichtet. Doch das DataScale-System bietet sowohl bei Inferenz als auch bei Schulung hervorragende Ergebnisse. Durch die Neuschulung desselben DLRM-Modells von Grund auf und die Untersuchung von Variationen, die auf GPU-Hardware nicht möglich sind, übertrifft die RDU problemlos die Leistung hochmoderner Systeme.

Über den Benchmark hinaus: Empfehlungsmodelle in der Produktion

Der MLPerf-DLRM-Benchmark simuliert eine realistische Empfehlungsaufgabe, kann jedoch den Umfang einer in der Realität bereitgestellten Workload nicht erfassen. In einer Analyse dieser Empfehlungsdienste schreibt Facebook, dass „Empfehlungsmodelle im Vergleich zu Benchmarks in der Produktion mehr Einbettungen aufweisen“ (Quelle). Mit dem Wachstum dieser Modelle werden CPUs und GPUs zunehmend ins Stocken geraten. Das DataScale-System hat hingegen kein Problem damit, diese größeren Rechen- und Speicheranforderungen zu erfüllen, und bietet zudem eine langfristige Lösung, die auf Skalierbarkeit ausgelegt ist.

Image of Marshall Choy
Marshall Choy

Marshall ist Vice President of Product bei SambaNova Systems und verantwortlich für Produktmanagement und Markteinführung.

Zurück zu resources
Vorherige
|
Nächste