Überflieger dank höchster Genauigkeit in Empfehlungsmodellen
Empfehlungsdienste und sind ein fester Bestandteil vieler gängiger und weit verbreiteter Internetdienste. Sie werden im Einzelhandel und in E-Commerce-Anwendungen zum Cross-Selling und Up-Selling von Produkten und Dienstleistungen verwendet. Online-Verbraucherdienste für Mitfahrservices, Peer-Reviews und Banking-Services sind stark auf Empfehlungsmodelle angewiesen, um schnelle und effiziente Kundenerlebnisse zu bieten. Beispiele für Empfehlungssysteme aus dem Alltag, die Benutzern Tipps zu sozialen Medien, Nachrichtenseiten usw. bieten, sind reichlich vorhanden. Dies liegt daran, dass für die Fähigkeit eines Unternehmens, umfangreichere, aussagekräftigere Empfehlungen zu liefern, weitaus mehr Attribute in ein Empfehlungssystem integriert werden müssen als nur die Browser- oder Kaufhistorie eines Benutzers. Das scheint einfach und intuitiv zu sein. Reale Implementierungen mit Legacy-Technologiekomponenten können jedoch die Bemühungen zur Erzielung hochmoderner Genauigkeit zunichte machen.
Empfehlungsaufgaben stellen große Anforderungen an Speicher und Prozessor.
Das Rückgrat, das Empfehlungsmodellen die Codierung solch riesiger Datenmengen ermöglicht, ist die sogenannte Einbettung. Einbettungstabellen sind große numerische Tabellen, die in den Daten Codierungen aller Merkmale enthalten – jeder Benutzer, jedes Produkt, jede Region usw. Es ist allgemein bekannt, dass größere Einbettungstabellen eine bessere Modellqualität ermöglichen, da sie aussagekräftiger und genauer sind. Um sämtliche Informationen in ihren Daten vollständig zu erfassen, nutzen Branchenpartner von SambaNova Einbettungen, die Hunderte von Gigabyte – oft sogar Terabyte – groß sind!
Diese Einbettungen sind an tiefe neuronale Netze angeschlossen, die eine Vielzahl von Berechnungen durchführen, um das endgültige Empfehlungsergebnis zu generieren.
Der Benchmark
In einer Demonstration haben wir mit dem SambaNova DataScale-System, mit einem vollständig integrierten Software- und Hardwaresystem, anhand des Criteo Terabyte Clicklogs Dataset das Deep Learning Recommendation Model (DLRM) trainiert. Dabei handelt es sich um den Standard-Benchmark MLPerf für Empfehlungen, bei dem die AUC die Performanzmetrik für ein Testset ist.
HINWEIS: Mit seinen rund 1 TB an Daten und Einbettungsmerkmalen im Umfang von ungefähr 100 GB stellt das Dataset noch keinen wirklich großen Produktions-Workload dar. In der Produktion bereitgestellte Systeme sind sowohl hinsichtlich der Daten als auch der Einbettungsgrößen mindestens 5-mal so anspruchsvoll. Aber Sie können ganz beruhigt sein: Die SambaNova Systems Reconfigurable Dataflow Unit (RDU) und das SambaNova DataScale-System sind skalierbar und gut ausgestattet, um auch diese gigantischen Anwendungsfälle zu bewältigen.
Entfesseln Sie die Macht der Einbettung
Bekanntermaßen verbessert eine Erhöhung der Einbettungsdimensionen die Genauigkeit des Empfehlungsmodells auf Kosten der Modellgröße. In vielen aktuellen Studien wurde versucht, das Modell zu splitten oder die Einbettungsdimensionen zu reduzieren, um den GPU-Speicher nicht zu überlasten. Die Forscher von SambaNova Systems haben hingegen durch vertikales Engineering mit unserem integrierten Software- und Hardware-Stack überlegene Methoden zur Lösung dieses Problems entwickelt. Das lässt sich daran erkennen, dass wir durch eine deutliche Steigerung der Einbettungsdimensionalität die Genauigkeit hochmoderner Technologie im DLRM-Modell klar übertreffen. Eine Ablationsstudie, bei der alles andere konstant gehalten wird, ergibt, dass die Genauigkeit des Modells mit Einbettungsdimensionen stark zunimmt, wenn es mit einer einzigen RDU von SambaNova Systems trainiert wird. Gleichzeitig führen Versuche der Ausführung des Modells bei einer einzigen GPU zu einem katastrophalen Ausfall.
Abb. 1: Auswirkungen von Einbettungsdimensionen auf einzelne RDU und einzelne GPU
Untersuchen neuer Batchgrößen und Aufbrechen der GPU-Passform
Beliebte Trainingstechniken konzentrieren sich stark auf die Erhöhung der Mini-Batchgröße, um die GPU-Berechnung auszureizen. Beispielsweise werden für die Demo-DLRM-Implementierung von Nvidia Batchgrößen von 32768 und höher verwendet.
Aus statistischer Sicht ist dies nicht immer die beste Entscheidung. Wie Studien zeigen, kann eine Reduzierung der Batchgröße tatsächlich deutliche Vorteile haben. Sie trägt zur Vermeidung ausgeprägter Minima bei und sorgt so für eine effektivere Generalisierung. Beim Training von DLRM mit der RDU von SambaNova Systems beobachteten wir bei einer Verringerung der Batchgröße deutliche Verbesserungen der Validierungsleistung.
Abb. 2: Höhere RDU-Performance bei reduzierter Batchgröße
In der Praxis entscheiden sich ML-Forscher und -Techniker für diese riesigen, suboptimalen Batchgrößen, da sie aufgrund ihrer aktuellen Infrastruktur alternativlos sind. Die kernel-orientierte Ausführung der GPU leidet erheblich, wenn die Batchgröße abnimmt. Mit der Datenflussarchitektur und dem intelligenten Software-Stack der SambaNova Systems-RDU sind die Systemressourcen hingegen voll ausgelastet, und ein hoher Durchsatz lässt sich unabhängig von der Batchgröße erzielen.
Abb. 3: Zu vernachlässigender Rückgang des Durchsatzes der RDU im Vergleich zur GPU bei kleinerer Batchgröße
Eine neuartige Spitzentechnologie
Durch die Kombination der erwähnten Ergebnisse können wir mit der RDU von SambaNova Systems eine neue DLRM-Variante trainieren, mit der sich im Terabyte Dataset von Criteo eine Validierungs-AUC von 0,8046 erzielen lässt. Im Vergleich dazu liegt die beste von NVIDIA in ihrer MLPerf-Submission berichtete AUC bei 0,8027. Dieses einzigartige Modell mit hoher Einbettung und kleinem Batch ließe sich mit einer GPU erst gar nicht ausführen. Mit einer CPU wäre die Ausführung äußerst unpraktisch.
Abb. 4: RDU übertrifft MLPerf- und GPU-Schwellenwerte beim Training einer neuen DLRM-Variante
Zusätzlich zu einem deutlich höheren AUC-Spitzenwert konvergiert das neue und verbesserte DLRM viel schneller.
Leistungsfähige nächste Generation von Empfehlungsmodellen
Die robuste und dennoch leistungsstarke RDU-Technologie von SambaNova Systems unterstützt die nächste Generation von Empfehlungsmodellen und ermöglicht es ML-Technikern, eine völlig neue Welt von Modellen zu erkunden. Auf diese Weise können sie Ergebnisse erzielen, die den aktuellen Stand der Technik übertreffen. Bei Anwendung auf geschäftskritischen Empfehlungsmodelle führt dies zu erheblichen Verbesserungen der Geschäftsergebnisse und zu enormen Umsatzsteigerungen. Mit den Worten von Tencent: „Der Grund, warum wir uns um noch so kleine AUC-Anstiege kümmern, ist, dass selbst eine Steigerung der AUC um 0,1 % in mehreren realen Anwendungen, die wir intern ausführen, bei der Übertragung auf die endgültige CTR zu einer 5-fachen Verstärkung (Anstieg um 0,5 %) führt.“