Zurück zu resources
Vorherige
|
Nächste

Bahnbrechende Effizienz in der Bereitstellung von NLP-Modellen

Moderne industrielle NLP-Modelle folgen während ihrer gesamten Lebensdauer einer bestimmten Kadenz. Sie beginnen mit einer einmaligen, aufgabenunabhängigen Vorschulung und durchlaufen dann eine aufgabenspezifische Schulung mit sich schnellen ändernden Benutzerdaten. Diese regelmäßig aktualisierten Modelle werden schließlich bereitgestellt, um massive Online-Inferenzanforderungen von Anwendungen zu bedienen.

Ein aktueller Forschungstrend ist der Einsatz modernster NLP-Modelle wie BERT für die Online-Inferenz. Da die Modelle von Jahr zu Jahr größer werden, wird immer häufiger darüber diskutiert, wie diese Modelle in Echtzeit-Pipelines implementiert werden können. Damit in der Praxis eine Implementierung möglichen ist, wurden verschiedene Techniken entwickelt, um große Modelle auf kompakte Varianten zu reduzieren. In Anwendungen wie digitalen Assistenten und Suchmaschinen sind diese kompakten Modelle der Schlüssel, um Modelle mit geringer Latenz und hoher Genauigkeit zu erzielen, damit sie den Service-Level-Anforderungen gerecht werden.

SambaNova Systems bietet eine Lösung zur Untersuchung und Bereitstellung dieser kompakten Modelle – von einer einzelnen SambaNova Systems Reconfigurable Dataflow Unit (RDU) hochskaliert bis zu mehreren SambaNova DataScale-Systemen. Gegenüber herkömmlichen Beschleunigern ergeben sich dadurch beispiellose Vorteile für eine hochpräzise Online-Inferenz mit geringer Latenz.

Bewährte Leistungsstärke der Datenflussausführung auf RDU
Die Latenz von kompakten Modellen auf der GPU wird durch den kernel-basierten Ausführungsmodus grundsätzlich begrenzt. Für Online-Inferenz mit Batchgröße 1 kann der Overhead von Kontextwechsel und Zugriff auf Off-Chip-Speicher für Betriebs-Kernels in der herkömmlichen Architektur die Latenz dominieren. Die SambaNova-RDU baut auf der SambaNova Systems Reconfigurable Dataflow Architecture (RDA) auf, um diese Barriere zu beseitigen. Besonders bei einem kürzlich vorgeschlagenen kompakten BERT-Modell, TinyBERT, kann die RDU mit V100 GPU for MNLI, einem beliebten Textklassifizierungs-Task, um 5,8-mal höhere Latenzzeiten erreichen.

Höhere Genauigkeit mit SambaNova Systems DataScale
Unser auf Datenflüsse ausgelegter Chip bietet bei kompakten Modellen eine beispiellose Leistung für Online-Inferenz mit geringer Latenz. Unter Ausnutzung dieser Funktionen des Datenfluss-Chips haben unsere Forschungslabore außerdem gezeigt, dass sich mit SambaNova DataScale-Komplettsystemen (8 Sockets) eine hohe Genauigkeit nach dem aktuellen Stand der Technik erzielen lässt. Bei kompakten NLP-Modellen wird so gleichzeitig eine Inferenz mit geringer Latenz möglich.

Die Studie des Forschungslabors von SambaNova Systems zeigt, dass sich mit einer Mehrheitswahl (Majority-Voting-Prinzip) über mehrere Modellinstanzen die Genauigkeit von TinyBERT erheblich steigern lässt (Abb. 4). Das SambaNova DataScale-System ist explizit für die effiziente Nutzung dieser Steigerungen der Genauigkeit konzipiert worden. Wir demonstrieren, dass wir mehrere TinyBERT-Modelle auf allen acht Sockets des SambaNova DataScale-Systems bereitstellen können. Wie Abb. 5 zeigt, steigt beim Ensembling von TinyBERT-Modellen die Klassifizierungsgenauigkeit um 0,4 % (gegenüber zu vernachlässigenden Latenzeinbußen) im Vergleich zu einem einzigen TinyBERT-Modell mit einer RDU.

Das kompakte BERT-Modell ist nur ein wichtiger Fall, bei dem unsere SambaNova Systems DataScale eine maßgeschneiderte Lösung für hochgenaue Online-Inferenz mit geringer Latenz bietet.

Image of Marshall Choy
Marshall Choy

Marshall ist Vice President of Product bei SambaNova Systems und verantwortlich für Produktmanagement und Markteinführung.

Zurück zu resources
Vorherige
|
Nächste