Blog

最新の機械学習を高速化

作成者: SambaNova Systems|2022年05月27日
2021年1月31日更新

レコメンダーシステムの推論は、おそらく世界で最も普及している機械学習ワークロードの1つです。 ここでは、SambaNovaDataScale システムを使用して、業界標準のベンチマークモデルで主要なGPUよりも20倍以上高速に推奨推論を実行できることを示します。 私たちのソフトウェアは継続的な改善を提供するために急速に進化しているので、この分野で私たちを監視し続けてください。 必ず最新情報をお届けします。

この影響は、テクノロジーとビジネスの両方の観点から大きなものです。 Facebookによると、本番データセンターのAI推論サイクルの79%は、推奨に専念しています(ソース)。 これらのエンジンは、他の多くのFortune 100企業のユーザーエンゲージメントと利益の主要な推進力として機能し、Amazonでの購入の35%と視聴されたNetflixの番組の75%が推奨事項に基づいています(出典)。

記録的な推奨速度

SambaNova DataScaleシステムのパフォーマンスを測定するために、機械学習の研究者や実践者向けの信頼できるベンチマークであるMLPerfベンチマークの推奨モデルを使用します。 推奨パフォーマンスを測定するための彼らのタスクは、テラバイトクリックスルーデータセットのDLRMモデルを使用します。 NvidiaはA100番号を報告していないため、FP16精度のTritonサーバー(バージョン20.06)を使用して展開された単一のA100で実行されているこのモデル(ソース)のNvidia最適化バージョンを測定します。 これは、現実的な展開された推論シナリオをシミュレートするため、さまざまなバッチサイズで実行します。 V100番号については、Nvidia(ソース)から報告されたFP16パフォーマンス結果を使用します。

クエリはリアルタイムでストリーミングされ、レイテンシーが重要であるため、デプロイシナリオではバッチサイズを小さくする必要があります。 これらの低いバッチサイズでは、データフローアーキテクチャの利点は明らかであり、SambaNova DataScaleシステムは、バッチサイズ1の単一のA100よりも20倍高速なパフォーマンスを発揮します。

バッチサイズ1でのオンライン推論は、展開されたシステムの一般的なユースケースですが、顧客は、システムの全体的なスループットを向上させるために、データの一部をバッチ処理したいと考えることもよくあります。 SambaNova DatasScaleシステムの利点を示すために、4kのバッチサイズで同じDLRMベンチマークも示しています。 この高いバッチサイズでは、DataScaleはスループットと遅延の両方でA100よりも2倍以上高速なパフォーマンスを実現します。

組み合わせたソリューション:トレーニングと推論を一緒に
これらの測定の多くはMLPerfの推論タスクを対象としていますが、DataScaleシステムは推論とトレーニングの両方に優れています。 同じDLRMモデルを最初から再トレーニングし、GPUハードウェアではまったく不可能なバリエーションを調査することで、RDUは最先端を簡単に上回ります。 詳細については、この記事をご覧ください。

ベンチマークを超えて:本番環境での推奨モデル
MLPerf DLRMベンチマークは、現実的な推奨タスクをシミュレートしますが、実際に展開されたワークロードの規模をキャプチャすることはできません。 これらのレコメンデーションシステムの分析で、Facebookは、ベンチマークと比較して「本番規模のレコメンデーションモデルには桁違いに多くの埋め込みがある」と書いています(出典)。 これらのモデルが成長するにつれて、CPUとGPUは衰退し始めます。 それでも、DataScaleシステムは、これらのより大きなコンピューティングとメモリの要件を問題なく処理でき、スケーリングに合わせて構築された長期的なソリューションであり続けます。