NLPモデルの展開における画期的な効率
ライフサイクル全体を通じて、最新の産業用NLPモデルはリズムに従います。 それらは、1回限りのタスクにとらわれない事前トレーニングから始まり、その後、急速に変化するユーザーデータに関するタスク固有のトレーニングを経ます。 これらの定期的に更新されるモデルは、最終的には、アプリケーションからの大規模なオンライン推論要求を処理するために展開されます。
現在活発な研究の傾向は、オンライン推論のためにBERTのような最先端のNLPモデルを展開することです。 モデルが毎年大きくなるにつれて、これらのモデルをリアルタイムパイプラインに展開する方法についての議論が高まっています。 実用的な展開を可能にするために、大きなモデルをコンパクトなバリアントにまで蒸留するためのさまざまな手法が開発されてきました。 デジタルアシスタントや検索エンジンなどのアプリケーションでは、これらのコンパクトなモデルは、サービスレベルの要件を満たす低遅延で高精度のモデルを実現するための鍵となります。
SambaNova Systemsは、単一のSambaNova Systems Reconfigurable Dataflow Unit(RDU)スケールから複数のSambaNova DataScaleシステムスケールまで、これらのコンパクトなモデルを探索および展開するためのソリューションを提供し、低遅延、高精度のオンライン推論のために従来のアクセラレーターに比べて前例のない利点を提供します。
RDUでのデータフロー実行の実証済みの能力
GPUでのコンパクトモデルのレイテンシーは、カーネルベースの実行モードによって基本的に制限されます。 バッチサイズ1のオンライン推論の場合、コンテキストスイッチングのオーバーヘッドと、オペレーションカーネルのオフチップウェイトメモリアクセスが、従来のアーキテクチャのレイテンシを支配する可能性があります。 SambaNova RDUは、SambaNova Systems Reconfigurable Dataflow Architecture(RDA)に基づいて構築されており、この障壁を取り除きます。 具体的には、最近提案されたコンパクトなBERTモデルであるTinyBERTで、RDUは、一般的なテキスト分類タスクであるMNLIのV100GPUよりも5.8倍のレイテンシースピードアップを達成できます。
図1:オンライン推論のレイテンシーの比較
デジタルアシスタントや検索エンジンなどのアプリケーションでは、入力データはシーケンス長が短い自然言語トークンです。たとえば、「サンフランシスコの天気は?」などのスマートフォンアシスタントクエリです。 これらのタイプのシナリオでは、シーケンス長の短縮は通常、コンパクトモデルによって達成される精度にほとんど影響を与えません。 これは、RDUの遅延の利点と深く結びついているもう1つの特性です。 コンパクトモデルの場合、GPUのレイテンシはシーケンス長が短くなると飽和しますが、RDUのレイテンシはシーケンス長が短くなると向上します。
図2に示すように、TinyBERTモデルは、プロキシとして使用するMNLIベンチマークタスクで、64〜256のシーケンス長にわたって最先端のモデル精度と一致させることができます。 図3では、GPUがシーケンスの長さ全体で同じレイテンシーを示していることがわかります。 ただし、GPUを介したRDUの高速化は、シーケンス長を64に短縮すると、 8.7倍に向上します。
図2:シーケンス長が異なる場合のRDUおよびGPUモデルの精度
図3:さまざまなシーケンス長でのRDUとGPUのレイテンシーの棒グラフ
SambaNovaSystemsDataScaleによる精度の向上
当社のデータフロー最適化チップは、コンパクトモデルの低遅延オンライン推論の前例のない機能を示しています。 データフローチップのこれらの機能を利用して、私たちの研究所は、完全なSambaNova DataScaleシステム(8ソケット)を使用して、コンパクトなNLPモデルで低遅延の推論を実行しながら最先端の精度を達成できることも示しました。
SambaNova Systems研究所の調査によると、複数のモデルインスタンスにわたる多数決により、TinyBERTによって達成される精度が大幅に向上する可能性があります(図4)。 SambaNova DataScaleシステムは、これらの精度の向上を効率的に活用するように完全に設計されています。 SambaNovaDataScaleシステムの8つのソケットすべてに複数のTinyBERTモデルをデプロイできることを示します。 図5に示すように、TinyBERTモデルをアンサンブルすると、RDU上の単一のTinyBERTモデルと比較して、レイテンシーのコストを無視できる程度で、分類精度が0.4%向上します。
図4。 アンサンブルの専門家の数が異なる場合のモデルの精度
図5。 1つのRDUでの単一のTinyBertと8ソケットシステムでの8人のエキスパートのレイテンシーの比較
コンパクトなBERTモデルは、SambaNovaSystemsDataScaleが低遅延で高精度のオンライン推論に合わせたソリューションを提供する重要なケースの1つにすぎません。
現代の機械学習の主力製品の加速:推奨推論
2021年1月31日更新
レコメンダーシステムの推論は、おそらく世界で最も普及している機械学習ワークロードの1つです。 ここでは、SambaNovaDataScale ™システムを使用して、業界標準のベンチマークモデルで主要なGPUよりも20倍以上高速に推奨推論を実行できることを示します。 私たちのソフトウェアは継続的な改善を提供するために急速に進化しているので、この分野で私たちを監視し続けてください。 必ず最新情報をお届けします。
この影響は、テクノロジーとビジネスの両方の観点から大きなものです。 Facebookによると、本番データセンターのAI推論サイクルの79%は、推奨に専念しています(ソース)。 これらのエンジンは、他の多くのFortune 100企業のユーザーエンゲージメントと利益の主要な推進力として機能し、Amazonでの購入の35%と視聴されたNetflixの番組の75%が推奨事項に基づいています(出典)。
記録的な推奨速度
SambaNova DataScaleシステムのパフォーマンスを測定するために、機械学習の研究者や実践者向けの信頼できるベンチマークであるMLPerfベンチマークの推奨モデルを使用します。 推奨パフォーマンスを測定するための彼らのタスクは、テラバイトクリックスルーデータセットのDLRMモデルを使用します。 NvidiaはA100番号を報告していないため、FP16精度のTritonサーバー(バージョン20.06)を使用して展開された単一のA100で実行されているこのモデル(ソース)のNvidia最適化バージョンを測定します。 これは、現実的な展開された推論シナリオをシミュレートするため、さまざまなバッチサイズで実行します。 V100番号については、Nvidia(ソース)から報告されたFP16パフォーマンス結果を使用します。
クエリはリアルタイムでストリーミングされ、レイテンシーが重要であるため、デプロイシナリオではバッチサイズを小さくする必要があります。 これらの低いバッチサイズでは、データフローアーキテクチャの利点は明らかであり、SambaNova DataScaleシステムは、バッチサイズ1の単一のA100よりも20倍高速なパフォーマンスを発揮します。
バッチサイズ1でのオンライン推論は、展開されたシステムの一般的なユースケースですが、顧客は、システムの全体的なスループットを向上させるために、データの一部をバッチ処理したいと考えることもよくあります。 SambaNova DatasScaleシステムの利点を示すために、4kのバッチサイズで同じDLRMベンチマークも示しています。 この高いバッチサイズでは、DataScaleはスループットと遅延の両方でA100よりも2倍以上高速なパフォーマンスを実現します。
組み合わせたソリューション:トレーニングと推論を一緒に
これらの測定の多くはMLPerfの推論タスクを対象としていますが、DataScaleシステムは推論とトレーニングの両方に優れています。 同じDLRMモデルを最初から再トレーニングし、GPUハードウェアではまったく不可能なバリエーションを調査することで、RDUは最先端を簡単に上回ります。 詳細については、この記事をご覧ください。
ベンチマークを超えて:本番環境での推奨モデル
MLPerf DLRMベンチマークは、現実的な推奨タスクをシミュレートしますが、実際に展開されたワークロードの規模をキャプチャすることはできません。 これらのレコメンデーションシステムの分析で、Facebookは、ベンチマークと比較して「本番規模のレコメンデーションモデルには桁違いに多くの埋め込みがある」と書いています(出典)。 これらのモデルが成長するにつれて、CPUとGPUは衰退し始めます。 それでも、DataScaleシステムは、これらのより大きなコンピューティングとメモリの要件を問題なく処理でき、スケーリングに合わせて構築された長期的なソリューションであり続けます。
もっと詳しく知る
- 推奨モデルで最先端の精度を超える
- SambaNovaDataScaleの詳細
- 会議を設定する