SambaNova: NLPモデルのデプロイメントを画期的に効率化

by SambaNova

2022年05月27日

ライフサイクル全体を通じて、最新の産業用NLPモデルはリズムに従います。それらは、1回限りのタスクにとらわれない事前トレーニングから始まり、その後、急速に変化するユーザーデータに関するタスク固有のトレーニングを経ます。これらの定期的に更新されるモデルは、最終的には、アプリケーションからの大規模なオンライン推論要求を処理するために展開されます。

現在活発な研究の傾向は、オンライン推論のためにBERTのような最先端のNLPモデルを展開することです。モデルが毎年大きくなるにつれて、これらのモデルをリアルタイムパイプラインに展開する方法についての議論が高まっています。実用的な展開を可能にするために、大きなモデルをコンパクトなバリアントにまで蒸留するためのさまざまな手法が開発されてきました。デジタルアシスタントや検索エンジンなどのアプリケーションでは、これらのコンパクトなモデルは、サービスレベルの要件を満たす低遅延で高精度のモデルを実現するための鍵となります。

SambaNova Systemsは、単一のSambaNova Systems Reconfigurable Dataflow Unit（RDU）スケールから複数のSambaNova DataScaleシステムスケールまで、これらのコンパクトなモデルを探索および展開するためのソリューションを提供し、低遅延、高精度のオンライン推論のために従来のアクセラレーターに比べて前例のない利点を提供します。

RDUでのデータフロー実行の実証済みの能力

GPUでのコンパクトモデルのレイテンシーは、カーネルベースの実行モードによって基本的に制限されます。バッチサイズ1のオンライン推論の場合、コンテキストスイッチングのオーバーヘッドと、オペレーションカーネルのオフチップウェイトメモリアクセスが、従来のアーキテクチャのレイテンシを支配する可能性があります。 SambaNova RDUは、SambaNova Systems Reconfigurable Dataflow Architecture（RDA）に基づいて構築されており、この障壁を取り除きます。具体的には、最近提案されたコンパクトなBERTモデルであるTinyBERTで、RDUは、一般的なテキスト分類タスクであるMNLIのV100GPUよりも5.8倍のレイテンシースピードアップを達成できます。

図1：オンライン推論のレイテンシーの比較

図1：オンライン推論のレイテンシーの比較

デジタルアシスタントや検索エンジンなどのアプリケーションでは、入力データはシーケンス長が短い自然言語トークンです。たとえば、「サンフランシスコの天気は？」などのスマートフォンアシスタントクエリです。これらのタイプのシナリオでは、シーケンス長の短縮は通常、コンパクトモデルによって達成される精度にほとんど影響を与えません。これは、RDUの遅延の利点と深く結びついているもう1つの特性です。コンパクトモデルの場合、GPUのレイテンシはシーケンス長が短くなると飽和しますが、RDUのレイテンシはシーケンス長が短くなると向上します。

図2に示すように、TinyBERTモデルは、プロキシとして使用するMNLIベンチマークタスクで、64〜256のシーケンス長にわたって最先端のモデル精度と一致させることができます。図3では、GPUがシーケンスの長さ全体で同じレイテンシーを示していることがわかります。ただし、GPUを介したRDUの高速化は、シーケンス長を64に短縮すると、 8.7倍に向上します。

図2：シーケンス長が異なる場合のRDUおよびGPUモデルの精度

図2：シーケンス長が異なる場合のRDUおよびGPUモデルの精度

図3：さまざまなシーケンス長でのRDUとGPUのレイテンシーの棒グラフ

図3：さまざまなシーケンス長でのRDUとGPUのレイテンシーの棒グラフ

SambaNovaSystemsDataScaleによる精度の向上

当社のデータフロー最適化チップは、コンパクトモデルの低遅延オンライン推論の前例のない機能を示しています。データフローチップのこれらの機能を利用して、私たちの研究所は、完全なSambaNova DataScaleシステム（8ソケット）を使用して、コンパクトなNLPモデルで低遅延の推論を実行しながら最先端の精度を達成できることも示しました。

SambaNova Systems研究所の調査によると、複数のモデルインスタンスにわたる多数決により、TinyBERTによって達成される精度が大幅に向上する可能性があります（図4）。 SambaNova DataScaleシステムは、これらの精度の向上を効率的に活用するように完全に設計されています。 SambaNovaDataScaleシステムの8つのソケットすべてに複数のTinyBERTモデルをデプロイできることを示します。図5に示すように、TinyBERTモデルをアンサンブルすると、RDU上の単一のTinyBERTモデルと比較して、レイテンシーのコストを無視できる程度で、分類精度が0.4％向上します。

図4。アンサンブルの専門家の数が異なる場合のモデルの精度

図4。アンサンブルの専門家の数が異なる場合のモデルの精度

図5。 1つのRDUでの単一のTinyBertと8ソケットシステムでの8人のエキスパートのレイテンシーの比較

図5。 1つのRDUでの単一のTinyBertと8ソケットシステムでの8人のエキスパートのレイテンシーの比較

コンパクトなBERTモデルは、SambaNovaSystemsDataScaleが低遅延で高精度のオンライン推論に合わせたソリューションを提供する重要なケースの1つにすぎません。