データフローアーキテクチャ
AIに最適なデータフロー
AIのために特化設計されたアーキテクチャ
すべてのAIモデルは、オペレーションのグラフとして表現され、データはある処理から次の処理へと流れていきます。より高いユーザーあたりのトークン生成速度、ワットあたりのトークン数の向上、そしてより多くのユーザーをサポートするためには、ハードウェアはこのAIデータフローグラフに可能な限り密接に一致している必要があります。同時に、さまざまなグラフに対応できる柔軟性も求められます。SambaNovaは、AIをより高速に、より効率的に、そして世界規模でスケール可能にするために、再構成可能データフローユニット(RDU) を開発しました。
Learn more
AI推論には、効率的なデータ移行が求められます
AIにおいて、計算そのものは容易です。本当の課題は効率的なデータ移動にあります。
データをチップ外へ移動することは、AIアクセラレータにおいて最もコストのかかる処理のひとつです。データフローは、処理を組み立てラインのように連結することで、他のソリューションが抱えるメモリボトルネックを解消します。
Learn more →
プログラマブルグリッドによる効率化
カーネル単位で処理を行うのではなく、データフローはプログラマブル・コンピュート・ユニット(PCU)とSRAMプログラマブル・メモリ・ユニット(PMU)からなるグリッド上で実行されます。
あるオペレーションの計算が実行されている間に、次のオペレーションのデータが並列でフェッチされ、ストリーミングパイプラインが形成されます。このようにメモリと計算をオンチップで並列化することで、中間アクティベーションをすべてローカルに保持し、不要なデータ移動を大幅に削減します。
クラウドスケール向けに設計
グリッドアーキテクチャにより、AIの処理は複数のチップ間でシームレスにスケールし、モデル全体のレイヤーを処理できるようになります。
チップ間はAGCUを介してデータをやり取りし、ネットワークの複雑性を最小化します。これにより、より多くのチップが効率的に連携して動作できるようになり、SN50では最大256基のRDUが協調して推論を実行するスケーリングが可能になります。
Learn more →大規模インテリジェントモデル向けに設計
最大規模のモデルをサポートするため、SambaNovaのデータフローはHBMとDDRという2つの追加メモリ階層によって支えられています。
フルモデルとKVキャッシュはHBMにロードされ、必要に応じてチップ上へストリーミングされます。このアーキテクチャにより、SambaRackは最大規模のモデルに対応でき、SN50では最大10兆パラメータまでスケール可能です。
Learn more →
AI推論の未来はデータフローにある
第4世代SN40および第5世代SN50 RDUの高性能によって実現されています。
Speed
RDUs are the only solution that run the largest AI models with blazing-fast inference speeds.
Learn more →
Energy
RDUs deliver the highest tokens per kilowatt-hour, which is ideal for existing air-cooled data centers of all sizes.
Learn more →
エージェント型キャッシング
より高速な推論を実現するためには、エージェントがモデルとデータをハードウェア上にキャッシュする必要があります。3層アーキテクチャにより、複数のモデルを実行しながら、それらを切り替えて利用することが可能になります。
Learn more →FAQs
SambaNova’s Dataflow Architecture is a hardware design in its Reconfigurable Dataflow Unit (RDU) that allows data to flow from one AI operation to the next as an assembly pipeline. This architecture eliminates frequent, energy-intensive memory bottlenecks (kernel calls), enabling faster AI inference, higher model utilization, and significantly better energy efficiency.
Instead of focusing on providing the most possible compute while ignoring memory optimizations like traditional architectures, SambaNova uses Dataflow Architecture to minimize data movement. As one of the most expensive operations in hardware, optimizing data movement enables scaling of large inference deployments in a cost-effective manner.
SambaNova's approach focuses on solving the AI data movement bottleneck directly in hardware, making it faster and more energy-efficient for LLM inference and large-scale AI.
Dataflow is a unique technology that creates an assembly line of operations, which eliminates the memory bottlenecks faced by other solutions. Memory and compute run in parallel on-chip, keeping activations local and reducing data movement.
Instead of operating kernel-by-kernel, a grid of PCUs and SRAM PMUs enables the SambaNova Dataflow Architecture. While compute happens for one operator, data is fetched in parallel for the next to create a streaming pipeline. Parallelization of memory and compute on-chip keeps all intermediate activations local, dramatically reducing unnecessary data movement.
