推論プロバイダー

エージェント型推論でAIインフラを差別化する

効率的、高速、スケーラブルな推論

エージェント型AIは、推論サービスプロバイダーに新たな課題を生み出しています。単一のLLMによるチャットリクエストだけでなく、エージェントは複数のリクエストとさまざまなツールへのアクセスを必要とし、インサイトをアクションへと変換する必要があります。再構成可能データフローユニット(RDU)チップを基盤とするSambaStackは、大規模なエージェント型推論のために特化設計されています。高速な推論と高スループットを組み合わせることで、優れた総保有コスト(TCO)を実現します。

SambaNova SN50 Blog 02.1

ネオクラウドをアップグレード

高い利益率のための高速トークン

多くのエージェントは、タスク完了までに数時間かかることがあります。開発者はこうしたエージェントループの時間を大幅に短縮することを求めており、そのためであればプレミアムを支払う意向もあります。
推論サービスプロバイダーにとっての課題は、これらのエージェントに対して十分に高速なトークン供給を行いながら、データセンターの収益化を最適化できるコスト効率を実現することです。
高速なトークン提供はデータ移動の問題であり、SambaNovaはこの課題を解決しています。「ゴルディロックスゾーン」におけるエージェント型推論は、データセンターの一部として導入することで、エージェント向けの高速トークン供給と推論サービスプロバイダーの高いマージンの両立を可能にします。

RDUについて詳しく見る -->

最大規模モデル対応

最も高性能なAIモデルは、数兆パラメータ規模に達します。SambaRack SN50のRDUは、最大256基のネットワーク接続されたアクセラレータまでスケール可能です。その結果、最大10兆パラメータ規模のモデル、または最大1,000万トークンのコンテキスト長をサポートできます。

SambaRackの詳細
rack-row-v1
2026 05 18 - Chart Inference AP1 - v2.1

RDUs + GPUs による共存

SambaRackシステムは、AI推論向けの先進的なハードウェア・ソフトウェアスタックであるSambaStackによってシームレスに管理されます。SambaStackを使用することで、モデルはSambaRackの各システム全体にわたってオーケストレーションされ、AIワークロードを実行するための標準APIエンドポイントとして提供されます。

SambaStackは、既存のGPU環境を補完することも可能であり、既存のKubernetesや推論プラットフォームと連携してオーケストレーションを行うことができます。

SambaStackの詳細 -->

Related resources

Inference Speed or Throughput? With RDUs, You Don't Have to Choose

Inference Speed or Throughput? With RDUs, You Don't Have to Choose

1月 15, 2026
SambaNova Launches First Turnkey AI Inference Solution for Data Centers, Deployable in 90 Days

SambaNova Launches First Turnkey AI Inference Solution for Data Centers, Deployable in 90 Days

7月 7, 2025
SambaNova Launches its AI Platform in AWS Marketplace

SambaNova Launches its AI Platform in AWS Marketplace

5月 29, 2025

既存のデータセンター向けに設計

現在、世界のほとんどのデータセンターは空冷方式で運用されています。AIワークロードの実行におけるデータ移動は、電力集約的でコストの高い処理になりがちです。
SambaNova独自のデータフローアーキテクチャは、RDUチップ上でのメモリ移動を最小限に抑えます。この省エネルギー設計により、SambaRackシステムはほぼすべての空冷データセンターで稼働可能です。
その結果、SambaRackは世界中の電力制約のあるAIデータセンターにとって唯一のソリューションとなります。これは、ソブリンAI推論サービスプロバイダーがSambaNovaを選ぶ理由のひとつです。

 

sovereign AIの詳細 -->

FAQs

What kind of inference performance can I expect from SambaNova?
SambaNova delivers high-performance inference using its RDU chip, designed for speed, scalability, and efficiency. Its unique Dataflow Architecture and three-tier memory technology enable fast token generation, low latency, and high throughput, even for large models. This performance is optimized for modern AI workloads, especially agentic applications that require multiple sequential inference calls.
How easy is it to integrate SambaNova into existing applications?

SambaNova provides simple-to-integrate APIs that conform to OpenAI standards, enabling quick onboarding of applications. Developers can connect to the platform, manage models, and scale workloads with minimal changes. This reduces friction and allows teams to start using high-performance inference without rebuilding their existing systems.

What models are supported on the SambaNova platform?

SambaNova supports a wide range of leading open-source and frontier AI models, including multiple versions of Llama and other large-scale models. These models are optimized to run efficiently on SambaNova’s architecture, enabling fast inference and support for complex, large-context workloads.

How does SambaNova handle scalability and infrastructure management?

SambaNova includes built-in capabilities such as auto-scaling, load balancing, monitoring, and model management through its orchestration layer. This allows organizations to scale inference workloads automatically based on demand while maintaining performance and reliability across deployments and data centers.

What deployment options are available for SambaNova inference?

SambaNova offers flexible deployment options, including integration with cloud platforms like AWS and deployment within existing data center infrastructure. Its systems are designed to run efficiently in standard environments, enabling organizations to deploy and scale inference services quickly without complex setup or procurement processes.