Hume AI、SambaCloud上で日本語音声モデルを提供

お客様はリアルタイムでリアルな日本語ボイスAIを利用可能

Hume AI logo_new

課題:

Humeは、開発者や企業向けに最もリアルなボイスAIモデルを構築することを専門としています。これらのモデルはLLM(大規模言語モデル)に基づいており、言語だけでなく人の声も同時に理解することができます。Humeの使命は、AIに共感力を持たせ、人間の幸福と調和する形でAIを進化させることです。

そのために開発されている音声LLMは、話された言葉の「意味」と「トーン」の両方を理解する能力を備えています。これにより、音声チャットボット、カスタマーサービスなど、幅広い応用が可能となります。

彼らは最近、テキスト読み上げ(Octave 2)と音声から音声への変換(EVI 4)のための最高品質の日本語音声LLMを発表しました。品質の多くは、モデルが言語を理解し、入力に応じて声のトーンを自然に調整する能力に由来します。これにより、より自然な日本語の会話が可能になり、ユーザーの認識を改善することができます。

今日のほとんどの音声システムは、テキスト読み上げ、音声認識、文字起こし、その他のモデルを別々に持ち、それらをつなげています。なぜなら、それぞれのタスクに特化していた方が優れていたからです。しかし、音声言語モデルの最新の進歩により、もはやその必要はなくなりました。さらに、これらの各ステップはプロセスに遅延を追加します。会話における人間の遅延は200ミリ秒であり、1秒を超えると人間らしく聞こえなくなります。Hume AIとSambaNovaは協力して、可能な限り最低の遅延で最高のパフォーマンスを提供するソリューションを開発しました。

ソリューション:

HumeとSambaNovaは協力して、Humeの音声言語モデルをSambaCloud上に展開しました。これにより、世界最高の音声から音声への変換モデルおよびテキストから音声への変換モデルを、品質を損なうことなく会話レベルのレイテンシで動作させることが可能になりました。Hume AIとSambaNovaは共同で、企業に対して100ミリ秒から300ミリ秒の応答時間で動作するテキスト読み上げおよび音声変換のAPIを提供し、ハイパーリアリスティックな品質と人間に近い会話レイテンシを両立させています。

多くの企業にとって、プライベート環境での展開は不可欠です。HumeとSambaNovaは、このニーズに応えるため、Humeのテキスト読み上げおよび音声変換モデルをプライベートデプロイメントを通じて提供しています。

15%

Most models get the right outcome the first time

100-300ミリ秒

レスポンスタイム

最高品質

日本語音声モデル

Challenge:

Hume specializes in building the most realistic voice AI models for developers and enterprises. These models are based on LLMs, so they understand both language and a person’s voice at the same time. Their mission is to bring empathy to AI and to align AI with human well-being. To that end, the speech-LLMs they develop are capable of understanding both the tone and meaning of the spoken word. Applications for this include audio chatbots, customer service, and more. 

They recently launched the highest quality speech-LLMs for text-to-speech (Octave) and speech-to-speech (EVI 3). Much of the quality comes from the models’ ability to understand language and to adjust its tone of voice naturally in response to the input. This enables a more natural conversation, which can improve user perception.

Most voice systems today have separate text-to-speech, speech-to-text, transcription, and other models connected together because they were better at each individual task, but with the latest advances in speech-language models this is no longer the case. Moreover, each of these steps adds latency to the process. Conversational human latency is 200 ms and anything longer than 1 second will sound less human. Hume AI and SambaNova have worked together to develop a solution that delivers the highest performance at the lowest latency possible. 

Solution:

Hume and SambaNova have worked together to deploy Hume’s speech-language models on SambaCloud, enabling the best speech-to-speech and text-to-speech models in the world to run at conversational latency without any reduction in quality. Together, Hume AI and SambaNova provide enterprises with access to text-to-speech and speech-to-speech APIs with response times on the order of 100 ms to 300 ms, marrying hyperrealistic quality with human-like conversation latency.

For many  enterprises, it is critical to deploy in private environments. Hume and SambaNova are providing Hume’s text-to-speech and speech-to-speech models through private deployments to meet these needs.

100-300 ms

Response time

Highest quality speech LLMs

「スケーラビリティ、コスト、レイテンシーの観点において、声の品質を犠牲にすることなく、実際に人間の声のように聞こえることは企業にとって望まれるボイスAIソリューションになるだろうと確信しています。」

 

— Hume AI CEO アラン・カウエン

 

関連リソース

SambaNova Expands Deployment with SoftBank Corp. to Offer Fast AI Inference Across APAC

SambaNova Expands Deployment with SoftBank Corp. to Offer Fast AI Inference Across APAC

3月 5, 2025
Qwen3 Is Here - Now Live on SambaNova Cloud

Qwen3 Is Here - Now Live on SambaNova Cloud

5月 2, 2025
SambaNova Partners with Meta to Deliver Lightning Fast Inference on Llama 4

SambaNova Partners with Meta to Deliver Lightning Fast Inference on Llama 4

4月 7, 2025
さあ始めましょう!