日本語音声基盤モデルをスケーリングさせ、TTS性能を見てみる
大規模言語モデルでは、モデルサイズ、学習データ量、計算量を増やすことで性能が向上することが広く知られています。 こうしたスケーリングの流れは、音声にも及びつつあります。
我々は、より高性能な音声基盤モデルを実現するために、モデルサイズとデータ量を拡大し、その効果を検証しました。 本記事では、1Bおよび3Bの日本語音声を用いた音声基盤モデルを構築し、スケーリングによってText-To-Speech (TTS)においてどのような性能差が現れるかを紹介します。 前処理、事前学習、事後学習の各段階についての詳細は、続編で詳しく扱う予定です。
関連記事
- 前処理編:(後日公開予定)
- 事前学習編:(後日公開予定)
- 事後学習編:(後日公開予定)
1. なぜ大規模音声基盤モデルを作るのか
大規模言語モデルの発展は、モデルサイズ、学習データ量、計算量を増やすことで性能が着実に向上することを示してきました。 初期の Scaling Law 研究では、言語モデルの損失がモデルサイズ、データサイズ、計算量に対してべき則的に改善することが示され1、その後の Chinchilla では、一定の計算予算のもとでモデル規模と学習トークン数を適切に両立させることの重要性が示されました2。
このスケーリングによる性能向上は、音声というモダリティでも起きています。 例えば、VALL-E (2023) は 300Mのモデルパラメタを6 万時間の英語音声で学習し3、SoundStorm (2023) は 350Mパラメータの Conformer を10 万時間の対話音声で学習しています4。 さらに、Moshi (2024) は 7B パラメータの Helium をバックボーンとし、700 万時間の音声を用いて事前学習されています5。 直近では、Qwen3-TTS でも 1.7B へのモデル拡大と、10 言語・500 万時間超の学習データが報告されており6、音声合成や音声対話でも、モデルサイズとデータ規模を押し広げる方向が主流になりつつあります。
したがって、音声においても、モデルサイズとデータ量によるスケーリングは有力な戦略と期待できます。 ただし、音声はテキストよりも扱う系列長が長いです。例えば、1秒の音声でも1万6000の系列長を持ちます。(16kHzを仮定) そのため系列長に対して計算量が2乗に膨れ上がるLLMの学習においては、どのような表現を用い、どのような学習レシピを使用するかによって、スケーリングの効き方は大きく変わると考えられます。
2. スケールのためのアプローチ
音声には、発話内容そのものに対応する言語情報だけでなく、感情、話速、抑揚、話し方といったパラ言語情報、さらに話者性や周辺音響環境のような非言語情報が含まれています。 したがって、音声を扱うモデルを作るためには、「何を喋っているか?」を扱うことに加えて「誰が喋っているか?」「どのような抑揚で喋っているか」などの、音声に含まれる情報全体を扱う必要があります。
従来の音声合成では、音声に含まれる情報を分解し、各問題を解くモジュールを組み合わせる構成が一般的でした7。
例えば、書記素音素変換(G2P)、アクセント推定、音響モデル、ボコーダを組み合わせて音声合成モデルを作ることになります。 この構成では、地名等の不規則な読みや新語、テキストに対応した感情、抑揚を実現する際に限界があります。
こうした課題に対して、近年ではG2Pを排除しテキストから音声特徴量を直接推定する枠組みが注目されています. 特に、豊富な言語知識や文脈理解能力を有するLLMをTTSタスクへ適用することで高品質な音声合成が実現されることがわかってきました。
LLMは、すでに言語モデルとしてモデルサイズ、データ量がスケールし、その性能が向上していくことが分かっています。 LLMをベースにすることによって、音声言語モデルについても同様のスケールメリットを得ることが考えられます。
もっとも、LLMを用いたとしても音声をそのまま学習させることは容易ではありません。 音声波形は時間分解能が高く(一秒の音声でも16000点のサンプルがある)、テキストに比べて系列長が極端に長いため、そのままでは長距離依存の学習も、実時間に近い推論も難しいです。 この課題に対して、近年の Neural Audio Codec 系研究は、音声を離散トークンへ圧縮し、それを言語モデルで扱う枠組みを与えました。 VALL-E は TTS を連続信号回帰ではなく条件付き言語モデリングとして定式化し3、Moshi は Neural Audio Codec のトークンを用いてTTSだけではなく音声対話モデルを構成しています5。
以上から、我々も言語モデルを出発としてNeural Audio Codecを用いた大規模音声基盤モデルを作成しました。
3. 我々のLLM-TTSモデル
我々は、1Bおよび3Bのパラメータサイズを持つLLMをベースに、日本語音声データを主として用いて訓練を行いました。 本稿の主眼は、アーキテクチャの細部ではなく、スケーリングによって何が変わったかを見ることにあります。 使用した Neural Audio Codec やモデルのトークンフォーミュレーションなどの詳細については、事前学習編(後日公開)で扱う予定です。 そのため、ここではまず学習データ量と計算時間に絞って紹介します。
事前学習に用いた音声データ規模は以下の通りです。
| モデルサイズ | 音声データ |
|---|---|
| 1B | 日本語音声データ 約5万時間 |
| 3B | 日本語音声データ 約50万時間 |
参考として、44.1kHz / 16bit / モノラルの WAV 形式に換算すると、50万時間の音声データは約160TBに相当します。
事前学習に要した計算資源は以下の通りです。
- 1Bモデル:GH200 16基、36時間
- 3Bモデル:H100 16基、154時間
モデルサイズの拡大に伴って、より大規模な日本語音声データで学習させました。 本稿では、日本語Text-to-Speech (TTS) 性能を切り取り、スケーリングによってどのように性能差が出るかを見ていきます。
3-1. 1Bでできること
1Bモデルでも、日本語TTSとして重要な基礎能力は十分に立ち上がります。 とくに、日本語音声を多量に収集して訓練しているため、難読地名や人名、文脈によって読み方が変わる漢字を正しく読める例が得られています。
たとえば、以下のようなケースです。
| テキスト | 音声 |
|---|---|
| 我孫子駅から御徒町駅に服部さんが向かう。 | |
| 彼が朝の市場で野菜を売っているときに、株式市場は大きく荒れた。 |
これは、日本語音声基盤モデルの最初の成立条件として重要です。 日本語では、文字列から一意に読みが定まらないケースが多く、ここで崩れると、その先の自然さや話し方以前の問題になります。 1Bモデルでこの水準の読みがある程度成立していることは、LLM-TTS の枠組みが日本語でも有効であることを示しています。
3-2. 3Bで見えてきたこと
モデルサイズを3Bまで拡張すると、単に読み上げ誤りが減るだけでなく、扱える表現の幅が広がります。
まず、より広いドメインのテキストを読めるようになります。 たとえば、英単語や数値が混ざったテキストでも、3Bの方が1Bよりも自然かつ正確に読めます。
| テキスト | 3B | 1B |
|---|---|---|
| 売上DataをExcel 2021で整理したところ、Q1の利益は前年比で12.5%増えているようです。 |
また、テキスト入力だけでも、その内容に応じた話し方を行えます。 たとえば、実況調のように、テキスト内容に引っ張られたスタイルを自発的に帯びることがあります。 この傾向は1Bでもある程度見られますが、3Bの方が安定しています。
| テキスト | 3B | 1B |
|---|---|---|
| ダブギルド渾身のモデルの訓練が今始まったどうだどうだダメだ収束しない訓練が破綻した | ||
| 大嶽選手ジョブを投げたがどうだ?どうだ?あっとここでエラー、メンテ明けまでお預けです。 |
さらに、複数人が自然に対話しているような音声生成も可能です。 テキスト入力だけで、どこで話者が切り替わるかを暗黙的に学習しているため、話者の切り替わりも比較的自然に行えます。
| テキスト | 3B | 1B |
|---|---|---|
| いやもう最近ね旅行にいったんですよ。えどちらのほうに?えっとあの沖縄のほうです。 |
ここで重要なのは、3Bで見えてきた改善が、単なるCERの低下にとどまらない点です。 3Bでは、次のような変化が見えています。
- より広いドメインのテキストに対応できる
- テキスト内容に応じた話し方を、より安定して出せる
- 話者切り替えを含む複雑な音声現象を扱える兆しがある
これは、モデルサイズの増加によって、単なる読み上げ器から、より広い音声現象を扱う基盤モデルへ近づいていることを意味しています。 ただし、こうした変化を論じる上でも、基礎的な読み上げ性能を定量的に確認しておくことは重要です。
3-3. CERで見る性能
これらのベースモデルについて、JSUT コーパス8の読み上げタスクにおける文字誤り率 (CER) を、Qwen3-TTS6と比較した結果を以下に示します。 Qwen3-TTS は Custom Voice モードで日本語話者(Ono_Anna)9を選択し、言語ラベルに日本語を指定して生成しました。
| カテゴリ | Ours 1B | Ours 3B | Qwen3-TTS | GT |
|---|---|---|---|---|
| basic5000 | 12.75% | 11.15% | 14.05% | 10.53% |
| countersuffix26 | 62.30% | 53.41% | 60.85% | 41.09% |
| loanword128 | 16.17% | 16.23% | 19.88% | 13.51% |
| onomatopee300 | 14.08% | 11.04% | 11.13% | 10.97% |
| precedent130 | 16.11% | 11.43% | 14.07% | 10.15% |
| repeat500 | 15.11% | 13.08% | 15.89% | 12.89% |
| travel1000 | 11.84% | 8.57% | 9.91% | 6.47% |
| utparaphrase512 | 12.03% | 10.61% | 12.08% | 9.10% |
| voiceactress100 | 16.77% | 12.78% | 18.00% | 12.52% |
| 平均 | 13.13% | 11.15% | 13.69% | 10.25% |
1Bモデルでも Qwen3-TTS より平均CERが低く、3Bモデルではさらに改善しています。 Qwen3-TTS はTTSモデルとして安定性が高い一方で、日本語漢字の読みを誤るケースが散見されました。
たとえば次のような例です。
テキスト:また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。
| モデル | 音声 |
|---|---|
| Qwen3-TTS | |
| Ours 3B |
この結果は、既存のTTSモデルとしての音声基盤モデルについて、依然として日本語音声読み上げ能力に改善が可能であることを示唆しています。
3-5. まだうまくいかないこと
もっとも、現時点で日本語音声基盤モデルが完成したわけではありません。 日本語TTSとして十分に競争力のある品質は出ていますが、依然として難しい点が残っています。
主な課題は以下の二点です。
-
Continuation生成による音声クローニング ある音声をトークン化して入力し、その続きを生成させることで、入力音声と同じ話者の音声を生成できるはずです。 しかし我々のモデルでは、複数話者の対話もモデリングできる影響により、必ずしも入力音声と同じ話者が維持されるとは限りません。 また、生成がすぐに終了してしまう不安定性も残っています。
-
短いテキスト、繰り返しを含むテキスト、途中で途切れたようなテキスト J-HARD-TTS-EVAL10 で指摘されているような、LLM-TTS特有の不安定性を突く入力が依然として苦手です。
これらは、基盤モデルそのものが成立していないから起きているというより、基盤モデルの上に実用的なTTS挙動を安定して載せるための後段最適化がまだ十分でないことによる部分が大きいと考えています。
4. 今後扱う技術的論点
ここまで見てきた結果から、モデルサイズとデータ量の拡大によって、日本語 LLM-TTS は読み上げ器を越えた性質を少しずつ獲得しつつあることが分かります。 一方で、その性能を安定して引き出すためには、モデル規模を増やすだけでは不十分です。
とくに重要なのは、前処理、事前学習設計、事後学習の三点です。 どのような音声をどのような単位に落とし込み、どのようなトークン列として学習させ、さらに実用的な TTS 挙動へどう整えるかによって、最終的な品質は大きく変わります。 これらの詳細については、今後の続編で順次公開する予定です。
5. まとめ
我々が目指しているのは、日本語を読めるTTSモデルを一つ作ることではなく、日本語に強い音声基盤モデルを作り、より優れた音声合成へつなげることです。
今回の1B・3Bの結果から、少なくとも次のことが分かってきました。
- 1Bでも、難読漢字や文脈依存読みを含む、日本語TTSとしての基礎能力は十分に立ち上がる
- 3Bへスケールすることで、英数字混在、話し方の制御、複数話者的な振る舞いなど、より広い音声現象を扱える兆しが見える
- CERでも、1B・3Bともに Qwen3-TTS と比較して競争力のある結果が得られる
今後は、3Bから8Bとモデルサイズをスケーリングすること、MoshiのFull-Duplex対話を始めとしたTTS以外の能力への応用の探求を行っていく予定です。
続く記事では、前処理と事前学習、事後学習という3つの技術的中核についてより具体的に紹介します。
関連記事
- 前処理編:(後日公開予定)
- 事前学習編:(後日公開予定)
- 事後学習編:(後日公開予定)
参考文献
-
Jared Kaplan et al., Scaling Laws for Neural Language Models, 2020. ↩︎
-
Jordan Hoffmann et al., Training Compute-Optimal Large Language Models, 2022. ↩︎
-
Chengyi Wang et al., Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (VALL-E), 2023. ↩︎ ↩︎
-
Zalán Borsos et al., SoundStorm: Efficient Parallel Audio Generation, 2023. ↩︎
-
Alexandre Défossez et al., Moshi: a speech-text foundation model for real-time dialogue, 2024. ↩︎ ↩︎
-
Qwen Team, Qwen3-TTS Technical Report, 2026. ↩︎ ↩︎
-
Xu Tan et al., A Survey on Neural Speech Synthesis, arXiv:2106.15561, 2021. ↩︎
-
Ryosuke Sonobe et al., JSUT corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis, 2017. ↩︎
-
QwenLM, Qwen3-TTS, GitHub repository / Hugging Face model card, accessed 2026-04-05. ↩︎
-
Shuhei Imai et al., A Study on a High-Difficulty Japanese Text-to-Speech Corpus Specialized for Sequence Consistency Evaluation, Proc. ASJ, 2025. Dataset: Parakeet-Inc/J-HARD-TTS-Eval, accessed 2026-04-05. ↩︎