最終更新:2025-01-26 (日) 02:30:26 (13d)  

J-Moshi
Top / J-Moshi

https://nu-dialogue.github.io/j-moshi/

概要

  • 日本語におけるfull-duplex音声対話システムです
  • 英語における7Bパラメータのfull-duplex音声対話モデルMoshiをベースとし,日本語音声対話データでの追加学習によって構築されました
  • 発話のオーバーラップや相槌など,人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します.

GitHub

  • 実行には,24GB以上のVRAMを搭載したLinux GPUマシンが必要です.MacOSには対応していません.

モデル

j-moshi

j-moshi-ext

  • kyutai/moshika-pytorch-bf16をベースとし,大規模な日本語音声対話データおよび,Multi-stream TTSを用いて合成された拡張データによって学習されたモデル
  • https://huggingface.co/nu-dialogue/j-moshi-ext
  • 15.4GB

pip

MLX

関連

参考