最終更新:2025-01-26 (日) 02:30:26 (13d)
J-Moshi
Top / J-Moshi
https://nu-dialogue.github.io/j-moshi/
概要
- 日本語におけるfull-duplex音声対話システムです
- 英語における7Bパラメータのfull-duplex音声対話モデルMoshiをベースとし,日本語音声対話データでの追加学習によって構築されました
- 発話のオーバーラップや相槌など,人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します.
GitHub
- 実行には,24GB以上のVRAMを搭載したLinux GPUマシンが必要です.MacOSには対応していません.
モデル
j-moshi
- kyutai/moshika-pytorch-bf16をベースとし,大規模な日本語音声対話データによって学習されたモデル
https://huggingface.co/nu-dialogue/j-moshi
- 15.4GB
j-moshi-ext
- kyutai/moshika-pytorch-bf16をベースとし,大規模な日本語音声対話データおよび,Multi-stream TTSを用いて合成された拡張データによって学習されたモデル
https://huggingface.co/nu-dialogue/j-moshi-ext
- 15.4GB
pip
MLX
https://x.com/akkikiki/status/1882913953749287288
https://huggingface.co/akkikiki/j-moshi-ext-mlx
python -m moshi_mlx.local --hf-repo akkikiki/j-moshi-ext-mlx