検索

クイックアクセス

チラ裏

おなかすいた族！

リンク

人気の50件

最終更新:2025-01-26 (日) 02:30:26 (174d)

音声対話システム
J-Moshi
Top / J-Moshi

https://nu-dialogue.github.io/j-moshi/

概要

日本語におけるfull-duplex音声対話システムです
英語における7Bパラメータのfull-duplex音声対話モデルMoshiをベースとし，日本語音声対話データでの追加学習によって構築されました
発話のオーバーラップや相槌など，人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します．

GitHub

https://github.com/nu-dialogue/j-moshi

実行には，24GB以上のVRAMを搭載したLinux GPUマシンが必要です．MacOSには対応していません．

モデル

j-moshi

kyutai/moshika-pytorch-bf16をベースとし，大規模な日本語音声対話データによって学習されたモデル
https://huggingface.co/nu-dialogue/j-moshi
15.4GB

j-moshi-ext

kyutai/moshika-pytorch-bf16をベースとし，大規模な日本語音声対話データおよび，Multi-stream TTSを用いて合成された拡張データによって学習されたモデル
https://huggingface.co/nu-dialogue/j-moshi-ext
15.4GB

pip

MLX

https://x.com/akkikiki/status/1882913953749287288

https://huggingface.co/akkikiki/j-moshi-ext-mlx

python -m moshi_mlx.local --hf-repo akkikiki/j-moshi-ext-mlx

関連

Moshi

参考

https://note.com/schroneko/n/n6b7a95742ab2