最終更新:2025-05-10 (土) 05:37:38 (5d)  

Qwen3
Top / Qwen3

https://github.com/QwenLM/Qwen3

https://qwenlm.github.io/blog/qwen3/

思考

  • デフォルトでは、Qwen3モデルは応答前に考えます。これは次のように制御できます。

transformers.AutoTokenizer

  • モデルが思考コンテンツを生成するのが厳密に防止されます。

/thinkおよび/no_think指示

  • システムまたはユーザーメッセージでこれらの単語を使用することで、Qwen3が考える必要があるかどうかを指示します。複数ターンの会話では、最新の指示に従います。

モデル

  • 0.6B, 1.7B, 4B, 8B, 14B, 32B and 30B-A3B, 235B-A22B

MoE

Qwen3-235B-A22B

  • 総パラメータ数2350億(235B)、有効パラメータ数220億(22B)

Qwen3-30B-A3B

Dense

Qwen3-32B

量子化

メモ

  • 事前学習
    • データセット規模:36兆トークン(Qwen2.5の約2倍)
    • ソース:ウェブ+PDFドキュメント抽出+合成データ(数式・コード生成)

ベンチマーク

Local ChatGPT with thinking UI

パラメータのベストプラクティス