最終更新:2025-03-10 (月) 16:03:15 (105d)  

トークナイザ
Top / トークナイザ

https://huggingface.co/learn/nlp-course/ja/chapter2/4

Encode?

  • 文字列 → 事前学習モデル入力可能なEncodingオブジェクト

Decode?

  • トークン列 (Encoding)→ 元の文字列

粒度

アルゴリズム

BPE(Byte-Pair Encoding)

WordPiece

ユニグラム言語モデル?

ライブラリ

tiktoken

SentencePiece

  • 分割方法そのものを生の文章から直接学習
  • 実装

Tokenizers

形態素解析

中国語

  • jieba?

PLaMo 2

ツール

メモ

LLM

Llama 2

設定ファイル

参考