最終更新:2025-01-09 (木) 02:08:39 (16d)  

トークナイザ
Top / トークナイザ

https://huggingface.co/learn/nlp-course/ja/chapter2/4

Encode?

  • 文字列 → 事前学習モデル入力可能なEncodingオブジェクト

Decode?

  • トークン列 (Encoding)→ 元の文字列

粒度

  • word
    char
    subwordサブワード?

BPE?(Byte-Pair Encoding)

tiktoken

SentencePiece

  • 分割方法そのものを生の文章から直接学習

Tokenizers

形態素解析

中国語

  • jieba?

ツール

参考