最終更新:2025-01-09 (木) 02:08:39 (16d)
トークナイザ
Top / トークナイザ
https://huggingface.co/learn/nlp-course/ja/chapter2/4
Encode?
- 文字列 → 事前学習モデル入力可能なEncodingオブジェクト
Decode?
- トークン列 (Encoding)→ 元の文字列
粒度
word char subword サブワード?
BPE?(Byte-Pair Encoding)
tiktoken
- BPE?
SentencePiece
- 分割方法そのものを生の文章から直接学習
Tokenizers
- Transformersでも使われてる
- Rust実装
形態素解析
中国語
- jieba?