Transformerの理解に向けたN-gram統計の応用
🕒
🔗
元記事を見る
カテゴリ
科学・技術この論文は、Transformerモデルの出力をN-gram統計によって近似することで、モデルの予測がどのように文脈に依存しているかを明らかにしようとしています。これにより過学習の検出や、モデルが単純な統計ルールから複雑なものへ学習を進める様子を観察できます。TinyStoriesやWikipediaのデータセットで高い一致率が得られており、LLMの理解に貢献する新しい視点を提示しています。