ニュースボイス

この論文は、Transformerモデルの出力をN-gram統計によって近似することで、モデルの予測がどのように文脈に依存しているかを明らかにしようとしています。これにより過学習の検出や、モデルが単純な統計ルールから複雑なものへ学習を進める様子を観察できます。TinyStoriesやWikipediaのデータセットで高い一致率が得られており、LLMの理解に貢献する新しい視点を提示しています。

ニュースボイス

Transformerの理解に向けたN-gram統計の応用

カテゴリ

タグ