「言語モデル」の記事一覧
-
Transformerの理解に向けたN-gram統計の応用
2025-05-17 19:56
科学・技術この論文は、Transformerモデルの出力をN-gram統計によって近似することで、モデルの予測がどのように文脈に依存しているかを明らかにしようとしています。これにより過学習の検出や、モデルが単純な統計ルールから複雑なものへ学習を進める様子を観察できます。TinyStoriesやWikipediaのデータセットで高い一致率が得られており、LLMの理解に貢献する新しい視点を提示しています。
-
Llamaをゼロから実装する方法
2025-05-15 09:34
科学・技術この記事では、言語モデル「Llama」を学習データTinyShakespeareでゼロから実装する過程が丁寧に紹介されています。基礎的な前処理から始まり、RMSNormやRoPE埋め込み、多頭注意といったLlama特有の工夫を段階的に追加し、検証とデバッグを繰り返す方法論が述べられています。実験的な実装を通じて、実行可能な最小構成のモデルを作り、学習・推論を通じて性能向上を目指す実践的なアプローチが示されています。
-
logitloom:トークンの生成過程を可視化するツール
2025-05-13 19:30
科学・技術logitloomは、言語モデルが生成するトークンの選択肢を木構造として可視化するWebツールです。ユーザーは任意のプロンプトを入力し、モデルがどのように出力候補を展開するかを視覚的に追跡できます。DeepseekやHyperbolicなど複数のAPIに対応し、ログ確率の確認や枝の追加・再生成が可能。研究やLLMの挙動理解に有用なツールであり、教育やデバッグ用途にも適しています。現在は開発中でライセンス未定。
-
拡張可能なブロック拡散型言語モデルBD3-LMの提案
2025-05-08 18:18
科学・技術BD3-LMは、従来のオートレグレッシブモデルと離散拡散モデルの長所を統合し、柔軟な長さのテキスト生成や並列生成を可能にする新しい言語モデルです。トークンのブロック単位で拡散を行い、自己回帰的に文脈を捉えることで、精度を維持しつつ生成速度を向上させます。学習時にはノイズ率の最適化により高い安定性と低パープレキシティを実現し、従来の拡散モデルの限界を克服しています。
-
生成AIに頼らない文章の価値
2025-05-04 19:17
文化・芸術大学講師の筆者は、学生の課題に頻出するChatGPT的な文章に違和感を覚え、その背景と問題点を考察しています。AIの文章は冗長で空虚な表現が多く、思考力や独自性の欠如を助長する恐れがあると主張。たとえ稚拙でも、自分の言葉で書くことが重要であり、創作や思考のプロセスをAIに委ねるべきではないと警鐘を鳴らします。創造的表現の本質は人間の体験に基づく「自分の声」であると強調しています。
-
小型AIモデルPhiの進化、推論能力で大規模モデルに迫る
2025-05-01 01:02
科学・技術Microsoftは、小型言語モデルPhiシリーズの新バージョン「Phi-4-reasoning」「Phi-4-reasoning-plus」「Phi-4-mini-reasoning」を発表しました。これらのモデルは、小さなパラメータ数ながら複雑な推論タスクをこなす能力を持ち、従来は大型モデルでしか実現できなかった性能を実現しています。特にPhi-4-reasoning-plusは、米数学オリンピック予選問題で大規模モデルDeepSeek-R1を上回る成績を記録しました。教育やPC搭載AIへの応用も進んでおり、省エネで高速な推論が可能です。Microsoftは、これらのモデルに責任あるAI原則を適用して開発を進めており、安全性や公平性にも配慮しています。