「FlashAttention」の記事一覧

Attentionだけでは足りなかった：最新Transformer技術解説
2025-05-23 18:14
IT・ネット
本記事は、Transformerモデルにおける「Attention Is All You Need」以降に登場した最新技術を紹介しています。Group Query Attention、Flash Attention、Multi-head Latent Attentionなど、性能向上や効率化を実現する多数の手法がPyTorchコード付きで解説され、特に大規模モデルや長文処理に有効な技術が多く含まれます。さらに、前処理正規化やRMSNormなどの安定化手法や、学習率スケジュール、推論高速化技術も網羅されており、実践的な改善ポイントを学ぶ上で有益な内容となっています。
FlashAttentionの実装解説
2025-04-29 05:47
科学・技術
SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。

Page 1 / 1