「SGLang」の記事一覧
-
FlashAttentionの実装解説
2025-04-29 05:47
科学・技術SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。
Page 1 / 1
2025-04-29 05:47
科学・技術SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。