「CUDA」の記事一覧
-
SIMDとCUDAで高速化されたビトニックソートの実装
2025-05-05 19:45
科学・技術この記事は、GPUの並列処理機能を活用して高速なビトニックソートを実装した技術的解説です。CUDAの__shfl_sync命令を用いることで、共有メモリを使わずにワープ内のデータを直接シャッフルし、従来の実装よりも30%高速化を実現しています。ビトニックソートの原理、SIMDやCUDAによる実装手法、そしてベンチマーク結果を通して、並列アルゴリズムの効果的な応用方法が紹介されています。
-
FlashAttentionの実装解説
2025-04-29 05:47
科学・技術SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。
Page 1 / 1