「CUDA」の記事一覧
-
GPU最適化の試行錯誤と教訓
2025-05-21 07:57
科学・技術ML開発者がしばしば直面するGPU最適化の課題に対し、意味のないが並列化しやすいカードゲームアルゴリズムを題材に実験が行われました。C++コードをGPUに移植しながら、スレッド分岐の抑制、共有メモリの活用、状態遷移の明示化、データ構造の軽量化など、段階的な改善を重ね、最終的にCPU比で30倍以上の高速化に成功。NVIDIA Nsight Computeの解析を通じて、GPU最適化の実践的知見が豊富に得られた記録です。
-
CUDA最適化を劇的に簡素化するAIプラットフォーム
2025-05-13 14:43
科学・技術SimplePromptsは、自然言語でCUDAカーネルを最適化・生成できるAIプラットフォームです。ユーザーはGPUの専門知識がなくても、AmpereやHopperなどの最新GPU向けに最適化されたコードを即時に生成可能。クラウド上でのプロファイリングにより、ローカルGPU不要でボトルネック分析が行えます。従来の複雑な最適化ツールに代わる、スピードと操作性を兼ね備えた新しいソリューションとして注目されています。
-
SIMDとCUDAで高速化されたビトニックソートの実装
2025-05-05 19:45
科学・技術この記事は、GPUの並列処理機能を活用して高速なビトニックソートを実装した技術的解説です。CUDAの__shfl_sync命令を用いることで、共有メモリを使わずにワープ内のデータを直接シャッフルし、従来の実装よりも30%高速化を実現しています。ビトニックソートの原理、SIMDやCUDAによる実装手法、そしてベンチマーク結果を通して、並列アルゴリズムの効果的な応用方法が紹介されています。
-
FlashAttentionの実装解説
2025-04-29 05:47
科学・技術SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。