ニュースボイス

2025-05-21 07:57

科学・技術

ML開発者がしばしば直面するGPU最適化の課題に対し、意味のないが並列化しやすいカードゲームアルゴリズムを題材に実験が行われました。C++コードをGPUに移植しながら、スレッド分岐の抑制、共有メモリの活用、状態遷移の明示化、データ構造の軽量化など、段階的な改善を重ね、最終的にCPU比で30倍以上の高速化に成功。NVIDIA Nsight Computeの解析を通じて、GPU最適化の実践的知見が豊富に得られた記録です。

CUDA最適化を劇的に簡素化するAIプラットフォーム

2025-05-13 14:43

科学・技術

SimplePromptsは、自然言語でCUDAカーネルを最適化・生成できるAIプラットフォームです。ユーザーはGPUの専門知識がなくても、AmpereやHopperなどの最新GPU向けに最適化されたコードを即時に生成可能。クラウド上でのプロファイリングにより、ローカルGPU不要でボトルネック分析が行えます。従来の複雑な最適化ツールに代わる、スピードと操作性を兼ね備えた新しいソリューションとして注目されています。

SIMDとCUDAで高速化されたビトニックソートの実装

2025-05-05 19:45

科学・技術

この記事は、GPUの並列処理機能を活用して高速なビトニックソートを実装した技術的解説です。CUDAの__shfl_sync命令を用いることで、共有メモリを使わずにワープ内のデータを直接シャッフルし、従来の実装よりも30%高速化を実現しています。ビトニックソートの原理、SIMDやCUDAによる実装手法、そしてベンチマーク結果を通して、並列アルゴリズムの効果的な応用方法が紹介されています。

FlashAttentionの実装解説

2025-04-29 05:47

科学・技術

SGLangでFlash Attentionのバックエンドを実装する過程を解説した技術記事。基本構造からCUDA Graphの最適化まで段階的に紹介し、LLMの高速推論を実現する仕組みに迫る。

「CUDA」の記事一覧