「LLM」の記事一覧
-
LLMアップグレードが信頼性指標を損なう理由
2025-05-06 23:22
科学・技術LLMのアップグレードにより、モデルの出力に対する信頼度指標が失われる現象を解説した技術記事。特にGPT-4.1-miniでは出力に対するlog-probが極端に高くなり、誤出力でも高信頼で出力する傾向が顕著に。これにより、コンテンツモデレーションやポリシー違反検知における誤検出が増加。対策として、明示的なポリシー引用やフィルタリングルールが導入されている。
-
TLA+と生成AIの融合に挑むチャレンジが始動
2025-05-06 17:54
科学・技術TLA+財団とNVIDIAが主催する「GenAI-accelerated TLA+ challenge」は、形式仕様記述言語TLA+と生成AIの融合を探る公開コンテストです。LLMを活用したツールやワークフローの開発が求められ、受賞者にはNVIDIAのGPUやGitHub Copilotのサブスクリプションが贈られます。仕様の可視化や自動補完、教育向けのツール開発など、多岐にわたる応用が想定されており、AI技術を形式検証に統合する先進的な取り組みです。
-
Exa Websets、検索体験を再定義
2025-05-06 16:18
IT・ネットExa Websetsは、ベクトル検索とエージェント処理を組み合わせた新しい検索エンジンで、複雑なクエリにも正確に応答可能です。従来のキーワード検索とは異なり、クエリの意味に合致する実体を返すことを目的としています。検索結果は表形式で、項目ごとに補足情報を付加できる点も特徴。Googleに代わる精密な情報取得手段として、開発者や研究者に注目されています。
-
自然言語で機械学習モデルを構築できるPlexe
2025-05-06 15:38
IT・ネットPlexeは、自然言語による記述だけで機械学習モデルを自動生成できる革新的なツールです。利用者は意図や入出力スキーマをテキストで記述するだけで、AIエージェントが設計、学習、評価、デプロイまで一貫して処理します。分散学習にも対応し、OpenAIやAnthropic、Hugging Faceなど複数のLLMプロバイダと連携可能。データ生成やスキーマの自動推論も可能で、技術者以外のユーザーにも使いやすい設計となっています。
-
生成AIの実用性と限界:経験豊富なデータサイエンティストの視点
2025-05-05 17:22
IT・ネットBuzzFeedのシニアデータサイエンティストである著者は、生成AIの活用に対して慎重な姿勢を示しつつも、特定の業務での有用性を認めています。プロンプトエンジニアリングを駆使し、記事の分類やスタイルガイドの適用、コードの生成などにLLMを活用しています。一方で、ブログ執筆やチャットボットとしての利用には倫理的な懸念や信頼性の問題から否定的です。LLMは適切な場面で使えば有用なツールであり、過度な期待や過小評価を避けるべきだと述べています。
-
Jake Gaylor氏、LLM向け自己紹介用MCPサーバーを公開
2025-05-05 01:44
IT・ネットソフトウェアエンジニアJake Gaylor氏は、AIアシスタント向けに自身の職歴やスキルを紹介できるMCP(Model Context Protocol)サーバーを公開しました。これにより、LLMが彼のレジュメや技術スタックを分析し、職務適性やインタビュー質問の生成、オンボーディング計画の提案まで可能になります。開発者や採用担当者がより効率的に候補者評価を行えるよう設計されており、AIとの連携による新たな人材評価の形を提示しています。
-
MVDRAM:改造なしのDRAMでLLM推論を加速
2025-05-04 23:35
科学・技術MVDRAMは、汎用DRAMを改造せずに行列・ベクトル積(GeMV)演算を実行する手法であり、大規模言語モデル(LLM)の低ビット量子化推論を高速化することを目的としています。従来のPUD手法が抱える前処理・後処理のオーバーヘッドを、演算の線形性とデータ共有パターンの活用により削減。DDR4モジュールでの実験では、従来のプロセッサベース実装と比較して最大7.29倍の速度、30.5倍のエネルギー効率を達成。MVDRAMは、将来的に一般的なDRAMをAIアクセラレータとして活用する道を切り開く可能性があります。
-
LLM対応の高精度DOCX変換ツール「DocxConverter」
2025-05-04 22:42
IT・ネットContextGemが提供するDocxConverterは、Word文書(DOCX)を大規模言語モデル(LLM)向けに最適化された形式に変換する専用ツールです。標準ライブラリが見落としがちな脚注、コメント、テキストボックス、ヘッダーや画像なども正確に抽出し、文書構造を維持したまま変換できます。Pythonライブラリとして提供され、外部依存なしでXMLを直接処理する点が特長です。Markdownやraw形式での出力も可能で、LLM処理の前処理を効率化します。
-
BLAST:WebブラウジングAIの高速スケーリングエンジン
2025-05-02 17:42
IT・ネットBLASTは、OpenAI互換APIを通じてWebブラウジングAIを効率よく動作させる高性能な推論エンジンです。キャッシュや並列処理によってコストを抑え、リアルタイム性を保ちながら複数ユーザーに対応可能です。ローカル環境でも軽量に動作し、Webブラウザと連携するLLMの開発や運用に適しています。pip経由で簡単に導入でき、ストリーミング機能にも対応しています。
-
AI実況付きポンゲーム「xPong」が公開
2025-05-02 16:49
IT・ネットxPongは、古典的なゲーム「Pong」にLLMによるリアルタイム実況を組み合わせたプロジェクトです。OpenAIのgpt-4o-mini-ttsを活用し、プレイヤーの動きに応じた多層的な音声解説を自動生成します。トーナメントシミュレーションや過去データの参照、実況の中断と再開など高度な演出も特徴で、今後のスポーツゲームへの応用が期待されています。コードはMITライセンスで公開されています。
-
LLMでロケット設計を最適化する新手法
2025-04-30 22:03
科学・技術Microsoft Researchは、LLMを用いた高出力ロケット設計の最適化手法を発表しました。シミュレーションとLLMの対話によって設計を改善するベンチマーク「RocketBench」を開発し、従来のLLMが設計の繰り返し改善に課題を抱える一方で、強化学習で訓練された7Bパラメータモデルが人間の専門家を上回る精度を実現しました。この手法は、ソフトウェア開発を超えたエンジニアリングへのLLM活用の可能性を示しています。
-
LLMでRustのコンパイルエラーを修正するツール「RustAssistant」
2025-04-30 21:56
科学・技術Microsoft Researchは、Rustのコンパイルエラーを大規模言語モデル(LLM)で自動修正するツール「RustAssistant」を発表しました。Rustの所有権システムやライフタイムなどに起因する複雑なエラーにも対応し、精度は実用的な74%に達します。LLMがエラー情報と関連コードを解析し、提案した修正をRustコンパイラで検証しながら繰り返す仕組みです。また、Checked Cへの注釈付け支援も行う別ツール「MSA」も紹介され、LLMが安全な低レベルプログラミングを支援する可能性が注目されています。
-
Inception Labs、新型LLM「Mercury」発表
2025-04-30 21:51
IT・ネットInception Labsは、世界初の商用規模の拡散型言語モデル(dLLM)「Mercury」を発表しました。従来のトークン逐次生成ではなく、粗から細への並列更新で最大1000トークン/秒の高速生成を実現。誤り訂正や構造的応答に優れており、コード生成モデル「Mercury Coder」ではGPT-4o Miniなどを凌駕する精度と速度を達成しています。APIやオンプレ提供に対応し、企業導入も進んでいます。
-
DeepSeek-Prover-V2:数理証明に革命を
2025-04-30 16:23
科学・技術DeepSeek-Prover-V2は、Lean 4に対応した形式的数学証明向けのオープンソースLLMで、DeepSeek-V3をベースに構築されました。複雑な定理をサブゴールに分解し、推論の連鎖を構築する冷スタートデータで訓練された後、強化学習により精度を向上。MiniF2Fテストで88.9%の通過率を達成し、PutnamBenchでも高い成果を示しました。新たに公開されたProverBenchデータセットは、数学オリンピックから大学初級レベルまで325問を収録しており、評価の基盤として機能します。形式・非形式の推論を融合させた新しいアプローチが注目を集めています。
-
OpenPipe ART:LLMを自己強化学習で訓練
2025-04-30 15:35
IT・ネットOpenPipe ARTは、大規模言語モデル(LLM)のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。
-
MiMo-7B:推論特化型LLMの新たな挑戦
2025-04-30 08:48
IT・ネットMiMoは、Xiaomiが開発した推論能力に特化した言語モデル(LLM)であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP(Multiple-Token Prediction)や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。
-
AI評価の落とし穴:リーダーボードの幻想
2025-04-30 07:58
IT・ネットAI技術の進展を評価するための基準として広く使われているChatbot Arenaに、重大な偏りが存在することが指摘されました。特定の企業が非公開テストを繰り返し有利な結果だけを公開することで、ランキングが歪められているというのです。特にMetaは27ものLLMバリアントを事前に試験し、選別したうえで発表していたとされています。また、GoogleやOpenAIのモデルは多くのテストデータを独占しており、オープンソースモデルとの間で不平等が生じています。公平な評価を実現するための改善提案も示されています。
-
IBM、新型LLM『Bamba』を発表
2025-04-29 17:24
IT・ネットIBMがCMUやプリンストン大学と協力して開発した新しい大規模言語モデル『Bamba』は、トランスフォーマーの表現力とステートスペースモデル(SSM)の高速処理性能を兼ね備えたハイブリッドモデルです。Bambaは、従来のTransformerの課題である「二乗的な計算コスト(KVキャッシュ)」を大幅に削減し、高速かつ長文処理に対応可能。Granite 4.0への導入も予定されており、Llama-3に匹敵する性能を示しています。完全オープンソースで公開され、今後さらなる発展が期待されています。
-
AI開発支援ツールCursorとWindsurfの比較体験記
2025-04-29 09:05
IT・ネット開発者がAIコード支援ツールCursorとWindsurfを使った体験を共有。Cursorのパフォーマンスはプロジェクトによって大きく異なり、Windsurfに乗り換えるケースも増加。
-
Sim Studio: オープンソースのエージェント構築プラットフォーム
2025-04-28 16:14
科学・技術Sim Studioは、LLMエージェントワークフローをビジュアルで簡単に構築・展開できるオープンソースプラットフォーム。クラウド利用・自前ホスティング両対応で、ローカルモデルにも対応可能。
-
Apple SiliconでLLMを自作サーブする入門講座
2025-04-28 11:24
科学・技術Apple Silicon環境でMLXを用いてLLMサービングを学ぶ講座『tiny-llm』を紹介。高レベルAPIを使わず、配列・行列操作からモデルサービングインフラを構築していく。