ニュースボイス

2025-05-27 20:53

科学・技術

LLM 0.26がリリースされ、OpenAIやAnthropic、Gemini、Ollamaなどのモデルに対して、Python関数として記述したツールを実行させる新機能が追加されました。コマンドラインやPython APIからツールを定義・呼び出し可能で、数学計算やSQLクエリ、Web検索など多様な用途に対応。開発者にとってLLMの拡張性と応用範囲が大きく広がるアップデートとなっています。

自己学習するプロンプトエンジン「Medea」が公開

2025-05-27 15:59

IT・ネット

自己強化型のプロンプト生成を行うオープンソースプロジェクト「Medea」が登場しました。入力と出力のログを分析し、プロンプト自体を自動最適化。CoT（Chain of Thought）生成やファクトの検証、出力の形式チェックなどを通じて、モデルの出力品質を改善する設計となっています。ベクトル検索や複数LLMの活用にも対応しており、個人開発から中規模サービスまでのLLM活用を支援します。GitHub上でMITライセンスで公開中です。

結果ベース強化学習による予測精度の向上

2025-05-27 13:33

科学・技術

本研究は、結果ベースの強化学習を用いて未来予測の精度と信頼性を向上させる手法を提案しています。従来のRLVR手法に比べ、ノイズの多い実世界の予測タスクでも安定して動作するよう改良が加えられています。14Bモデルを使った実験では、標準的な大規模モデルと同等の精度を示し、特にキャリブレーションで上回りました。小規模LLMでも経済的価値ある予測ツールになり得ることが示されています。

形式的不確実性の文法：LLMによる自動推論の信頼性評価

2025-05-27 02:27

科学・技術

大規模言語モデル（LLM）は形式仕様の自動生成に有望ですが、確率的出力と決定論的検証とのギャップが課題です。本論文は、LLMが形式的推論で誤る要因と、不確実性の定量化手法の効果を検証しました。SAT/SMT問題においては分野依存の精度変動が顕著で、既存のエントロピー指標などでは誤りを十分に検出できませんでした。そこで、出力を確率文脈自由文法（PCFG）でモデル化し、文法エントロピーなどの新たな指標を提案。これにより選択的検証で誤り率を最大100%削減する方法を示しました。

Claude 4のシステムプロンプト詳細解説

2025-05-26 21:25

IT・ネット

Anthropic社が提供する大規模言語モデルClaude 4シリーズのシステムプロンプトについて、公開された内容やリークをもとに詳細に分析した記事です。プロンプトにはモデルの人格、安全性、検索利用、著作権回避、思考ブロックなどの指針が含まれ、モデルの振る舞いを高度に制御しています。Claudeが自己言及を避ける理由やリストの多用を控える設計意図、検索ツールとの連携制約など、プロンプト設計の裏側が明かされています。

コード生成LLMに期待しすぎ？現場の苦悩

2025-05-26 08:17

IT・ネット

コード補完やデバッグには役立つが、実際の業務コードの生成には不満が多いというエンジニアの投稿が話題です。Pythonの構文確認やSQL作成、トラブルシューティングには有効だが、品質管理が求められる本番コードの生成では、LLMに過度の介入が必要で、時間と労力がかかると指摘されています。利便性の一方で、メンテナンス性や一貫性に課題があるとし、LLM活用には現実的な期待値設定が求められるという意見です。

LLMによるツール依存型AIの未来

2025-05-25 06:59

科学・技術

本記事は、大規模言語モデル（LLM）がすべての出力をツール経由で行う「無限ツール使用」パラダイムの可能性について論じています。LLM本体は短期的なタスクと限定的な文脈だけを保持し、複雑な作業は専門的なツールに外部化することで、効率的かつ精度の高い知的処理を実現します。文書編集、3D生成、ビデオ理解、安全性評価など多分野への応用が可能であり、AIの安全性と性能の両立を目指す新しいアーキテクチャのビジョンが提示されています。

上級エンジニアのためのLLMペアプログラミング活用法

2025-05-24 13:45

IT・ネット

本記事は、上級エンジニアによるLLM（大規模言語モデル）活用の実践例を紹介しています。Sean Goedeckeは「セカンドオピニオン」や「捨てスクリプト」技法を、Harper Reedは仕様設計から共同実装までをLLMと行うワークフローを提案。また、Lee Boonstraはプロンプトの記録が成功の鍵と述べています。LLMを日々の開発に取り入れる実践知が集められ、現場での応用を促す内容です。

AIを深掘りするか、道具として使うか

2025-05-24 07:05

IT・ネット

ソフトウェアエンジニアとして活躍する投稿者は、AIや大規模言語モデル（LLM）に関する情報が氾濫する中で、技術の本質に踏み込むべきか、それとも実用ツールとして活用するべきかに悩んでいます。過熱するAI分野が一過性のブームなのか、それともキャリアの転換に値する本質的変化なのか、他の技術者の見解を求めています。

LLMの判定はなぜ信頼できないのか

2025-05-23 17:20

科学・技術

大規模言語モデル（LLM）は、人事選考や法判断などの領域で活用が進む一方、その判断には大きなバイアスや不安定性が存在します。選択肢の順序、評価基準の並び、プロンプトの書き方一つで結論が変わる現象が多くの実験で確認されています。ラベリングやスコアリングの設計、モデルの使い分けなどを工夫しない限り、LLMに頼った判断は恣意性を帯び、社会的に重大な誤判につながる可能性があります。

GitLab Duoにリモートプロンプトインジェクションの脆弱性

2025-05-23 07:12

IT・ネット

GitLab Duoに発見された脆弱性により、攻撃者が埋め込んだ隠しプロンプトを通じて、非公開ソースコードの漏洩やHTMLインジェクションが可能となっていました。これは、LLMの脆弱性としてOWASP Top 10にも該当する深刻な問題で、GitLabは問題を認識し修正済み。Duoはユーザーと同じ権限を持ち、外部からの隠れた命令に従ってしまう特性があり、今後もAI統合環境では入力内容の信頼性に注意が求められます。

Claude 4とAI研究の最前線を語る

2025-05-23 06:08

科学・技術

AnthropicのSholto DouglasとTrenton Brickenが出演したポッドキャストで、強化学習の進展やLLMの限界と可能性、自己認識の兆し、そして国家や学生がAGIにどう備えるべきかが語られました。ソフトウェアエージェントの能力向上や、RLによる能力学習の有効性、自己スカフォールディングの課題も議論され、RLの効率やスケーラビリティに関する最新の見解が示されました。AI教育の在り方にも焦点が当たっています。

管理職と“言葉だけの計画”に対する風刺

2025-05-22 23:20

社会

この記事では、管理職が求める計画や文書の多くが実際には現場にとって無意味な“空論”であることが、ユーモアと皮肉を交えて描かれています。著者はLLM（大規模言語モデル）を使って、現実性のない災害対策計画などを自動生成し、管理職の要求を効率よく満たしていると述べています。実務上は役に立たないが、形式的な満足を提供する“生成AIの使い道”として、皮肉交じりに評価されています。

Claude 4シリーズ登場：AIエージェントとコーディング支援が大幅進化

2025-05-22 16:34

科学・技術

Anthropicは新世代AIモデル「Claude Opus 4」と「Claude Sonnet 4」を発表しました。Opus 4は世界最高レベルのコーディング性能を誇り、長時間の作業や複雑なタスクにも対応。Sonnet 4は迅速かつ高精度な推論を実現し、GitHub Copilotにも採用予定です。ツール使用やメモリ機能の強化、API拡張など新機能が多数搭載されており、開発支援やAIエージェント構築に最適なモデルへと進化しています。

シンボリック代数とMCPの実験的融合

2025-05-22 13:59

科学・技術

本記事では、シンボリック代数システムと大規模言語モデル（LLM）をMCP（Model Context Protocol）で接続し、自然言語と記号操作の強みを統合する試みが紹介されています。MCPにより、LLMがSymPyなどの外部ツールを呼び出して正確な数学的処理を行えるようになり、数学問題への対応力が向上します。実例として微分方程式の解法を提示し、その実用性と将来の形式数学・検証ツールとの統合可能性も示唆されています。

Koog：KotlinでAIエージェントを構築する新フレームワーク

2025-05-22 07:40

IT・ネット

KoogはJetBrainsが開発する、KotlinでAIエージェントを構築・実行できるフレームワークです。MCP連携、ベクトル検索、ストリーミングAPI、セッションを超えた記憶保持など多機能を備え、エンタープライズ用途にも対応可能。OpenAIやAnthropicなど主要なLLMプロバイダをサポートし、シンプルなKotlinコードでエージェントを素早く構築できます。モジュール設計で柔軟な拡張性を実現しており、マルチプラットフォーム展開にも対応しています。

LLMの関数呼び出しはスケーラブルでない？コードによるオーケストレーションの有効性

2025-05-21 17:18

IT・ネット

LLMにツールの出力全体を渡すアプローチは、処理が重くコストも高いという課題があります。本記事では、出力スキーマを活用して構造化データを取得し、LLMが生成したコードで処理を行う「コードによるオーケストレーション」が、拡張性と正確性の面で優れていることを示しています。また、コードによるツールの連携やメモリ管理、並列処理の利点も紹介され、今後のAI実行環境に向けた新しいランタイムの必要性が論じられています。

Devstral：Mistral AIの新たなエージェント型LLM

2025-05-21 14:21

IT・ネット

Mistral AIとAll Hands AIの共同開発によるDevstralは、ソフトウェア開発タスクに特化したエージェント型LLMです。実際のGitHub課題を解決するよう設計され、SWE-Bench Verifiedベンチマークで46.8％の精度を達成。軽量な設計によりローカルでも実行可能で、企業向けにはプライベートコードベースへのファインチューニングも対応。Apache 2.0ライセンスで公開され、ローカル実行やエンタープライズ向け利用に最適です。

LLMの脆弱性「甘い毒」攻撃で明らかに

2025-05-21 05:36

科学・技術

大規模言語モデル（LLM）は広範な応用が進む一方で、設計された制限を回避させる「脱獄（Jailbreak）」攻撃の脅威に直面しています。本論文では、モデルの注意重みが入力から出力へ移行することで防御が緩む「防御閾値劣化（DTD）」を突く新たな手法「Sugar-Coated Poison（SCP）」を提案。この手法は一見無害な出力を通じてモデルを誘導し、やがて有害な内容を生成させるものです。対策として、効果的な防御戦略「POSD」も提案されています。

JavaFactory：LLMを活用したJavaコード自動生成ツール

2025-05-20 11:29

IT・ネット

JavaFactoryは、自然言語で定義したパターンとアノテーションに基づき、繰り返しの多いJavaコードを安定的かつ再現性高く生成するツールです。生成対象は実装、テスト、フィクスチャなど多岐に渡り、特定の構造を持つプロジェクトに適しています。JetBrains製品との統合や独自UIも用意されており、明示的に参照範囲をコントロールできることが特長です。従来のAIコード生成よりも制御性と保守性に優れた開発支援が可能となります。

AIによる採用選考に潜む性別と順序バイアス

2025-05-20 09:27

IT・ネット

本記事は、大規模言語モデル（LLM）が採用選考において性別や提示順に基づくバイアスを示す可能性についての実験結果を報告しています。70職種における3万件超の比較実験で、LLMは同じ経歴でも女性名を持つ候補者を選ぶ傾向が見られました。また、表示順が先の候補者を選ぶ傾向も強く、モデルのサイズや推論方法によってもバイアスの違いは見られませんでした。AIの公正性や倫理的運用に関する重要な問題提起です。

GeminiがEメールから甥の名前を特定した方法

2025-05-19 00:35

IT・ネット

筆者は、個人のEメールにLLMが安全にアクセスできるMCPサーバを構築し、GoogleのGeminiを使って甥の名前を特定しました。Geminiは様々な検索クエリを通じて対象となるメールを絞り込み、直接的な言及がない中で“Monty”という名前にたどり着きました。LLMはメールスレッドを横断的に読み取り、間接的な文脈から情報を抽出する力を発揮した例です。

KVSplit、Apple Silicon向けLLMのメモリ効率化技術を公開

2025-05-16 20:04

科学・技術

GitHubプロジェクト「KVSplit」は、Apple Silicon上で大規模言語モデルを効率的に動作させるために、Attention機構のKVキャッシュにおけるキーとバリューを別々の精度で量子化する手法を提供しています。K8V4構成（キー8ビット・バリュー4ビット）では、メモリを59％削減しつつ精度劣化は1％未満。Metal最適化による高速推論や、直感的な可視化ツール、簡単なセットアップも特徴です。最大72％のメモリ削減が可能で、長文コンテキスト処理にも効果的です。

AIでの開発から手書き回帰へ：エンジニアの再認識

2025-05-16 10:29

IT・ネット

著者はSaaSのインフラ刷新を目的に、AIを活用して開発を進めたものの、コードの品質や一貫性の欠如により大幅な手戻りが発生。特にGoとClickhouseの知識不足や、LLMの曖昧な出力に起因する問題が多く、AIに頼りすぎたことを反省。最終的には自らの経験と判断力に立ち返り、AIを補助的に使うアプローチへと転換。AI活用の過信が、思考力の低下を招く危険性を指摘しています。

AIがUIを生成する未来：会話体験の進化

2025-05-16 09:23

IT・ネット

AIとの対話において、テキストベースの限界を補うために、動的にUIコンポーネントを生成する手法が提案されています。ユーザーの意図に応じてフォームやボタン、テーブルなどのUIを即時に構築し、精度と利便性を向上させます。このアプローチにより、AIとのやり取りがより自然で効率的なものとなり、特に複雑な業務や顧客対応に大きな効果が期待されています。

LLMツール連携ループの驚異的な効果と活用例

2025-05-15 19:33

IT・ネット

AIプログラミング支援ツール「Sketch」の開発者が、LLMとツールを組み合わせたエージェントループの有用性を紹介。簡素なコードで、ユーザー入力をもとにLLMがツールを呼び出し、結果に応じて再入力を繰り返す構造。git操作や型変更、依存インストールなども自動対応可能。Bash以外の補助ツール追加で精度向上が確認され、今後は特定用途の自動化に広がる可能性が示唆されている。

PixelAgent：エンジニア向けLLMエージェント構築フレームワーク

2025-05-15 19:17

IT・ネット

PixelAgentは、LLM、ストレージ、オーケストレーションを統合したエージェント構築フレームワークで、エンジニアが独自のツール呼び出し、メモリ、推論ループなどを追加可能です。テキスト、画像、音声、映像を扱うマルチモーダル対応で、型安全なPythonコードによりエージェントを構築。ReActパターンによる段階的推論、長期記憶の永続化、ログの追跡などもサポートしており、PyPI経由で配布も可能です。

Windsurfが初のフロンティアモデルSWE-1を発表

2025-05-15 18:47

IT・ネット

Windsurfは、初の大規模言語モデル「SWE-1」のリリースを発表しました。詳細な情報は未公開ながら、同社の製品ラインやAPI提供を通じて、商用利用や研究用途を見据えた展開が示唆されています。これにより、LLM市場における新たな競争軸として注目されています。SWE-1は今後のアップデートと共に、企業や開発者に対し柔軟な言語生成能力を提供する可能性があります。

技術ドキュメントをAI向けに圧縮するllm-min.txt

2025-05-15 13:40

IT・ネット

llm-min.txtは、技術ドキュメントをLLMに最適化して圧縮するための新しいアプローチです。従来のllms.txtが巨大で扱いづらい問題に対し、llm-min.txtは重要な定義、動作、使用例のみを抽出してSKF形式で構造化します。Google Geminiを用いたAIパイプラインによって生成され、90%以上のトークン削減を実現します。この形式により、AIが最新のライブラリ情報を効率的に利用でき、コード生成の成功率が向上します。

LLMは複数ターンの会話で精度低下、研究が指摘

2025-05-15 02:28

科学・技術

最新の研究によると、大規模言語モデル（LLM）はシングルターンでの指示には強いものの、複数ターンにわたる会話では平均39%の性能低下が見られることが判明しました。これは早期の誤解や仮定に基づいた応答が蓄積され、最終的な回答の信頼性が著しく下がるためです。研究は20万件以上のシミュレーション会話を分析し、現行のLLMが会話の中で自己修正できない構造的課題を抱えていることを明らかにしています。

AIコード支援の罠：Vibe Codingの経済的インセンティブ

2025-05-14 19:29

IT・ネット

AIコード支援ツールは一見便利だが、長く使うほど依存しやすく、経済的・技術的な問題も露呈する。特にClaudeなどのLLMは冗長で過剰なコードを生成しやすく、トークン数に基づく料金体系により、簡潔な解決より長文出力が促進される「逆インセンティブ」が働く。精緻な設計や計画を促すことで、コード品質とコスト効率の両立が課題となる。

Jazzberryが自動バグ検出AIを開発：LLM時代の品質保証

2025-05-14 15:52

科学・技術

Jazzberryは、Pull Requestに対して自動でコードのバグを検出するAIエージェントを開発。リポジトリを安全なサンドボックス内で動的に解析し、実行ログをもとに実際のバグの存在を確認する。AI生成コードの急増に伴い、従来のコードレビューやカバレッジ指標だけでは対応が困難になっており、新たな検証手段として注目されている。将来的にはLLMコードの品質保証のスタンダードになり得る技術といえる。

94行のRubyで作るコード編集エージェント

2025-05-14 14:17

IT・ネット

この記事では、AIによるコード編集エージェントをわずか94行のRubyで構築する手法が紹介されています。ファイルの読み取り、一覧表示、編集など3つのツールをLLMに接続し、簡単なチャットループで実装。さらにシェルコマンドの実行機能も追加し、テストの自動実行も可能にしました。RubyとRubyLLMの親和性により、シンプルかつ拡張性の高いエージェントが完成。ソースコードはGitHub上で公開され、誰でも自由に試すことができます。

型制約付きコード生成：LLMによる型安全な出力の実現

2025-05-13 22:15

科学・技術

大規模言語モデル（LLM）はコード生成で成果を挙げてきましたが、型エラーなどによりコンパイル不能な出力も多く見られます。本研究では、型システムを利用した「型制約付きデコーディング」により、LLMが生成するコードの型安全性を担保する手法を提案しました。独自のプレフィックスオートマトンや型探索を用い、TypeScriptなど実用言語にも拡張可能な形で実装され、HumanEvalやMBPPといったベンチマークで高い効果を示しました。

LLMでリアルタイム知識グラフを構築する方法

2025-05-13 19:48

IT・ネット

CocoIndexを使い、LLMで文書からエンティティの関係や言及を抽出し、Neo4jにリアルタイム知識グラフとして構築する方法を紹介する技術記事。Markdown文書をソースとし、PostgreSQLと連携して増分処理を実現。LLMにより要約や関係抽出を行い、グラフDBに反映。記事では、PythonとCocoIndex APIを用いた実装例や、Graph構築、エンティティの分類、クエリ例が具体的に解説されている。ドキュメントから意味ある構造を構築したい開発者向け。

logitloom：トークンの生成過程を可視化するツール

2025-05-13 19:30

科学・技術

logitloomは、言語モデルが生成するトークンの選択肢を木構造として可視化するWebツールです。ユーザーは任意のプロンプトを入力し、モデルがどのように出力候補を展開するかを視覚的に追跡できます。DeepseekやHyperbolicなど複数のAPIに対応し、ログ確率の確認や枝の追加・再生成が可能。研究やLLMの挙動理解に有用なツールであり、教育やデバッグ用途にも適しています。現在は開発中でライセンス未定。

TransMLA：GQAを凌駕する新しい注意機構

2025-05-13 03:29

科学・技術

TransMLAは、既存のGroup Query Attention（GQA）ベースのモデルを、より効率的なMulti-head Latent Attention（MLA）ベースへ変換する手法を提案しています。MLAは低ランクのKey-Value行列を用いてキャッシュサイズを削減しつつ表現力を維持する新しい仕組みで、推論速度向上と通信効率化が期待されます。既存モデルの後処理による変換も可能で、今後の標準化が期待されています。

ローカルで動くプライバシー重視の音声アシスタントを構築

2025-05-12 19:32

IT・ネット

ローカル環境で動作するAI音声アシスタントの構築方法を紹介した記事。音声入力をWhisperで文字起こしし、LLaMAなどの軽量LLMで解析、ローカルAPIを呼び出す構成で、クラウドを介さずプライバシーを確保する。データセット作成、LoRAによるファインチューニング、MLOpsの考慮など実践的な開発方法が詳細に解説されている。モバイルやRaspberry Piなどへの展開も視野に入れた設計で、ローカルAIの可能性を示す好例。

AIで精神医療の運用を再構築するスタートアップ

2025-05-12 17:01

医療・健康

Legion Healthは、精神医療に特化したAIネイティブなオペレーション基盤を構築するスタートアップで、診断支援ではなく、スケジューリングや書類作成、リスク検知など運用面を対象としています。大規模言語モデル（LLM）と独自インフラを用いて、2000人以上の患者をほぼ自動でサポート。自社クリニックを持ち、リアルな現場で即時に運用されているのが特徴です。現在、創業エンジニアを募集しています。

Byte Latent Transformer：トークンの代わりにパッチで効率化を実現

2025-05-12 16:55

科学・技術

Byte Latent Transformer（BLT）は、従来のトークンベースのLLMと同等の性能を維持しつつ、推論効率と頑健性を向上させた新しいアーキテクチャ。データの予測困難度に応じて動的にパッチを形成し、複雑な情報には多くの計算資源を割く仕組み。8Bパラメータまでのスケーリング実験では、固定語彙を持たないまま、効率的な学習と推論が可能であることを示した。将来のLLMの設計指針に影響を与える成果。

INTELLECT-2：分散強化学習で訓練された32Bモデルを公開

2025-05-12 01:46

科学・技術

INTELLECT-2は、世界初の分散型強化学習で訓練された32Bパラメータの大規模言語モデルで、クラウドに依存しない非中央集権的なインフラ上で学習されました。独自のPRIME-RLフレームワークと検証システムTOPLOC、効率的な重み配信手法SHARDCASTを用い、オープンな参加者が生成したロールアウトを検証・活用することで訓練を行います。初期実験では、数学やコーディング課題への適応力が確認され、今後はツール活用やマルチターン強化学習への発展も視野に入れています。

MCPプロトコルの技術的課題と批判

2025-05-10 14:37

IT・ネット

MCP（Model Context Protocol）は、LLMが外部のデータソースやツールと接続するための標準プロトコルとして注目されているが、設計と実装面で多くの課題を抱えている。HTTPを用いたSSEやStreamable HTTPといった複雑な通信仕様により、セッション管理や拡張性、セキュリティ面での懸念が指摘されている。開発者向けドキュメントの不備や、Python/Javascript依存の環境構築の難しさも問題視されている。WebSocketの採用がより合理的であるとの意見も多く、現状の実装は業界の持続可能性に対する懸念材料とされている。

機械学習におけるオフラインとオンラインの違い

2025-05-09 17:59

科学・技術

本記事では、機械学習システムのスケーラビリティを保つために重要な、オフラインとオンラインパイプラインの明確な分離について解説しています。オフラインはデータ収集やモデル学習を、オンラインはリアルタイム推論を担います。実際のAIアプリ開発では、これらを異なるアプリとして構築・接続することが必要であり、構成の違いやデータ生成パイプラインの詳細も紹介されています。

注意機構の「なぜ」を深掘りする：LLM自作記第13回

2025-05-08 21:06

科学・技術

LLMを自作するブログシリーズの第13回では、自己注意機構の「なぜ」に焦点を当て、個々の注意ヘッドが実は単純なパターンマッチングであることを明らかにします。著者は、複数の注意層とマルチヘッド構成によって、情報が段階的に豊かになり、文脈理解が深まる仕組みを解説。また、従来の固定長ベクトルに代わり、入力トークン数に比例する柔軟な表現が得られるという利点についても述べています。

LLMアップグレードが信頼性指標を損なう理由

2025-05-06 23:22

科学・技術

LLMのアップグレードにより、モデルの出力に対する信頼度指標が失われる現象を解説した技術記事。特にGPT-4.1-miniでは出力に対するlog-probが極端に高くなり、誤出力でも高信頼で出力する傾向が顕著に。これにより、コンテンツモデレーションやポリシー違反検知における誤検出が増加。対策として、明示的なポリシー引用やフィルタリングルールが導入されている。

TLA+と生成AIの融合に挑むチャレンジが始動

2025-05-06 17:54

科学・技術

TLA+財団とNVIDIAが主催する「GenAI-accelerated TLA+ challenge」は、形式仕様記述言語TLA+と生成AIの融合を探る公開コンテストです。LLMを活用したツールやワークフローの開発が求められ、受賞者にはNVIDIAのGPUやGitHub Copilotのサブスクリプションが贈られます。仕様の可視化や自動補完、教育向けのツール開発など、多岐にわたる応用が想定されており、AI技術を形式検証に統合する先進的な取り組みです。

Exa Websets、検索体験を再定義

2025-05-06 16:18

IT・ネット

Exa Websetsは、ベクトル検索とエージェント処理を組み合わせた新しい検索エンジンで、複雑なクエリにも正確に応答可能です。従来のキーワード検索とは異なり、クエリの意味に合致する実体を返すことを目的としています。検索結果は表形式で、項目ごとに補足情報を付加できる点も特徴。Googleに代わる精密な情報取得手段として、開発者や研究者に注目されています。

自然言語で機械学習モデルを構築できるPlexe

2025-05-06 15:38

IT・ネット

Plexeは、自然言語による記述だけで機械学習モデルを自動生成できる革新的なツールです。利用者は意図や入出力スキーマをテキストで記述するだけで、AIエージェントが設計、学習、評価、デプロイまで一貫して処理します。分散学習にも対応し、OpenAIやAnthropic、Hugging Faceなど複数のLLMプロバイダと連携可能。データ生成やスキーマの自動推論も可能で、技術者以外のユーザーにも使いやすい設計となっています。

生成AIの実用性と限界：経験豊富なデータサイエンティストの視点

2025-05-05 17:22

IT・ネット

BuzzFeedのシニアデータサイエンティストである著者は、生成AIの活用に対して慎重な姿勢を示しつつも、特定の業務での有用性を認めています。プロンプトエンジニアリングを駆使し、記事の分類やスタイルガイドの適用、コードの生成などにLLMを活用しています。一方で、ブログ執筆やチャットボットとしての利用には倫理的な懸念や信頼性の問題から否定的です。LLMは適切な場面で使えば有用なツールであり、過度な期待や過小評価を避けるべきだと述べています。

Jake Gaylor氏、LLM向け自己紹介用MCPサーバーを公開

2025-05-05 01:44

IT・ネット

ソフトウェアエンジニアJake Gaylor氏は、AIアシスタント向けに自身の職歴やスキルを紹介できるMCP（Model Context Protocol）サーバーを公開しました。これにより、LLMが彼のレジュメや技術スタックを分析し、職務適性やインタビュー質問の生成、オンボーディング計画の提案まで可能になります。開発者や採用担当者がより効率的に候補者評価を行えるよう設計されており、AIとの連携による新たな人材評価の形を提示しています。

MVDRAM：改造なしのDRAMでLLM推論を加速

2025-05-04 23:35

科学・技術

MVDRAMは、汎用DRAMを改造せずに行列・ベクトル積（GeMV）演算を実行する手法であり、大規模言語モデル（LLM）の低ビット量子化推論を高速化することを目的としています。従来のPUD手法が抱える前処理・後処理のオーバーヘッドを、演算の線形性とデータ共有パターンの活用により削減。DDR4モジュールでの実験では、従来のプロセッサベース実装と比較して最大7.29倍の速度、30.5倍のエネルギー効率を達成。MVDRAMは、将来的に一般的なDRAMをAIアクセラレータとして活用する道を切り開く可能性があります。

LLM対応の高精度DOCX変換ツール「DocxConverter」

2025-05-04 22:42

IT・ネット

ContextGemが提供するDocxConverterは、Word文書（DOCX）を大規模言語モデル（LLM）向けに最適化された形式に変換する専用ツールです。標準ライブラリが見落としがちな脚注、コメント、テキストボックス、ヘッダーや画像なども正確に抽出し、文書構造を維持したまま変換できます。Pythonライブラリとして提供され、外部依存なしでXMLを直接処理する点が特長です。Markdownやraw形式での出力も可能で、LLM処理の前処理を効率化します。

BLAST：WebブラウジングAIの高速スケーリングエンジン

2025-05-02 17:42

IT・ネット

BLASTは、OpenAI互換APIを通じてWebブラウジングAIを効率よく動作させる高性能な推論エンジンです。キャッシュや並列処理によってコストを抑え、リアルタイム性を保ちながら複数ユーザーに対応可能です。ローカル環境でも軽量に動作し、Webブラウザと連携するLLMの開発や運用に適しています。pip経由で簡単に導入でき、ストリーミング機能にも対応しています。

AI実況付きポンゲーム「xPong」が公開

2025-05-02 16:49

IT・ネット

xPongは、古典的なゲーム「Pong」にLLMによるリアルタイム実況を組み合わせたプロジェクトです。OpenAIのgpt-4o-mini-ttsを活用し、プレイヤーの動きに応じた多層的な音声解説を自動生成します。トーナメントシミュレーションや過去データの参照、実況の中断と再開など高度な演出も特徴で、今後のスポーツゲームへの応用が期待されています。コードはMITライセンスで公開されています。

LLMでロケット設計を最適化する新手法

2025-04-30 22:03

科学・技術

Microsoft Researchは、LLMを用いた高出力ロケット設計の最適化手法を発表しました。シミュレーションとLLMの対話によって設計を改善するベンチマーク「RocketBench」を開発し、従来のLLMが設計の繰り返し改善に課題を抱える一方で、強化学習で訓練された7Bパラメータモデルが人間の専門家を上回る精度を実現しました。この手法は、ソフトウェア開発を超えたエンジニアリングへのLLM活用の可能性を示しています。

LLMでRustのコンパイルエラーを修正するツール「RustAssistant」

2025-04-30 21:56

科学・技術

Microsoft Researchは、Rustのコンパイルエラーを大規模言語モデル（LLM）で自動修正するツール「RustAssistant」を発表しました。Rustの所有権システムやライフタイムなどに起因する複雑なエラーにも対応し、精度は実用的な74％に達します。LLMがエラー情報と関連コードを解析し、提案した修正をRustコンパイラで検証しながら繰り返す仕組みです。また、Checked Cへの注釈付け支援も行う別ツール「MSA」も紹介され、LLMが安全な低レベルプログラミングを支援する可能性が注目されています。

Inception Labs、新型LLM「Mercury」発表

2025-04-30 21:51

IT・ネット

Inception Labsは、世界初の商用規模の拡散型言語モデル（dLLM）「Mercury」を発表しました。従来のトークン逐次生成ではなく、粗から細への並列更新で最大1000トークン/秒の高速生成を実現。誤り訂正や構造的応答に優れており、コード生成モデル「Mercury Coder」ではGPT-4o Miniなどを凌駕する精度と速度を達成しています。APIやオンプレ提供に対応し、企業導入も進んでいます。

DeepSeek-Prover-V2：数理証明に革命を

2025-04-30 16:23

科学・技術

DeepSeek-Prover-V2は、Lean 4に対応した形式的数学証明向けのオープンソースLLMで、DeepSeek-V3をベースに構築されました。複雑な定理をサブゴールに分解し、推論の連鎖を構築する冷スタートデータで訓練された後、強化学習により精度を向上。MiniF2Fテストで88.9%の通過率を達成し、PutnamBenchでも高い成果を示しました。新たに公開されたProverBenchデータセットは、数学オリンピックから大学初級レベルまで325問を収録しており、評価の基盤として機能します。形式・非形式の推論を融合させた新しいアプローチが注目を集めています。

OpenPipe ART：LLMを自己強化学習で訓練

2025-04-30 15:35

IT・ネット

OpenPipe ARTは、大規模言語モデル（LLM）のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。

MiMo-7B：推論特化型LLMの新たな挑戦

2025-04-30 08:48

IT・ネット

MiMoは、Xiaomiが開発した推論能力に特化した言語モデル（LLM）であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP（Multiple-Token Prediction）や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。

AI評価の落とし穴：リーダーボードの幻想

2025-04-30 07:58

IT・ネット

AI技術の進展を評価するための基準として広く使われているChatbot Arenaに、重大な偏りが存在することが指摘されました。特定の企業が非公開テストを繰り返し有利な結果だけを公開することで、ランキングが歪められているというのです。特にMetaは27ものLLMバリアントを事前に試験し、選別したうえで発表していたとされています。また、GoogleやOpenAIのモデルは多くのテストデータを独占しており、オープンソースモデルとの間で不平等が生じています。公平な評価を実現するための改善提案も示されています。

IBM、新型LLM『Bamba』を発表

2025-04-29 17:24

IT・ネット

IBMがCMUやプリンストン大学と協力して開発した新しい大規模言語モデル『Bamba』は、トランスフォーマーの表現力とステートスペースモデル（SSM）の高速処理性能を兼ね備えたハイブリッドモデルです。Bambaは、従来のTransformerの課題である「二乗的な計算コスト（KVキャッシュ）」を大幅に削減し、高速かつ長文処理に対応可能。Granite 4.0への導入も予定されており、Llama-3に匹敵する性能を示しています。完全オープンソースで公開され、今後さらなる発展が期待されています。

AI開発支援ツールCursorとWindsurfの比較体験記

2025-04-29 09:05

IT・ネット

開発者がAIコード支援ツールCursorとWindsurfを使った体験を共有。Cursorのパフォーマンスはプロジェクトによって大きく異なり、Windsurfに乗り換えるケースも増加。

Sim Studio: オープンソースのエージェント構築プラットフォーム

2025-04-28 16:14

科学・技術

Sim Studioは、LLMエージェントワークフローをビジュアルで簡単に構築・展開できるオープンソースプラットフォーム。クラウド利用・自前ホスティング両対応で、ローカルモデルにも対応可能。

Apple SiliconでLLMを自作サーブする入門講座

2025-04-28 11:24

科学・技術

Apple Silicon環境でMLXを用いてLLMサービングを学ぶ講座『tiny-llm』を紹介。高レベルAPIを使わず、配列・行列操作からモデルサービングインフラを構築していく。

「LLM」の記事一覧