ニュースボイス

2025-05-21 17:53

IT・ネット

Googleは、最新のGemini 2.5モデルを統合したGoogle AI Studioのアップデートを発表しました。新しいBuildタブでは、テキストや画像、動画プロンプトからAIアプリを生成・展開できるようになり、コードの編集や過去バージョンへのロールバックも可能です。さらに、生成アプリはCloud Runへワンクリックでデプロイ可能となり、メディア生成や音声対話機能も強化。開発者が迅速にAIアプリを構築・共有できる環境が整備されています。

PixelAgent：エンジニア向けLLMエージェント構築フレームワーク

2025-05-15 19:17

IT・ネット

PixelAgentは、LLM、ストレージ、オーケストレーションを統合したエージェント構築フレームワークで、エンジニアが独自のツール呼び出し、メモリ、推論ループなどを追加可能です。テキスト、画像、音声、映像を扱うマルチモーダル対応で、型安全なPythonコードによりエージェントを構築。ReActパターンによる段階的推論、長期記憶の永続化、ログの追跡などもサポートしており、PyPI経由で配布も可能です。

llama.cppのマルチモーダル対応文書公開

2025-05-10 03:39

IT・ネット

llama.cppのドキュメント「multimodal.md」は、マルチモーダル処理への対応についての技術情報を簡潔にまとめた資料です。具体的な機能や使用方法の詳細は含まれていないものの、今後のアップデートや発展に関するフィードバックを歓迎する姿勢が表明されています。ユーザーとの対話を大切にし、オープンな開発を志向するプロジェクトのスタンスがうかがえます。

「マルチモーダル」の記事一覧