「マルチモーダル」の記事一覧
-
Google AI Studioが開発体験を刷新、Gemini 2.5を統合
2025-05-21 17:53
IT・ネットGoogleは、最新のGemini 2.5モデルを統合したGoogle AI Studioのアップデートを発表しました。新しいBuildタブでは、テキストや画像、動画プロンプトからAIアプリを生成・展開できるようになり、コードの編集や過去バージョンへのロールバックも可能です。さらに、生成アプリはCloud Runへワンクリックでデプロイ可能となり、メディア生成や音声対話機能も強化。開発者が迅速にAIアプリを構築・共有できる環境が整備されています。
-
PixelAgent:エンジニア向けLLMエージェント構築フレームワーク
2025-05-15 19:17
IT・ネットPixelAgentは、LLM、ストレージ、オーケストレーションを統合したエージェント構築フレームワークで、エンジニアが独自のツール呼び出し、メモリ、推論ループなどを追加可能です。テキスト、画像、音声、映像を扱うマルチモーダル対応で、型安全なPythonコードによりエージェントを構築。ReActパターンによる段階的推論、長期記憶の永続化、ログの追跡などもサポートしており、PyPI経由で配布も可能です。
-
llama.cppのマルチモーダル対応文書公開
2025-05-10 03:39
IT・ネットllama.cppのドキュメント「multimodal.md」は、マルチモーダル処理への対応についての技術情報を簡潔にまとめた資料です。具体的な機能や使用方法の詳細は含まれていないものの、今後のアップデートや発展に関するフィードバックを歓迎する姿勢が表明されています。ユーザーとの対話を大切にし、オープンな開発を志向するプロジェクトのスタンスがうかがえます。
Page 1 / 1