「画像認識」の記事一覧
-
Ollamaがマルチモーダル対応エンジンを公開、視覚と言語の統合強化
2025-05-16 01:43
IT・ネットOllamaは、新たなマルチモーダルエンジンを導入し、視覚と言語を統合的に扱う最新モデルへの対応を強化しました。GemmaやLlama 4など主要モデルに対応し、画像認識、文脈理解、ツール呼び出し、長文コンテキスト処理などの高度な機能を実装。モデルのモジュール性やキャッシュ処理、精度向上を意識した設計で、ローカル実行の安定性と将来の拡張性を両立しています。
-
Appleが高速ビジョンエンコーダ「FastVLM」を公開
2025-05-13 01:16
科学・技術Appleは、CVPR 2025で発表予定の論文「FastVLM」の公式実装をGitHubで公開しました。この技術は、高解像度画像の処理時間を大幅に短縮する新型ハイブリッドビジョンエンコーダ「FastViTHD」を用いています。小型モデルでも従来のLLMより最大85倍高速なトークン生成を実現し、大型モデルでは他社の競合を凌駕する性能を示しました。iOSアプリでの実演やApple Silicon対応も提供され、実用性に優れています。
Page 1 / 1