AI評価の落とし穴:リーダーボードの幻想
🕒
🔗
元記事を見る
カテゴリ
IT・ネットAI技術の進展を評価するための基準として広く使われているChatbot Arenaに、重大な偏りが存在することが指摘されました。特定の企業が非公開テストを繰り返し有利な結果だけを公開することで、ランキングが歪められているというのです。特にMetaは27ものLLMバリアントを事前に試験し、選別したうえで発表していたとされています。また、GoogleやOpenAIのモデルは多くのテストデータを独占しており、オープンソースモデルとの間で不平等が生じています。公平な評価を実現するための改善提案も示されています。