「AI評価」の記事一覧
-
LLMの判定はなぜ信頼できないのか
2025-05-23 17:20
科学・技術大規模言語モデル(LLM)は、人事選考や法判断などの領域で活用が進む一方、その判断には大きなバイアスや不安定性が存在します。選択肢の順序、評価基準の並び、プロンプトの書き方一つで結論が変わる現象が多くの実験で確認されています。ラベリングやスコアリングの設計、モデルの使い分けなどを工夫しない限り、LLMに頼った判断は恣意性を帯び、社会的に重大な誤判につながる可能性があります。
-
AI評価の落とし穴:リーダーボードの幻想
2025-04-30 07:58
IT・ネットAI技術の進展を評価するための基準として広く使われているChatbot Arenaに、重大な偏りが存在することが指摘されました。特定の企業が非公開テストを繰り返し有利な結果だけを公開することで、ランキングが歪められているというのです。特にMetaは27ものLLMバリアントを事前に試験し、選別したうえで発表していたとされています。また、GoogleやOpenAIのモデルは多くのテストデータを独占しており、オープンソースモデルとの間で不平等が生じています。公平な評価を実現するための改善提案も示されています。
Page 1 / 1