AIの進化は本物なのか? ベンチマークテストの信頼性に揺らぎ – TABI LABO 2025年3月6日2025年3月6日ai AIの進化は本物なのか? 近年のベンチマークテストの信頼性が揺らぎ、AIモデルが本当に成長しているのか疑問視されている。テスト汚染の問題や新たな評価方法の必要性