閉じる
画像が削除されました

Chatbot Arenaは公平に運営されているのか?研究が人気のAIベンチマークにおける大手テック企業優遇の偏りを指摘 – XenoSpectrum

学術研究から誕生したプラットフォームであるChatbot Arenaは、競争の激しいAI業界において急速に主要なベンチマークとなった。ユーザーの好みによるクラウドソーシングで構成される「Chatbot...
画像が削除されました

AIの性能評価操作をめぐる議論が相次ぎ、有利な基準だけを公開···現実性不足の指摘も「統一された基準は事実上難しい」 – 매일경제

最近、生成型人工知能(AI)モデルの性能を計る指標である「ベンチマーク」を巡る論難が激しくなっている。 メタ、xAI主要AI企業が相次いでベンチマーク操作疑惑に巻き込まれ、評価基準の公正性を巡る論争が...
画像が削除されました

Anthropicが発表した最新AIの「Claude 3.7 Sonnet」は『ポケットモンスター 赤』のクチバジムまで攻略可能!ゲームを使ったベンチマークでAIの進化示す – goo.ne.jp

Anthropicは、新しいAIモデル「Claude3.7Sonnet」を発表し、『ポケットモンスター赤』を用いたテストでベンチマークテストにてマチスのクチバジムまでクリアできたことを報...