Chatbot Arenaは公平に運営されているのか?研究が人気のAIベンチマークにおける大手テック企業優遇の偏りを指摘 – XenoSpectrum 2025年5月2日2025年7月18日ai 学術研究から誕生したプラットフォームであるChatbot Arenaは、競争の激しいAI業界において急速に主要なベンチマークとなった。ユーザーの好みによるクラウドソーシングで構成される「Chatbot...
法廷ゲーム『逆転裁判』でAIを尋問せよ——UCサンディエゴ校「Hao AI Lab」が最新LLMを使った“実戦型”推論ベンチマークを公開 – Ledge.ai 2025年4月27日2025年7月18日ai AI・人工知能関連のニュースやトレンドを高頻度で配信!最新ニュースやインタビュー、イベントレポートなどAIに関するさまざまな情報を独自の切り口で掲載
AIの性能評価操作をめぐる議論が相次ぎ、有利な基準だけを公開···現実性不足の指摘も「統一された基準は事実上難しい」 – 매일경제 2025年4月13日2025年7月18日ai 最近、生成型人工知能(AI)モデルの性能を計る指標である「ベンチマーク」を巡る論難が激しくなっている。 メタ、xAI主要AI企業が相次いでベンチマーク操作疑惑に巻き込まれ、評価基準の公正性を巡る論争が...
生成AIの「Claude3.7」にポケモン赤をプレイさせたところ、マチスにまで勝利できるように。海外では「ポケモンどこまでクリアできるか」がベンチマークになっているらしい – Togetter 2025年2月26日2025年7月16日ai すごいんだけどどうやって使えばいいのかわからないー!
Anthropicが発表した最新AIの「Claude 3.7 Sonnet」は『ポケットモンスター 赤』のクチバジムまで攻略可能!ゲームを使ったベンチマークでAIの進化示す – インサイド 2025年2月25日2025年7月16日ai 新モデルの「Claude 3.7 Sonnet」は30,000回以上の操作を実行して3人のジムリーダーに勝利しました。
Anthropicが発表した最新AIの「Claude 3.7 Sonnet」は『ポケットモンスター 赤』のクチバジムまで攻略可能!ゲームを使ったベンチマークでAIの進化示す – Game*Spark 2025年2月25日2025年7月16日ai 新モデルの「Claude 3.7 Sonnet」は30,000回以上の操作を実行して3人のジムリーダーに勝利しました。
Anthropicが発表した最新AIの「Claude 3.7 Sonnet」は『ポケットモンスター 赤』のクチバジムまで攻略可能!ゲームを使ったベンチマークでAIの進化示す – goo.ne.jp 2025年2月25日2025年7月16日ai Anthropicは、新しいAIモデル「Claude3.7Sonnet」を発表し、『ポケットモンスター赤』を用いたテストでベンチマークテストにてマチスのクチバジムまでクリアできたことを報...