AI性能評価の業界標準に疑義 – 日経クロステック 2025年6月11日2025年7月19日ai 大規模言語モデル(LLM)の性能評価における事実上の業界標準システム「Chatbot Arena」。このランキングシステムに重大な問題があるとカナダのコーヒアなどが発表し、反響を呼んだ。この研究論文「...