glm-5.1, kimi-k2.6 在 code arena React 项目上排名 5 和 6,是不是真的好用?
Elo 评分还是比较可靠的:Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。 这个分数,表明了 2 个对手比赛时的胜率。
Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))
Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,优势比较均衡,运气因素更大 Elo 相差 50 分 57.1% 42.9% 有不小的优势,五六次对局就能看出来 Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率 Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率 Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率 Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率
领先 50 分是什么概念呢?有 10 个问题,都给到 2 个模型,你会采用 A 模型的答案 6 次,B 模型 4 次。如果 2 个模型都很优异,这种采用率的差距比较明显了。但反过来想,如果与 Opus 4.7 thinking 比赛时,GLM 5.1 能在 10 次里面让用户采纳它的答案 4 次,那它的实力也不容小觑。
一个关键点就是,在比赛时,用户向 2 个模型提出的问题是什么,如果是写斐波那契数列程序,那甚至 qwen 都能战胜 opus ,毕竟这么简单的问题,所有的模型都能答的很好,用户只有选择「同样好」,这就会拉近 2 者的分数,如果都是用这样的问题 PK ,那么 Elo 分差就是 0 。
所以,要看 Arena 里面的 13 万次 votes ,用户都是问的什么问题,这是最关键的。如果 13 万次 votes 问的都是中等难度的问题,在中等问题难度 PK 中,都能让分差拉开 50 分,那么在高难度问题中,分差只会更大。
换句话说,如果你自己平时用的时候,问的问题的难度分布(比如 1 个超级简单的,10 个中等难度的,3 个架构设计的),与 Arena 用户在对答案投票时,问的问题难度分布(比如 2 个超级简单的,18 个中等难度的,5 个架构设计的)类似,那这个分数就很适用,分差完美反映了 2 者的实力差距。
你为啥不自己用用呢?就这么难么?
所以,Elo 用在围棋比赛、赛车比赛时,就是绝对实力的差距。因为 1 场比赛,赢就是赢输就是输,不分情况。但用在编程上时,因为是先给定题目,再 PK ,那题目的选择就是比赛的关键变量,出简单题目 PK 与出难题 PK ,结果会不一样,导致分数计算也不一样。
Arena 的 PK 是类似于众包,所以,没办法控制用户向大模型提的问题是什么,难度分布是怎样的。同样 2 个模型,比如 GLM5.1 和 Opus4.7 ,都出简单题目 PK 得到的 2 者分差,肯定比都出难题 PK 时,得到的分差小。
少看排名,自己试试就知道了。opencode go 首月也就 5 刀,可以用 glm-5.1 和 kimi-k2.6 。