GoForum › 🌐 V2EX

glm-5.1, kimi-k2.6 在 code arena React 项目上排名 5 和 6，是不是真的好用？

malagebidi · 2026-05-02 07:40 · 0 次点赞 · 6 条回复

https://i.v2ex.co/7ksTRf68.png

真的假的？

6 条回复

ebushicao · 2026-05-02 09:35

少看排名，自己试试就知道了。opencode go 首月也就 5 刀，可以用 glm-5.1 和 kimi-k2.6 。

yokisama · 2026-05-02 09:55

好用，自己试试就知道了，GLM 就是 timeout 搞人心态

sillydaddy · 2026-05-02 10:25

Elo 评分还是比较可靠的：Elo 基本是所有赛事都常用的评分机制：围棋、游戏、赛车等等。这个分数，表明了 2 个对手比赛时的胜率。

Elo 胜率公式：胜率 = 1 / (1 + 10^(分差/400))

Elo 相差 10 分胜率 51.4% vs 胜率 48.6%，优势比较均衡，运气因素更大 Elo 相差 50 分 57.1% 42.9% 有不小的优势，五六次对局就能看出来 Elo 相差 100 分 64.0% 36.0% 明显优势，约 2:1 的胜率 Elo 相差 200 分 76.0% 24.0% 显著优势，约 3:1 的胜率 Elo 相差 400 分 90.9% 9.1% 碾压性优势，约 10:1 的胜率 Elo 相差 1000 分 99.0% 1.0% 几乎不可能输，约 100:1 的胜率

领先 50 分是什么概念呢？有 10 个问题，都给到 2 个模型，你会采用 A 模型的答案 6 次，B 模型 4 次。如果 2 个模型都很优异，这种采用率的差距比较明显了。但反过来想，如果与 Opus 4.7 thinking 比赛时，GLM 5.1 能在 10 次里面让用户采纳它的答案 4 次，那它的实力也不容小觑。

一个关键点就是，在比赛时，用户向 2 个模型提出的问题是什么，如果是写斐波那契数列程序，那甚至 qwen 都能战胜 opus ，毕竟这么简单的问题，所有的模型都能答的很好，用户只有选择「同样好」，这就会拉近 2 者的分数，如果都是用这样的问题 PK ，那么 Elo 分差就是 0 。

所以，要看 Arena 里面的 13 万次 votes ，用户都是问的什么问题，这是最关键的。如果 13 万次 votes 问的都是中等难度的问题，在中等问题难度 PK 中，都能让分差拉开 50 分，那么在高难度问题中，分差只会更大。

sillydaddy · 2026-05-02 10:30

换句话说，如果你自己平时用的时候，问的问题的难度分布（比如 1 个超级简单的，10 个中等难度的，3 个架构设计的），与 Arena 用户在对答案投票时，问的问题难度分布（比如 2 个超级简单的，18 个中等难度的，5 个架构设计的）类似，那这个分数就很适用，分差完美反映了 2 者的实力差距。

xiaomushen · 2026-05-02 10:30

你为啥不自己用用呢？就这么难么？

sillydaddy · 2026-05-02 10:36

所以，Elo 用在围棋比赛、赛车比赛时，就是绝对实力的差距。因为 1 场比赛，赢就是赢输就是输，不分情况。但用在编程上时，因为是先给定题目，再 PK ，那题目的选择就是比赛的关键变量，出简单题目 PK 与出难题 PK ，结果会不一样，导致分数计算也不一样。

Arena 的 PK 是类似于众包，所以，没办法控制用户向大模型提的问题是什么，难度分布是怎样的。同样 2 个模型，比如 GLM5.1 和 Opus4.7 ，都出简单题目 PK 得到的 2 者分差，肯定比都出难题 PK 时，得到的分差小。

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: malagebidi

发布: 2026-05-02

点赞: 0

回复: 0