GoForum🌐 V2EX

各位推荐一个 32G Macbook air M5 可以跑的 moe 模型

Hermitist · 2026-04-26 08:20 · 0 次点赞 · 8 条回复

27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s.

准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.

8 条回复
putaosi · 2026-04-26 08:25
#1

能用的太慢,快得太蠢

cskeleton · 2026-04-26 09:00
#2

我是 M1Pro 32G ,实际测下来主要还是内存都不太够。 moe 测下来 gemma4-26b 也就差不多了,qwen3.6-35b 内存就很极限了,上下文拉不大,还不能开多了东西。 dense 模型我跑不动,速度太慢了。

geekvcn · 2026-04-26 09:20
#3

本地模型没啥用,跑的起的太蠢,不蠢的本地跑成本更高。等 AI 模型相对成熟后 AI ASIC 普及吧

fbu11 · 2026-04-26 09:50
#4

不是降智,是 32G 也不太够,本地模型要带起来内存还得上,能带起来的,要么很拉,要么很慢

ETiV · 2026-04-26 10:00
#5

air:你饶了我吧

没风扇,咋跑

zhuoi · 2026-04-26 10:25
#6

32G 跑起来的模型太拉了

cwcc · 2026-04-26 10:40
#7

https://github.com/ggml-org/llama.cpp/discussions/4167

Mac 跑大模型天梯图。

目前我自己用下来兼顾速度和效果的感觉也就最新的 qwen3.6-35b-a3b 了,需要微调一下模型的参数。

ntdll · 2026-04-26 11:00
#8

本地能跑起来的,只有弱智,你看不上。 不弱智的,本地根本跑不起来。

本地能跑起来的模型,只有一些方向特化的,比如某些模型,只能做分类,只能做某种识别,这种特化过的模型,本地才有可能跑起来,且有意义。

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: Hermitist
发布: 2026-04-26
点赞: 0
回复: 0