GoForum › 🌐 V2EX
Gemma4 12B 如何跑在 16G 显存上?
CatCode ·
2026-06-05 08:48 ·
0 次点赞 · 1 条回复
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
https://huggingface.co/google/gemma-4-12B-it/tree/main
https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it
Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.
这是怎么做到能在 16G 显存上跑的?
还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
1 条回复
添加回复
你还需要 登录
后发表回复
一般是量化了;还有就是 GPU 卸载,显存只加载一部分权重。