Skip to content

16GB Mac Mini 跑 AI:内存优化终极指南(2026 实测)

每一 MB 都要精打细算。本文记录了在 16GB Mac Mini 上跑 Qwen3.5:9B 的所有内存优化手段。

为什么写这篇?

Mac Mini M4 丐版 16GB 统一内存 是很多个人开发者的选择——便宜(~4500 元)、省电、安静。

但 16GB 跑 LLM 确实紧张。本文是我踩坑 2 个月后总结的完整优化方案,按效果从大到小排列。

内存去哪了?

先搞清楚 macOS 的内存分配:

16GB 总内存
├── macOS 系统      ~4-5GB(固定开销)
├── 窗口服务器       ~1GB
├── Chrome(10个标签) ~3-4GB ← 最大杀手!
├── VS Code / IDE   ~1-2GB
├── Ollama + 模型    ~8.6GB(Qwen3.5:9B)
└── 其他进程         ~1-2GB
                    ──────────
                    明显超了 😅

结论:不优化的话,16GB 跑模型 + 日常使用会频繁 swap。

优化手段(按效果排序)

第 1 名:关掉 Chrome(节省 3-4GB)

这是最有效、最简单的一招。

Chrome 的内存占用是恐怖的:

  • 10 个标签页 = 3-4GB
  • 20 个标签页 = 6-8GB
  • 开一个月不关 = 10GB+

替代方案:

  • 浏览用 Safari(Apple 原生,内存效率高 3-5 倍)
  • 开发用 VS Code(够轻量)
  • 必须用 Chrome 时,限制标签数 ≤ 5

第 2 名:用 Q4_K_M 量化版本(节省 30%)

Ollama 默认拉取的是 Q4_K_M 量化,已经比较省内存。但你可以进一步控制:

bash
# 查看当前模型的量化级别
ollama show qwen3.5:9b | grep -i quant

# 如果想用更激进的量化(牺牲一点精度换内存)
# 可以尝试 IQ3_M 或 Q3_K_L
# 但一般不建议,Q4 是甜点

第 3 名:限制上下文长度(节省 1-3GB)

KV Cache 是内存大户。上下文越长,KV Cache 越大:

上下文长度KV Cache 大小
4K tokens~0.5GB
16K tokens~2GB
32K tokens~4GB
128K tokens~12GB ❌

建议:

  • 日常对话:4K-8K 够用
  • 长文档分析:16K-32K
  • 不要无脑开最大值

在 OpenClaw 配置中:

json
{
  "maxTokens": 4096,
  "contextWindow": 8192
}

第 4 名:关闭不必要的启动项

bash
# 查看开机启动项
launchctl list | grep -v "com.apple"

# 关闭不需要的(比如 OneDrive、Dropbox、各种菜单栏工具)
# 系统设置 → 通用 → 登录项 → 移除不需要的

每个后台应用 = 200MB-1GB 的潜在节省。

第 5 名:定期清理 Ollama 缓存

bash
# 查看 Ollama 占用的磁盘和内存
du -sh ~/.ollama/

# 清理未使用的模型 blob
rm -rf ~/.ollama/models/blob-v1/*

# 只保留当前使用的模型
ollama list  # 确认要保留的
# 然后清理其他

第 6 名:调整 macOS 虚内存设置

macOS 默认使用压缩内存(Compressed Memory)+ swap:

bash
# 查看当前内存压力
memory_pressure

# 查看 swap 使用
sysctl vm.swapusage

不建议关闭 swap,但可以限制 swap 文件大小:

bash
# 创建固定大小的 swap(而不是自动增长)
sudo swapfile=/private/var/vm/swapfile
sudo swap -a $swapfile 2G  # 限制为 2GB

这样系统不会无限膨胀 swap。

第 7 名:用 Activity Monitor 监控

养成习惯,随时查看内存使用:

  1. 打开 Activity Monitor(活动监视器)
  2. 切到 Memory 标签
  3. Memory 列排序
  4. 关注 Memory Pressure 图表(绿色=好,黄色=紧,红色=危险)

我的最终配置

经过 2 个月调优,我的 Mac Mini M4 16GB 稳定运行配置

常驻应用:
├── Terminal / iTerm        ~50MB
├── VS Code                ~300MB
├── Safari(≤5标签)       ~500MB
├── Ollama + Qwen3.5:9B    ~8.6GB
├── OpenClaw               ~200MB
└── 系统                  ~5GB
                        ──────
                        ~14.6GB ✅ 还有余量

关键规则:

  1. 不开 Chrome(用 Safari 替代)
  2. 不同时跑多个大模型
  3. VS Code 只开一个项目
  4. 长任务分步执行

性能对比数据

场景未优化优化后提升
首字延迟(TTFT)3-5秒1-2秒60%↑
生成速度8 t/s15 t/s87%↑
swap 使用2-4GB<100MB95%↓
系统卡顿频率每天3-5次几乎没有≈0
连续运行稳定性2-3小时崩溃24h+ 稳定10x↑

关于 TurboQuant 的期待

Google 2026 年发布的 TurboQuant 能将 KV Cache 压缩 6 倍:

  • 当前:32K 上下文 ≈ 4GB KV Cache
  • TurboQuant 后:32K 上下文 ≈ 0.7GB KV Cache

这意味着 16GB Mac Mini 将能流畅运行更长上下文的场景。

目前 Ollama 还没集成 TurboQuant,但社区已经在讨论 PR。一旦支持,我会第一时间测试并分享结果。

总结

16GB Mac Mini 跑 AI 不是"能不能"的问题,而是"怎么优化"的问题:

  1. 关掉 Chrome = 立竿见影
  2. 控制上下文 = 最容易被忽视
  3. 监控内存 = 养成好习惯
  4. 接受现实 = 16GB 有极限,别强求

🦞 下一篇:《海外服务器自动化爬虫搭建》—— 用腾讯云雅加达节点采集全球 AI 热点。