我放弃了云模型那种“秒回”的爽快感，换来的是隐私、自主权还有无限免费的token。

我家里有个小帮手，现在已经从以前的云AI搬到本地跑了。主要就是想省点钱，还能把自己的数据保护好。这玩意儿平时给我发个日报、管管购物清单啥的，挺好用的。我给服务器升级了一下，再把模型搞成MoE这种类型，硬是让它在本地的机器上跑起来了。虽然反应没以前那么快，但隐私保住了，还能无限免费用，这就挺好。这个故事大概是两年前的事儿了，我开发了个小机器人，主要是为了帮家里协调各种生活琐事。比如每天早上看个简报，规划规划一天的事儿；买东西的时候列个清单；设个闹钟提醒一下；还有看看天气，特别是我家太阳能板子的辐射情况。它通过Telegram就能用，不用专门装什么软件，方便得很。这两年我用了不少云端的AI模型（像ChatGPT、Claude还有Gemini），效果还不错。因为事儿不算太复杂，花的token也就2300多个。我换模型最主要的原因就是想找便宜的。这助手越用越顺手，成本自然就上去了。有些月账单能超过12欧元。主要就是因为它自己会干活，不等人来叫。虽说这是个优点，但确实费token。12欧元单说也不算多，但如果还要给别的AI订阅交钱，这笔开销我就不想留了。更要命的是，我想给它加新功能的时候总会犹豫，老得算着账单会不会暴涨。现在有DeepSeek、Qwen还有GLM这些便宜的模型，OpenRouter的价格也挺有竞争力的。可我还是不想把自己的家庭数据发往未知的服务器。我一直想让它真正变成“本地AI大脑”。现在这个机器人的代码都跑在Hetzner的服务器上，我别的项目也都在那儿放着呢。那是个标准的配置：4个vCPU和8GB内存。我用了好多开源的小模型测试了好几轮，想找个响应质量和速度之间的平衡点。最后实在忍不住，又花了几欧元把服务器稍微升级到了8个vCPU和16GB内存。这样我就能用更大的模型了。虽说没有GPU跑大模型听起来挺怪的（因为CPU本来就慢），但MoE这种专家混合模型的本事就在这儿。它虽然更占内存，但算得快多了。GPT-OSS-20B这个模型特别好用。我把它量化成Q4格式后，大概占12GB内存，给系统和别的程序留了4GB空间，够用了。为了让它跑得更快点，我得在硬件有限的情况下想办法优化。很快我就发现提示词和消息记录的处理方式不够聪明（没针对KV缓存优化）。用那些云端大模型的时候这些问题都看不出来。折腾了好几次之后总算弄出个“过得去”的解法。提示词还是2300多个token没变，处理速度却快多了。平均每秒能生成22个token。虽然不算特别快，但考虑到硬件条件和需求，我觉得这就不错了。我放弃了云模型那种“秒回”的爽快感，换来的是隐私、自主权还有无限免费的token。这下我可以放开手脚扩展功能了，再也不用天天盯着账单发愁了。这事儿还没完呢。我现在正把每一次对话都存到文件里记录下来。等攒够两个月左右的数据稍微清理一下，我就拿它来训练一个更小的模型。说不定到时候能把服务器的配置降下来，同时速度还能再快点！