我放弃了云模型那种“秒回”的爽快感,换来的是隐私、自主权还有无限免费的token。

我家里有个小帮手,现在已经从以前的云AI搬到本地跑了。主要就是想省点钱,还能把自己的数据保护好。这玩意儿平时给我发个日报、管管购物清单啥的,挺好用的。我给服务器升级了一下,再把模型搞成MoE这种类型,硬是让它在本地的机器上跑起来了。虽然反应没以前那么快,但隐私保住了,还能无限免费用,这就挺好。这个故事大概是两年前的事儿了,我开发了个小机器人,主要是为了帮家里协调各种生活琐事。比如每天早上看个简报,规划规划一天的事儿;买东西的时候列个清单;设个闹钟提醒一下;还有看看天气,特别是我家太阳能板子的辐射情况。它通过Telegram就能用,不用专门装什么软件,方便得很。这两年我用了不少云端的AI模型(像ChatGPT、Claude还有Gemini),效果还不错。因为事儿不算太复杂,花的token也就2300多个。我换模型最主要的原因就是想找便宜的。这助手越用越顺手,成本自然就上去了。有些月账单能超过12欧元。主要就是因为它自己会干活,不等人来叫。虽说这是个优点,但确实费token。12欧元单说也不算多,但如果还要给别的AI订阅交钱,这笔开销我就不想留了。更要命的是,我想给它加新功能的时候总会犹豫,老得算着账单会不会暴涨。现在有DeepSeek、Qwen还有GLM这些便宜的模型,OpenRouter的价格也挺有竞争力的。可我还是不想把自己的家庭数据发往未知的服务器。我一直想让它真正变成“本地AI大脑”。 现在这个机器人的代码都跑在Hetzner的服务器上,我别的项目也都在那儿放着呢。那是个标准的配置:4个vCPU和8GB内存。我用了好多开源的小模型测试了好几轮,想找个响应质量和速度之间的平衡点。最后实在忍不住,又花了几欧元把服务器稍微升级到了8个vCPU和16GB内存。这样我就能用更大的模型了。虽说没有GPU跑大模型听起来挺怪的(因为CPU本来就慢),但MoE这种专家混合模型的本事就在这儿。它虽然更占内存,但算得快多了。GPT-OSS-20B这个模型特别好用。我把它量化成Q4格式后,大概占12GB内存,给系统和别的程序留了4GB空间,够用了。 为了让它跑得更快点,我得在硬件有限的情况下想办法优化。很快我就发现提示词和消息记录的处理方式不够聪明(没针对KV缓存优化)。用那些云端大模型的时候这些问题都看不出来。折腾了好几次之后总算弄出个“过得去”的解法。提示词还是2300多个token没变,处理速度却快多了。平均每秒能生成22个token。虽然不算特别快,但考虑到硬件条件和需求,我觉得这就不错了。 我放弃了云模型那种“秒回”的爽快感,换来的是隐私、自主权还有无限免费的token。这下我可以放开手脚扩展功能了,再也不用天天盯着账单发愁了。 这事儿还没完呢。我现在正把每一次对话都存到文件里记录下来。等攒够两个月左右的数据稍微清理一下,我就拿它来训练一个更小的模型。说不定到时候能把服务器的配置降下来,同时速度还能再快点!