卡帕西开源了一个叫autoresearch的项目,GitHub上居然在一周内获得了4.4万颗星。 这个项目代码量不多,总共只有630行, 但是它能让AI自主做研究。 这个工具让AI自己编写代码、运行实验, 并自动调整参数。 这大大提高了迭代速度,远远超过了人工调参的效率。 我在GitHub的issue区看到,有人用这个工具一晚上就能训练出一个0.8B参数的模型。这个模型的性能甚至超越了人类手动调参半个月才训练出来的1.6B参数模型。 AI的优势在于速度。它不会睡觉,也不需要喝咖啡, 可以持续不断地运行实验。 相对于人类来说,这个迭代速度至少是人工的5倍。 卡帕西自己还开玩笑说:“我写完代码去蒸桑拿了,回来实验已经跑完。” 这让我想到,他裹着毛巾进桑拿房的时候,手机震动了一下, 原来是AI在后台帮他干活了。回来一看,报告已经新鲜出炉了。 结果比预期好10%。 这个工具的核心是一个智能管家。 你只需要给它一个目标,比如优化模型稳定性,它会先分析现有的代码。 然后生成不同版本的代码, 进行benchmark测试, 挑出好的版本继续迭代。 这里面的核心思路其实很简单:像厨房里的智能烤箱一样。 你把食材扔进去, 它自己会调温、翻面、然后给你做好的食物。 不需要你守着火堆。 当然,这个迭代速度也取决于硬件配置。 单张RTX 4090可以跑小模型循环, 但是大模型就需要集群了。 成本增加后,电费一个月可能多花500块。 对比传统方式来说:人工调参就像老式自行车一样, 你得自己出力踩一步走一步。 而autoresearch就像电动车一样:AI踩油门, 你坐在后座上。 记得我以前在实验室的时候, 要花一周时间才能调试好一个BERT变体。 现在用这个工具估计两天就能尝试20种不同配置。 效率翻倍提升! 当然前提是你的目标必须明确清晰。 不过这样就会带来另一个问题:AI研究AI会不会陷入局部最优? 毕竟有时候遗传算法也有过类似的问题。 结果有时候很好,有时候也会翻车。 不确定性很高! 再说说用户场景吧:一线开发者用这个工具可以节省很多时间。 比如小李前几天吐槽说手动调参眼睛都熬红了, 用autoresearch后解放了双手。 他就可以在家办公笔记本上跑小实验了。 AI在后台运行着, 你就可以边刷剧边等待结果。 睡一觉醒来模型就已经ready了! 这个工具给Hugging Face这些平台带来了很大的压力:以前用户依赖他们预训练好的模型。 现在用户直接用autoresearch自己迭代模型了。 所以他们的用户量可能会下降30%左右! 回顾历史记录:卡帕西第一次提交日志就已经集成了AutoML的思路。 他没有用复杂的框架, 只是用纯Python写了一个循环代码来实现这个功能。 其实最容易被忽略的是它的日志输出非常直观:loss曲线实时显示在屏幕上。 不需要你手动plot! 个人感觉这个东西真的让我觉得麻烦少了很多! 以前实验室里半夜起来查GPU占用情况是常事。 现在有AI管家在线了! 自我调侃一下:我都懒得学新trick了, 让AI自己去学吧! 假如你是一名研究员的话, 手动调参的日子还得继续多久呢? Autoresearch这种工具门槛非常低:630行代码就能入门很快! 但是别忘记目标设定是关键! AI又不会读心术! 你得写清楚prompt才行! 技术原理其实很简单:它用强化学变体算法来生成不同版本代码和进行评估奖励机制也很简单就是基于性能指标! 生活中你可以把它比喻成狗狗训练一样:你给它一块骨头作为奖励它就会乖乖听话训练! 这就是它核心的工作方式! 所以我觉得以后大厂也会借鉴这个思路! 但不确定的是:谷歌DeepMind早有类似内部工具存在! 但开源这一步卡帕西领先了! 我猜想半年内fork数量会超过万次! 基于star增长曲线的估算个人觉得这个判断还是比较靠谱! 再算一下生命周期吧:这个工具能火几年呢? 技术迭代非常快AI进步也很快! 所以我觉得大概2-3年就是主流了! 然后就会被更智能的替代方案所取代了! 比如以前的SWE-agent也曾火过现在就被升级版满天飞了! 另外还有个小故事实验室小王用它优化语音模型晚上对同事说:“哥们儿我设好目标上床睡觉了”。 结果第二天早上起来准确率从85%提升到92%! 小王和同事击掌相庆还开玩笑说AI抢饭碗啦! 所以总的来说就是卡帕西推出这个项目之后GitHub下载量已经破万! 活跃用户数量大概有千把人左右! 这么直观的画面定格下来:卡帕西推门进屋屏幕亮着新模型报告跳出来loss曲线呈现完美弧度空气中弥漫着咖啡味他笑眯眯喃喃自语:“下一个目标是怎么让它研究自己吧。”