Google DeepMind的Aletheia这个新AI模型,在今年12月举行的FirstProof数学挑战里打破了纪录。她自己解决了10道难题中的6道,这事儿比去年AI在IMO比赛里干得漂亮,说明AI在搞数学研究方面进步不小。这次比赛是为了看看AI能不能搞出真正的科研成果,题目都是大数学家们日常弄的那些东西,而且是在提交答案之前谁都没见过的,这样就保证了训练的数据不会泄露。Aletheia的解答完全是自己想出来的,没人插手,而且是在规定时间内交上去的。研究团队用了两套Aletheia,它们都是用Gemini DeepThink做基础的。专家们看了之后说这6道题的解答逻辑都挺严密的,尤其是第8题大家看法不太一样,这也说明AI解题挺复杂。跟之前那个在2025年12月用来解决Erdős问题的版本比起来,Aletheia这次的准确率高多了。不过就算是这样,这两个智能体有时候也会出现假阳性的情况,证明它们还不够可靠。研究团队说了Aletheia有自我筛选的本事,能帮着减少错误答案给人类专家带来的麻烦。现在的Aletheia在证明和验证这一块已经显示出了潜力,但还不能完全顶起大梁。以后搞数学研究可能就得是人类和AI一块儿干活了:AI去干那些高强度的路径搜索和形式化验证的活儿,人类来做理论整合和升华。数学本来是人类理性能力的最高点,现在也正慢慢被AI突破。以后AI在数学论文里能扮演什么样的角色,咱们可得盯着点看了。