google deepmind的aletheia这事儿比去年ai在imo 比赛里干得漂亮，说明ai在搞数学研究方面进步

Google DeepMind的Aletheia这个新AI模型，在今年12月举行的FirstProof数学挑战里打破了纪录。她自己解决了10道难题中的6道，这事儿比去年AI在IMO比赛里干得漂亮，说明AI在搞数学研究方面进步不小。这次比赛是为了看看AI能不能搞出真正的科研成果，题目都是大数学家们日常弄的那些东西，而且是在提交答案之前谁都没见过的，这样就保证了训练的数据不会泄露。Aletheia的解答完全是自己想出来的，没人插手，而且是在规定时间内交上去的。研究团队用了两套Aletheia，它们都是用Gemini DeepThink做基础的。专家们看了之后说这6道题的解答逻辑都挺严密的，尤其是第8题大家看法不太一样，这也说明AI解题挺复杂。跟之前那个在2025年12月用来解决Erdős问题的版本比起来，Aletheia这次的准确率高多了。不过就算是这样，这两个智能体有时候也会出现假阳性的情况，证明它们还不够可靠。研究团队说了Aletheia有自我筛选的本事，能帮着减少错误答案给人类专家带来的麻烦。现在的Aletheia在证明和验证这一块已经显示出了潜力，但还不能完全顶起大梁。以后搞数学研究可能就得是人类和AI一块儿干活了：AI去干那些高强度的路径搜索和形式化验证的活儿，人类来做理论整合和升华。数学本来是人类理性能力的最高点，现在也正慢慢被AI突破。以后AI在数学论文里能扮演什么样的角色，咱们可得盯着点看了。