为什么训练鸟类声音的模型也能识别鲸鱼的叫声？

Google DeepMind团队这次推出的Perch 2.0音频模型，确实让人眼前一亮。刚开始，这个模型是用大量鸟类和其他陆地动物的录音训练出来的，原本主要是用来分辨鸟儿的啁啾声、颤音和啭鸣的。结果研究人员发现，它竟然对水下的鲸鱼声音也有奇效。比如鲸鱼发出的轰鸣声、"生物弹奏声"和哨声，都能被它准确分类。劳伦·哈雷尔（Lauren Harrell）是Google Research的数据科学家，她提到一个挺有意思的观点：如果Perch 2.0在分析鲸鱼声音时表现出色，那我们完全可以把它当基础模型直接用，不用重新从零开始构建一个新的鲸鱼模型了。这其实是一种迁移学习技术，就是让模型把从一个任务中学到的东西应用到另一个相关但不同的任务上。哈雷尔解释说，这种做法能省下不少计算时间和实验精力，只需要在最后再建一个小分类器就行。研究团队在几个含有鲸鱼声音的海洋数据集上测试了Perch 2.0的表现。他们先把每个五秒的音频窗转换成频谱图，再把这些图像输入到模型里，让它产生一组特征向量。接下来，研究人员随机选了一些特征向量（最少4个，最多32个）去训练一个逻辑回归分类器。去年12月在NeurIPS会议上展示的论文结果显示，这种方法很管用。哪怕只用了很少量的特征向量，模型也能分类得很准；而且随着特征向量数量增加，性能还会变得更好。为了验证这个模型的威力，他们还把Perch 2.0跟其他模型做了对比。结果发现它表现最好或者是第二好的那个。哈雷尔和她的同事们总结了三个原因来解释这个现象：第一是进化相似性，认为鸟类和海洋哺乳动物的发声机制可能有相似之处；第二是规模效应，说明在大量数据上训练的大模型往往在新任务中表现也不错；第三就是因为鸟类发声分类本身就比较难，这迫使模型必须学会捕捉细粒度的声学特征，而这些特征正好也能帮它处理水下的情况。举个具体的例子，虎鲸的哨声跟很多鸟类的叫声在频谱图上的位置很接近；而且陆地上还有很多动物也会发出低频叫声，所以Perch 2.0实际上对各种动态变化都很敏感。这就解释了为什么它在分析水下噪音时也很给力。 "我们其实是在教这个模型去发现声音景观里那些细微的特征。"哈雷尔说，"如果这些特征在某种程度上跟水下环境里的声音也相似的话，它就能帮我们找出动物发声中的那些微妙细节。" 最后看一下FAQ部分的几个问题：Perch 2.0到底是什么？它的特殊能力是什么？答案很明确：这是Google DeepMind开发的AI音频模型，最初是用数百万只鸟和陆地动物的录音训练出来的；它不仅能识别鸟鸣，还能准确分辨出鲸鱼的叫声。为什么训练鸟类声音的模型也能识别鲸鱼叫声？有三个原因：进化相似性、大型模型的规模效应、以及复杂的鸟类发声训练了模型捕捉细粒度声学特征的能力。迁移学习在这里起到了什么作用？答案就是把从鸟类声音分类中学到的知识迁移到鲸鱼声音分类上来，这样就不用重新训练新模型了，大大节省了资源。