德黑兰大学突破波斯语音频理解瓶颈，推出首个多维评测基准引领低资源语言研究新方向

问题——主流语音理解技术往往“通用场景强、文化语境弱”，波斯语等语言因此面临被低估的技术落差。研究团队指出，当前音频理解模型英语等高资源语言上进展明显，但进入波斯语语境后，常在韵律信息捕捉、语义与语用识别、跨语言切换处理等出现不稳定表现。更关键的是，现有评测基准多以西方语料与应用场景为核心，难以覆盖波斯语在教育、文化传承和日常沟通中的真实需求，导致“分数高未必好用”。原因——语言结构、文化载体与真实语言生态叠加，使波斯语音频理解面临多重挑战。一是书写系统与口语信息存在不对称。波斯语书写通常不标注短元音，文本难以还原完整发音细节。对依赖抑扬顿挫与节奏组织的古典诗歌传统而言，韵律需要通过朗诵才能完整呈现，仅靠文本标注难以评估模型对“节奏与格律”的理解。二是文化音乐体系差异带来听觉认知门槛。波斯传统音乐采用独特的调式系统，与西方音乐理论存在结构性差异。现有模型训练数据多来自西方音乐或通用语音场景，缺少涉及的调式特征的样本与标注体系，容易在旋律、重音、语调变化等上出现误判。三是现实交流中语码转换普遍。研究指出，在城市生活、科技讨论和学术交流等场景，波斯语对话夹杂英语词汇已较常见。语码转换不仅是词汇替换，还伴随语境与语用意图变化，对模型的语言边界识别、实体抽取与意图判断提出更高要求。影响——评测缺口会放大技术偏差，进而影响语言公平与数字化服务质量。业内人士认为，语音技术正快速进入教育、公共服务、媒体传播与跨境交流等领域。如果评测体系长期偏向少数语言与单一文化情境，模型优化方向就容易被“高资源语言指标”牵引，导致低资源语言在语音输入、智能客服、内容检索、无障碍服务等应用中的体验差距扩大。对波斯语而言，这不仅是技术问题，也关系到文化内容的数字化呈现与跨语言传播效率。对策——以任务体系化、语境本地化为导向构建评测框架，推动训练与应用形成闭环。针对上述痛点，研究团队提出并构建PARSA-Bench，作为面向波斯语音频理解的综合评测基准。据介绍，该基准包含16类任务、8000余条音频样本，覆盖语音理解的关键环节：在基础能力层面，设置自动语音识别、双向语音翻译等任务，尽量覆盖不同说话者特征与声学条件；在语义与语用层面，纳入意图检测、命名实体识别、正式与非正式语域识别等任务，突出波斯语在不同社交场景中的表达差异；在现实生态层面，增加语码转换检测等任务，用更贴近日常交流的样本检验模型对语言切换的适配能力。研究还提出，对部分以文本为主的任务，可通过高质量语音合成扩充音频样本，但需更严格的质量控制与偏差评估，避免合成语音与真实语音分布差异影响结论。前景——“以语言为中心”的评测有望推动语音技术从通用能力走向文化适配，低资源语言或迎来新突破。多位研究人员表示，面向特定语言建立系统化音频基准，意义不止在于“排名与分数”，更在于提供可追踪的改进路径：哪些问题源于音系特征，哪些来自文化背景，哪些涉及语码转换的语用规则，都可以通过任务拆解得到更清晰的诊断。未来，若相关基准持续扩充真实场景数据、加强跨地区口音覆盖，并与教育、媒体、公共服务等应用联动，有望推动更可靠的波斯语语音输入、口语翻译与文化内容理解工具落地。同时，该思路也可为更多低资源语言提供参照，促使国际语音技术从“单一标准”走向“多元适配”。

语言不仅是信息载体，也是文化记忆与生活方式的沉淀。补齐波斯语音频理解评测短板的意义，不止于提升某一语种的识别指标，更在于提醒技术发展需要尊重语言多样性与真实语境。当评测体系能覆盖韵律、语域与混用等“难而重要”的问题，语音技术才可能从少数语言的突破，走向为更广泛人群提供稳定可靠的服务。