(问题)在文本数据迅速增长、应用场景不断扩展的情况下,如何把“词”变成可计算、可比较、可迁移的数值表示,成了自然语言处理的基础问题。早期方法主要依赖离散符号,能够支撑检索和统计,但难以刻画“语义相近”“语境有关”等语言特性,进而影响机器理解、文本聚类、推荐检索等任务的效果与效率。
词向量技术的演进,表明了自然语言处理从离散符号表示到连续向量表示、从共现统计到预测学习的路线变化;随着深度学习与表示学习方法持续发展,词向量仍将在多类应用中发挥基础支撑作用,并与更强的预训练模型协同互补。这也说明,很多关键突破来自对核心问题的持续拆解与迭代优化,而每一次方法改进,都会为行业应用打开新的空间。