从独热编码到Skip-Gram：词向量技术路线迭代折射语言计算能力跃升

（问题）在文本数据迅速增长、应用场景不断扩展的情况下，如何把“词”变成可计算、可比较、可迁移的数值表示，成了自然语言处理的基础问题。早期方法主要依赖离散符号，能够支撑检索和统计，但难以刻画“语义相近”“语境有关”等语言特性，进而影响机器理解、文本聚类、推荐检索等任务的效果与效率。

词向量技术的演进，表明了自然语言处理从离散符号表示到连续向量表示、从共现统计到预测学习的路线变化；随着深度学习与表示学习方法持续发展，词向量仍将在多类应用中发挥基础支撑作用，并与更强的预训练模型协同互补。这也说明，很多关键突破来自对核心问题的持续拆解与迭代优化，而每一次方法改进，都会为行业应用打开新的空间。