《南开管理评论》于李胜：md& a 文本转换成向量

在研究2001年到2024年的上市公司MD&A报告时，他们用到了6.5万个样本。这个样本包括5600多家企业的信息。研究人员参考了中国顶尖刊物《南开管理评论》上的于李胜老师的做法，用V S M 模型把MD&A文本转换成向量，还有TF-IDF算法来给这些向量计算权重。为了比较不同年份之间的相似性，研究人员把每个公司的MD&A文本给同一年其他公司的文本进行比较。他们计算了文本之间的余弦夹角值作为相似度指标。具体步骤是这样的：先利用VS M模型把每一份文本转换为n维向量，这里的n是非重复词的数量。每个向量元素代表文本中特定词出现的频率，给这个频率用总词数加权来防止偏向长文本。然后把特定词的逆文档频率赋予不同的权重，也就是用IDF进行计算。于李胜老师和王泽豪、王艳艳等人合作发表的论文提到了这个方法。大家可以在草莓科研服务网上找到原始数据、计算代码和最终结果来验证准确性。这个资料建议加会员获取。