在研究2001年到2024年的上市公司MD&A报告时,他们用到了6.5万个样本。这个样本包括5600多家企业的信息。研究人员参考了中国顶尖刊物《南开管理评论》上的于李胜老师的做法,用V S M 模型把MD&A文本转换成向量,还有TF-IDF算法来给这些向量计算权重。为了比较不同年份之间的相似性,研究人员把每个公司的MD&A文本给同一年其他公司的文本进行比较。他们计算了文本之间的余弦夹角值作为相似度指标。具体步骤是这样的:先利用VS M模型把每一份文本转换为n维向量,这里的n是非重复词的数量。每个向量元素代表文本中特定词出现的频率,给这个频率用总词数加权来防止偏向长文本。然后把特定词的逆文档频率赋予不同的权重,也就是用IDF进行计算。 于李胜老师和王泽豪、王艳艳等人合作发表的论文提到了这个方法。大家可以在草莓科研服务网上找到原始数据、计算代码和最终结果来验证准确性。这个资料建议加会员获取。