基于Paddle框架的GloVe模型的实现
这是一篇关于词向量训练的论文,文章诞生于Word2Vec工具出现后不久。文本特征空间的表示有两种经典的模式:一种是潜在语义分析,通过对词对共现矩阵进行矩阵分解得到文本潜在信息;一种是Word2Vec,通过最大化词序列在一定长度的窗口中的共现概率,训练得到每个词的词向量。两种方式各有优缺点。潜在语义分析处理全局词共现信息,很好地考虑了文本的统计信息,但是其没有得到向量空间,以至于其在词类比中表现不是很好。而Word2Vec在词类比等任务上表现优异,但是由于它是在局部的窗口下训练的,没有很好地利用全局词共现信息。这篇文章综合了两种方法的优点,提出了一种基于全局词共现信息的全局对数双线性回归模型(global log-bilinear regression model)。同时,由于统计词对信息相当于大大压缩了文本信息(相当于把文本中重复出现的信息合到一块了),该模型增加了耗时不长的预处理阶段来得到共现词对及共现频率,在训练时候大大降低了训练时长(相对于Word2Vec)。