GloVe 全局词向量 (一) 有更新!

  |   0 评论   |   152 浏览

GloVe

GloVe发明的初衷,就是想结合两者的长处,搞出一个充分利用统计量的更好train的适用程度更广的word embedding方法。

动机

我们注意到,在篇章中,语义距离相近的词,共现次数多,语义距离远的词贡献次数少。见图下:

然而可以看到的是,区分度不算高。于是想到,能否用共现之间的比值来增大区分度?

GloVe 使用

GloVe已经在github开源,源码以及binary可以在GloVe Github找到。
GloVe的代码写的比较糙,每一步是独立的程序,因此要按照以下步骤进行:

  1. 运行./vocab_count 进行词频统计
  2. 运行./cooccur 进行共现统计
  3. 运行./shuffle 进行打散
  4. 运行./glove 进行训练词向量

具体参数和word2vec比较类似,具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh

评论

发表评论

validate