企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
### WMD word mover distance 基于词向量的文档相似度计算。 EMD(Earth Mover`s Distance) 和欧式距离一样,它们都是一种距离度量的定义,可以用来测量某分布之间的距离。 EMD主要应用在图像处理和语音信号处理领域。 - EMD算法在自然语言处理领域的应用 通过词嵌入(Word Embedding),我们可以得到词语的分布式低维实数向量表示,我们可以计算词语之间的距离,及可以的到dij,因此可以将EMD引入自然语言处理领域。 将词嵌入与EMD相联系,用来度量文档距离。提出了WMD算法,以及WCD、RWMD两种牺牲精度降低复杂度的算法。 ### WMD和faiss WMD 目的是实现文档相似度计算。 WMD就是基于词向量的文档相似度计算,那么具体的使用算法是什么?词向量怎么生成(怎么表示的)? 我想,faiss就是一个工具,解决这个问题。 那么有没有更好的算法工具来实现? > [如何通过词向量技术来计算2个文档的相似度?](https://www.zhihu.com/question/33952003) [基于word2vec与Word Mover Distance的文档相似度计算](https://blog.csdn.net/qq_36446111/article/details/72903922)