ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
### faiss AI相似性搜索工具 能使开发者快速搜索相似多媒体文件的算法库。 faiss的所有算法都是围绕index展开的。不管运行搜索还是聚类,首先都要建立一个index。 - 相似性搜索的本质 传统数据库由包含符号信息的机构表组成,比如,一个图像集,会用每行一张索引照片的列表表示。 很多AI工具都会产生高维**矢量**,比如像 **word2vec** 这样的文本嵌入工具,以及用深度学习训练的CNN描述符。 这些表示比固定的符号表示更加强大灵活。但用SQL来检索的传统数据库并没有适配这些新型表示。 首先,海量的新多媒体流创造了数十亿的矢量。其次,而且更为重要的是,找到相似的条目意味着找到相近的高维矢量。 而对于当下的标准检索语言,这是极度低效、甚至无法实现的。 - 如何使用矢量表示? 分类器的训练 - 软件包 现有的软件工具,不足以完成上述数据库搜索操作。传统的SQL数据库系统可用性不高,因为它们是 hash-based searches 或 1D interval searches 而优化。 #### 1. faiss的优缺点 - 提供数个相似性搜索方法,这些方法针对不同使用情况,提供跨度很大的功能取舍。 - 为内存的使用和速度而优化。 - 为相关索引方法提供了最前沿的GPU执行方案。 #### 2. 相似性搜索评估 一旦这些矢量被学习机提取出来(从图像、视频、文本文件或者其他渠道),它们就已经可以被输入进相似性搜索库。 #### 3. 十亿个矢量的评估 #### 4. 选择索引 [ubuntu 16.04 环境安装faiss](https://blog.csdn.net/cym1990/article/details/79528822)