## python 文档相似度验证
```python
# coding=UTF-8
import time
import os
import sys
import re
import json
import hashlib
from Db import *
import jieba
from gensim import corpora,models,similarities
reload(sys)
sys.setdefaultencoding('utf-8')
# 1. 名词与概念:
# 文档: 字符串
# 词: 一个词语
# 集(合): 集合中的每个元素都是唯一的
# 分词列表: 结巴分词库返回的词列表(非集合,而是可能会有重复的词,这点很重要!!!)
# 词袋: 可以看做是分词的集合 (不重复)
# 语料库: 一个向量, 表示了词袋中的每个词 在 某个分词列表 中出现的频率(频率为0, 即没在分词列表中出现的词不计入向量)
# 向量: [(a, b), ...] a:词, b:频率 (纯数学的概念是一组坐标值,这里是一个列表,每一项为一个元组,元组里面两个元素)
# tip: 测试语料库 用来匹配的, 语料库 用来被匹配的, 相当于 搜索词 和 搜索源数据库 (d0 ~ d7 相当于表中的记录)
# 要解决的问题: 得到 一个字符串 与 其它多条字符串 之间的相关性值
# 解决方式: 一个 分词列表 与 其它 多个分词列表 之间的相关性值(中间有计算 文档中每个词的TF-IDF值 等过程), 即最终得到与每个目标文档的相似度
# 分词列表 = jieba.cut(待分词的字符串 即文档)
# 词袋 = corpora.Dictionary(分词列表的列表)
# 语料库 = 词袋.doc2bow(分词列表)
# -----
# 2. 参考:
# 用Python进行简单的文本相似度分析_xiexf189的博客-CSDN博客_python 文本相似度
# https://blog.csdn.net/xiexf189/article/details/79092629
# 结巴分词
# https://github.com/fxsjy/jieba
# 一文看懂 TF-IDF (概念图解+4大变种+发展历史)
# https://easyai.tech/ai-definition/tf-idf/
# TF (Term Frequency)—— “单词频率”
# IDF(Inverse Document Frequency)—— “逆文档频率”
# ----
# 3. 流程总结:
# 1. 对 d0 ~ d7 文档进行分词,得到 分词列表, 再组合成 "分词列表的列表" [['', ...], ...]
# 2. 使用 "分词列表的列表" 生成 词袋, 即 词集合(每个词唯一了)
# 3. 用 词袋 依次 和 每个 分词列表 来生成一个个 语料库 ,d0语料库, ...
# 4. 将 生成的8个 语料库 组成一个 语料库列表
# 5. 对 语料库列表进行建模 tfidf模型 = model(语料库列表)
# 6. ____^_^____第一阶段到这里可以告一段落,可以先休息一下,我们一会再继续
# 7.
# 8. 对 t_doc 文档进行分词,得到 分词列表
# 9. 使用上面的 词袋 和 t_doc 的 分词列表 生成一个 t_doc语料库 (重点: 基于同一 词袋 生成的 语料库 之间才能进行相似性分析)
# 10. 获取测试文档中,每个词的TF-IDF值, t_doc 的 TF-IDF值 = tfidf模型[t_doc语料库] (一个向量,表示了每个词的 TF-IDF值)
# 11. 同理: d0 的 TF-IDF值 = tfidf模型[d0语料库]
# 12. 语料库转化对象 = tfidf模型[语料库列表] (<gensim.interfaces.TransformedCorpus object at 0x0000000016715F60>)
# 13. ____^_^____再休息一会,消化一下上面的东西
# 14.
# 15. 回顾一下,现在我们有了: 词袋, 语料库列表[d0语料库, ...], tfidf模型 和 t_doc语料库, 每个文档 的 TF-IDF值, 语料库转化对象
# 16. 下面我们将利用这些已得到的东西, 来实现我们一开始的目标: 分析 t_doc 文档 与 每个目标文档 d0 ~ d7 之间的相似度
# 17. 得到 相似性对象 = similarities.SparseMatrixSimilarity(语料库转化对象, 词袋长度) (<gensim.similarities.docsim.SparseMatrixSimilarity object at 0x0000000016787FD0>)
# 18. 答案 = 相似性对象[t_doc 的 TF-IDF值] <type 'numpy.ndarray'> 矩阵: (t_doc 与 d0 的相似度, ..., t_doc 与 d7 的相似度)
# 19. 对 numpy.ndarray 结果进行排序: [(a, b), ...] a: 第几个文档, b: 相似度
# 20. 同理, d0 与 d0 ~ d7 的相似度 = 相似性对象[d0 的 TF-IDF值]
# 21. 相似性对象[语料库转化对象] 得到 d0 与 d0 ~ d7, ..., d7 与 d0 ~ d7 的 相似度列表 [[...],...]
# 22. 完, 建议多看几遍
# ==========================================================
# 待进行分词的文档
doc0 = "我不喜欢上海"
doc1 = "上海是一个好地方"
doc2 = "北京是一个好地方"
doc3 = "上海好吃的在哪里"
doc4 = "上海好玩的在哪里"
doc5 = "上海是好地方"
doc6 = "上海路和上海人上海上海上海"
doc7 = "喜欢小吃"
# 将 d1 改成 '我喜欢上海,不喜欢吃' d0 和 d1 的相关性就达到了 0.65295446 (原来 0.011466),
# 但其实二者表达的是完全相反的意思,所以这个相似性,仅仅只是文本的词频率比较, 而没有任何的语义解析处理
# 测试文档(判断这个文档与其它文档的相关性)
# 用少文档 去匹配 多文档合成的分词库
doc_test = "我喜欢上海的小吃" # [(7, 0.70477605), (0, 0.54680777), (3, 0.17724207), (4, 0.17724207), (6, 0.030088982), (5, 0.013545224), (1, 0.010553493), (2, 0.0)]
# doc_test = "可以看做是集合" # [(5, 0.5692461), (1, 0.4435168), (2, 0.32457215), (0, 0.0), (3, 0.0), (4, 0.0), (6, 0.0), (7, 0.0)]
# doc_test = "可以看做集合" # [(0, 0.0), (1, 0.0), (2, 0.0), (3, 0.0), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0)]
all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)
# 全部分词列表的列表
all_doc_list = []
for doc in all_doc:
# 对每一个文档进行分词
# 默认使用了,精确分词模式
# 精确模式: 试图将句子最精确地切开,适合文本分析
# 只是将词切开,并不做词集合,这点很重要
doc_list = [word for word in jieba.cut(doc)]
all_doc_list.append(doc_list)
print all_doc_list
# exit()
# 制作语料库
# 使用全部分词列表的列表 制作词袋,每个词都是唯一的
dictionary = corpora.Dictionary(all_doc_list)
for i,item in dictionary.items():
print i, item
# exit()
# print dictionary.keys()
print dictionary.token2id
# 使用 上一步生成的词袋 和 全部分词列表的列表 制作语料库列表(唯一的词袋 再与 文档的分词列表 生成语料库,即一组向量 )
# 语料库是一个向量,向量中的每个元素是一个二元组(编号、频次数),对应分词后的文档中的每一个词
# 语料库列表
corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
# 向量列表
print corpus
# exit()
# tip: 将这些向量列表合并(词频累加),就能得出 之前的 分词文档列表集 中的词频
# 同理,现在也对 测试文档进行处理
# 现在对测试文档也进行分词
doc_test_list = [word for word in jieba.cut(doc_test)]
print doc_test_list
# 用 上面生成的词袋 和 测试文档分词列表 制作一个语料库
# 这里的关键是,制作语料库 使用的是 上面的词袋(搜索词集),这为后面计算相关性埋下伏笔
doc_test_vec = dictionary.doc2bow(doc_test_list)
print doc_test_vec
# doc_test_vec = dictionary.doc2bow(['上海1', '上海1', '湖北'])
# print doc_test_vec
# 相当于现在得到了 测试的分词列表 与 搜索词集 的 向量,即词频
# 但 也只是知道了 词频关系,还是无法得知 测试的分词列表 究竟与 哪个 文档 相关性最高
# exit()
# 下面开始计算相关性
# 使用TF-IDF模型对语料库建模 (使用语料库列表进行建模)
tfidf = models.TfidfModel(corpus)
# 语料库模型 = models.TfidfModel(语料库列表)
# TfidfModel(num_docs=8, num_nnz=34) <class 'gensim.models.tfidfmodel.TfidfModel'>
print tfidf, type(tfidf)
# 上面埋下的伏笔开始显现作用了:只有使用了相同的词袋生成的语料库之间才能够计算相似性
# 获取测试文档中,每个词的TF-IDF值 (使用测试语料库)
# 值是一个向量: [(a, b), ...] a:词, b: TF-IDF值
doc_test_tfidf = tfidf[doc_test_vec]
print doc_test_tfidf
# 第一个文档中,每个词的TF-IDF值 (使用第一个文档的语料库)
print tfidf[corpus[0]]
# <gensim.interfaces.TransformedCorpus object at 0x0000000016715F60>
print tfidf[corpus]
# 对每个目标文档,分析测试文档的相似度
index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
# <gensim.similarities.docsim.SparseMatrixSimilarity object at 0x0000000016787FD0>
print index
# 测试语料库 与 每个 语料库 的相似度
sim = index[doc_test_tfidf]
# <type 'numpy.ndarray'>
print 'sim', sim, type(sim)
# 第一个语料库 与 每个 语料库的相似度
print index[tfidf[corpus[0]]]
# 全部语料库 与 语料库列表本身 的相似度列表
# 相当于 d0 与 d0 ~ d7, ..., d7 与 d0 ~ d7 的 相似度列表 [[...],...]
print index[tfidf[corpus]]
# 根据相似度排序
print sorted(enumerate(sim), key=lambda item: -item[1])
```
last update: 2020-11-20 21:32:02
- 开始
- 公益
- 更好的使用看云
- 推荐书单
- 优秀资源整理
- 技术文章写作规范
- SublimeText - 编码利器
- PSR-0/PSR-4命名标准
- php的多进程实验分析
- 高级PHP
- 进程
- 信号
- 事件
- IO模型
- 同步、异步
- socket
- Swoole
- PHP扩展
- Composer
- easyswoole
- php多线程
- 守护程序
- 文件锁
- s-socket
- aphp
- 队列&并发
- 队列
- 讲个故事
- 如何最大效率的问题
- 访问式的web服务(一)
- 访问式的web服务(二)
- 请求
- 浏览器访问阻塞问题
- Swoole
- 你必须理解的计算机核心概念 - 码农翻身
- CPU阿甘 - 码农翻身
- 异步通知,那我要怎么通知你啊?
- 实时操作系统
- 深入实时 Linux
- Redis 实现队列
- redis与队列
- 定时-时钟-阻塞
- 计算机的生命
- 多进程/多线程
- 进程通信
- 拜占庭将军问题深入探讨
- JAVA CAS原理深度分析
- 队列的思考
- 走进并发的世界
- 锁
- 事务笔记
- 并发问题带来的后果
- 为什么说乐观锁是安全的
- 内存锁与内存事务 - 刘小兵2014
- 加锁还是不加锁,这是一个问题 - 码农翻身
- 编程世界的那把锁 - 码农翻身
- 如何保证万无一失
- 传统事务与柔性事务
- 大白话搞懂什么是同步/异步/阻塞/非阻塞
- redis实现锁
- 浅谈mysql事务
- PHP异常
- php错误
- 文件加载
- 路由与伪静态
- URL模式之分析
- 字符串处理
- 正则表达式
- 数组合并与+
- 文件上传
- 常用验证与过滤
- 记录
- 趣图
- foreach需要注意的问题
- Discuz!笔记
- 程序设计思维
- 抽象与具体
- 配置
- 关于如何学习的思考
- 编程思维
- 谈编程
- 如何安全的修改对象
- 临时
- 临时笔记
- 透过问题看本质
- 程序后门
- 边界检查
- session
- 安全
- 王垠
- 第三方数据接口
- 验证码问题
- 还是少不了虚拟机
- 程序员如何谈恋爱
- 程序员为什么要一直改BUG,为什么不能一次性把代码写好?
- 碎碎念
- 算法
- 实用代码
- 相对私密与绝对私密
- 学习目标
- 随记
- 编程小知识
- foo
- 落盘
- URL编码的思考
- 字符编码
- Elasticsearch
- TCP-IP协议
- 碎碎念2
- Grafana
- EFK、ELK
- RPC
- 依赖注入
- 开发笔记
- 经纬度格式转换
- php时区问题
- 解决本地开发时调用远程AIP跨域问题
- 后期静态绑定
- 谈tp的跳转提示页面
- 无限分类问题
- 生成微缩图
- MVC名词
- MVC架构
- 也许模块不是唯一的答案
- 哈希算法
- 开发后台
- 软件设计架构
- mysql表字段设计
- 上传表如何设计
- 二开心得
- awesomes-tables
- 安全的代码部署
- 微信开发笔记
- 账户授权相关
- 小程序获取是否关注其公众号
- 支付相关
- 提交订单
- 微信支付笔记
- 支付接口笔记
- 支付中心开发
- 下单与支付
- 支付流程设计
- 订单与支付设计
- 敏感操作验证
- 排序设计
- 代码的运行环境
- 搜索关键字的显示处理
- 接口异步更新ip信息
- 图片处理
- 项目搭建
- 阅读文档的新方式
- mysql_insert_id并发问题思考
- 行锁注意事项
- 细节注意
- 如何处理用户的输入
- 不可见的字符
- 抽奖
- 时间处理
- 应用开发实战
- python 学习记录
- Scrapy 教程
- Playwright 教程
- stealth.min.js
- Selenium 教程
- requests 教程
- pyautogui 教程
- Flask 教程
- PyInstaller 教程
- 蜘蛛
- python 文档相似度验证
- thinkphp5.0数据库与模型的研究
- workerman进程管理
- workerman网络分析
- java学习记录
- docker
- 笔记
- kubernetes
- Kubernetes
- PaddlePaddle
- composer
- oneinstack
- 人工智能 AI
- 京东
- pc_detailpage_wareBusiness
- doc
- 电商网站设计
- iwebshop
- 商品规格分析
- 商品属性分析
- tpshop
- 商品规格分析
- 商品属性分析
- 电商表设计
- 设计记录
- 优惠券
- 生成唯一订单号
- 购物车技术
- 分类与类型
- 微信登录与绑定
- 京东到家库存系统架构设计
- crmeb
- 命名规范
- Nginx https配置
- 关于人工智能
- 从人的思考方式到二叉树
- 架构
- 今日有感
- 文章保存
- 安全背后: 浏览器是如何校验证书的
- 避不开的分布式事务
- devops自动化运维、部署、测试的最后一公里 —— ApiFox 云时代的接口管理工具
- 找到自己今生要做的事
- 自动化生活
- 开源与浆果
- Apifox: API 接口自动化测试指南