基于内容的推荐算法 · 机器学习 / 推荐系统 / 神经网络

[TOC] ## **1. 简介** * **基于内容的推荐算法（Content-Based Recommendations，CB）** 非常古老，应该是最早被使用的推荐算法，虽是一个年代久远的算法，但即便放在深度学习十分火热的当下，基于内容的推荐算法依然被工业界广泛使用，足以证明其具有不可替代的优势，也经受了时间的检验。 * 基于内容的推荐算法最早主要是应用在信息检索系统当中，所以很多信息检索及信息过滤里的方法都能用于基于内容的推荐中。而用于个性化推荐领域的内容推荐，本质上就是一个包装成推荐系统的信息检索系统。 * 工业界中成熟的推荐系统往往是多个推荐算法策略的组合使用，因此基于内容的推荐很少会独立支撑整个推荐系统，但通常一个复杂的推荐系统很可能是从基于内容推荐成长起来的，基于内容的推荐系统是一个推荐系统的孩童时代。 ## **2. 基本思路** * **根据用户过去喜欢的物品，为用户推荐和他过去喜欢的物品相似的物品。这个过程中最重要的是通过用户的历史行为来学习用户的偏好，刻画出用户画像，然后通过相似性度量找出与用户偏好最接近的 N 个物品。** * 举个简单的例子：在京东上购物的小伙伴们应该都知道，每当你进入任何一个物品页面的时候都会有一个 “猜你喜欢” 的栏目，这时候他就会根据你经常购买的物品给你推荐相似的物品。例如对我来说：我经常购买互联网类书籍，所以它就会给我推荐类似的书籍（当然这里只是举个例子，京东的推荐算法肯定不可能那么单一，但是可以肯定的是他一定会用到最基础的内容推荐算法）。 ## **3. 架构流程** * 一个完整的基于内容的推荐系统架构如下图所示： * ![UTOOLS1594975799626.png](http://yanxuan.nosdn.127.net/cf001b376339904715c255c767a07ab3.png) 主要流程说明： * **物品表示（Item Representation）**：为每个 item 抽取出一些特征（也就是 item 的 content 了）来表示此 item。 * **用户偏好学习（Profile Learning）**：利用一个用户过去喜欢（及不喜欢）的 item 的特征数据，来学习出此用户的偏好特征（profile）； * **生成推荐列表（Recommendation Generation）**：通过比较上一步得到的用户 profile 与候选 item 的特征，为此用户推荐一组相关性最大的 item。举个例子说明前面的三个步骤。随着今日头条的崛起，基于内容的文本推荐就盛行起来。在这种应用中一个 item 就是一篇文章。 * 1. 第一步，我们首先要从文章内容中抽取出代表它们的属性。常用的方法就是利用出现在一篇文章中的词来代表这篇文章，而每个词对应的权重往往使用信息检索中的 TF-IDF 来计算。利用这种方法，一篇抽象的文章就可以使用具体的一个向量来表示了。 * 2. 第二步，根据用户过去喜欢什么文章来产生刻画此用户喜好的特征向量了，最简单的方法可以把用户所有喜欢的文章对应的向量的平均值作为此用户的特征向量。比如用户经常在今日头条阅读技术科技相关的文章，那么今日头条的算法可能会把用户偏好特征中的 “互联网”、“大数据”、“[机器学习](http://lumingdong.cn/category/tech/ml "机器学习技术文章")”、“数据挖掘” 等关键词的权重设置的比较大。 * 3. 第三步，当用户登录或刷新头条客户端的时候，推荐系统会根据用户 ID 获取到相应的用户特征，然后利用内容推荐算法与未读的较新文章进行相似度计算（相似度的衡量可以用余弦相似度），然后取相似度最大的前 N 个篇文章作为推荐结果返回给用户的推荐列表中。 ## **4. 相关算法** 本小节，我们将详细介绍各个流程的细节以及各个环节所涉及的相关算法。 ### **4.1 物品表示（Item Representation）** * 物品表示，用更形象的说法是**物品画像（Item Profile）**的构建，是相对于**用户画像（User Profile）**来说的。不管是物品画像的构建，还是用户画像的构建，有一个非常重要的步骤，那就是内容的挖掘和分析。 * 内容的挖掘和分析实际上是基于内容的推荐系统最关键的一个步骤，相当于机器学习任务中特征工程的环节，实际上，基于内容推荐算法中所谓的 “内容”，表现在结构化数据中，就是指想尽各种办法提取出来的关键特征，在数据资源固定的情况下，特征提取的质量直接影响推荐效果的好坏。因此，**基于内容的推荐，最重要的不是推荐算法，而是内容挖掘和分析。** 内容挖掘越深入，哪怕早期推荐算法仅仅是非常硬的规则，也能取得不俗的效果。随着内容分析的逐步深入，能抓住的用户群体就越细致，推荐的转化率就越高，用户对产品的好感度也就增加了。举个例子，比如短视频的推荐，内容挖掘由浅至深可能有以下几个过程，推荐效果也会更加精细化： * 1. 如果短视频本身没有任何结构化信息，如果不挖掘内容，那么除了强推或者随机小流量，没有别的合理曝光逻辑了； * * 2. 如果对视频的文本描述，比如标题等能够有内容分类，比如是娱乐类，那么对于喜欢娱乐的用户来说就很合理； * * 3. 如果能够进一步分析文本的主题，那么对于类似主题感兴趣的用户就可能得到展示； * 4. 如果还能识别出内容中主角是吴亦凡，那就更精准锁定一部分用户了； * 5. 如果再对内容本身做到嵌入分析，那么潜藏的语义信息也全部抓住，更能表达内容了。 * 既然是特征工程，那么前置预处理必不可少，因此要想物品特征做好，需要做好 “抓（丰富内容库，提高推荐多样性）、洗（洗掉垃圾内容，保留有用信息）、挖（挖掘有用信息）、算（计算相关性，确定筛选合理属性特征）” 四门功课。 * **内容挖掘和分析过程中，挖掘侧重于信息的探索和发现，分析侧重于信息的提炼和转化。** 在这里，**内容分析往往是指关键词的提取，涉及非结构文本内容的结构化处理**。我们拿到的文本，常常是自然语言描述的，也就是 “非结构化” 的，为了便于计算机处理和计算，把对非结构化的文本内容的处理简化为向量空间中的向量运算，这个过程常常伴随着文本特征提取。向量化的表示方法也是最早来自于信息检索系统，称为向量空间模型（VSM：Vector Space Model）。 #### **4.1.1 文本内容的结构化算法** * 非结构文本内容的结构化处理以及文本特征提取，可用的算法和模型众多，各有特点，大都属于 NLP（自然语言处理）领域，因这部分内容相对独立，我整理到了另一篇文章《[文本内容分析算法](https://lumingdong.cn/text-content-analysis-algorithms.html "文本内容分析算法")》，请移步参考。 * 最后我们说说物品画像构建结束后的最终产物： * 结构化内容库 * * 物品结构化的内容库，最重要的用途是结合用户反馈行为去学习用户画像（用户对物品的偏好特征）。 * 内容分析模型 * * 在内容结构化处理过程中，可能会用到多种模型来实现，比如分类器模型、主题模型、实体识别模型、嵌入模型等，这些模型在之后的场景中依然可堪当大用，比如当新的物品刚刚进入时，需要实时地被推荐出去，这时候可用这些模型对新物品的内容信息进行实时分析，提取结构化内容，之后便可直接与旧物品一样毫无差别地进入推荐候选列表，获得了推荐和曝光机会，很好地解决了新物品的冷启动问题。 ### **4.2 用户偏好学习（Profile Learning）** * 相对于物品画像的说法，这个过程实际上就是用户画像的构建（User Profile）了，用户画像这个词相比物品画像来说更加被广为流传，一些大厂内部也习惯把用户画像简称 UP。实际上个性化推荐系统中的用户画像，并不是单纯的人口统计学信息构建的标签云，还有一些特征可能是一些抽象的隐含语义，无法被人直观理解，因为它不是给人看的，而是给机器看的。**用户画像并不是推荐系统的目的，而是在构建推荐系统的过程中产生的一个关键环节的副产品。** 一个推荐系统来到这个世界上，它只有一个使命，就是要在用户（User）和物品（Item）之间建立连接。内容的挖掘和分析就是为了更好地识物断人，从而更高效的完成用户与物品之间的对接。而特征学习就是完成连接的关键步骤。 **用户画像由两个部分构成，一部分是对用户端内容挖掘分析后的用户的属性特征，另一部分是根据用户行为数据统计或学习到的对物品端结构化属性的偏好度量。** 用户端的内容分析一般可以从人口统计学信息入手（如性别、年龄、婚姻状况、职业等），还可以对用户的个人签名、发表的评论、动态、日记等内容进行分析提炼关键特征。 用户对物品的偏好特征是基于内容推荐的重要一环，这个过程体现了基于内容推荐的核心思想，也就是通过用户的历史行为来了解用户的兴趣偏好。此时我们已经拿到了用户喜欢的多个物品的向量化表示，那么，如何计算用户的喜好特征呢？相关的算法有很多，主要分非机器学习算法和机器学习算法。 #### **4.2.1 平均法** * 这是最简单的方法，基于统计直接把用户所有喜欢的物品对应的向量的平均值作为此用户的偏好特征向量。用公式表示为： ![UTOOLS1594977592942.png](http://yanxuan.nosdn.127.net/7f8ca89bb6a16d9659cff1f329d90a8f.png) #### **4.2.2 时间衰减** * 在某些推荐场景下，会考虑到时间效应，用户的兴趣迁移比较快，其中的某个兴趣点可能会随着时间变化不断衰减，因此在计算用户偏好特征的时候会增加时间因子，可用如下公式计算： ![UTOOLS1594977643047.png](http://yanxuan.nosdn.127.net/46de8c51ee7c15035d4e906c292bca23.png) #### **4.2.3 Rocchio算法** * Rocchio 算法是信息检索中处理相关反馈（Relevance Feedback）的一个著名算法。比如你在搜索引擎里搜 “苹果”，当你最开始搜这个词时，搜索引擎不知道你到底是要能吃的水果，还是要不能吃的苹果，所以它往往会尽量呈现给你各种结果。当你看到这些结果后，你会点一些你觉得相关的结果（这就是所谓的相关反馈了）。然后如果你翻页查看第二页的结果时，搜索引擎可以通过你刚才给的相关反馈，修改你的查询向量取值，重新计算网页得分，把跟你刚才点击的结果相似的结果排前面。比如你最开始搜索 “苹果” 时，对应的查询向量是 {“苹果” : 1}。而当你点击了一些与 Mac、iPhone 相关的结果后，搜索引擎会把你的查询向量修改为 {“苹果” : 1, “Mac” : 0.8, “iPhone” : 0.7}，通过这个新的查询向量，搜索引擎就能比较明确地知道你要找的是不能吃的苹果了。Rocchio 算法的作用就是用来修改你的查询向量的：{“苹果” : 1} –> {“苹果” : 1, “Mac” : 0.8, “iPhone” : 0.7}。 在内容推荐中，我们可以类似地使用 Rocchio 算法来获得用户的偏好特征： ![UTOOLS1594977759269.png](http://yanxuan.nosdn.127.net/f2db530d704280ae333f4921ab8ecc62.png) * 从上式可以看出，其实 Rocchio 算法和平均法很类似，只是多了负反馈的部分，并分别给了两个调节权重实现灵活调节。另外，Rocchio 算法还有一个好处是，可以根据用户的反馈实时更新，其更新代价很小，非常适合短期需求场景。 上述三种非机器学习方法，都是先通过历史行为数据统计计算出用户偏好特征，然后再与候选物品对应的属性特征一一计算相似度，再按照相似度打分进行排序推荐。这种特征学习方法得到的是用户的平均偏好特征，因此推荐精度可能没那么好，不过好处也有，那就是算法简单可快速实现、快速上线，还可以对用户的偏好特征进行实时更新。 #### **4.2.4 机器学习算法** * 如果细心的话，你会发现非机器学习算法只用到用户的偏好特征就能进行相似度计算，然后进行召回推荐了，而用户画像的另一部分即用户本身的属性特征，其实更多用在机器学习算法中，这样可以提高推荐精度。 机器学习算法更加强调目标思维，通常会把推荐问题转化为有监督的分类问题。 一种最典型的场景：提高某种行为的转化率，如点击、收藏、转发等。那么标准的做法是：收集这类行为的日志数据，转换成训练样本，训练预估模型。 每一条样本由两部分构成：一部分是特征，包含用户端的画像内容，物品端的结构化内容，可选的还有日志记录时一些上下文场景信息，如时间、地理位置、天气、设备等等，另一部分就是用户行为，作为标注信息，包含 “有反馈” 和 “无反馈” 两类。 用这样的样本训练一个二分类器，**常用模型是对数几率回归（Logistic Regression）和梯度提升树（GBDT）或者两者的结合。在推荐匹配时，预估用户行为发生的概率，按照概率排序。这样更合理更科学，而且这一条路可以一直迭代优化下去。** 关于 LR 和 GBDT，可参考我之前写的文章《[Logistic 回归](https://lumingdong.cn/logistic-regression.html)》和《[集成学习](https://lumingdong.cn/ensemble-learning.html)》。 需要注意的是，**采用机器学习思路训练预估模型，必须得有大量的用户行为数据做保证**。