企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 14 -- Regularization 上节课我们介绍了过拟合发生的原因:excessive power, stochastic/deterministic noise 和limited data。并介绍了解决overfitting的简单方法。本节课,我们将介绍解决overfitting的另一种非常重要的方法:Regularization规则化。 ### **一、Regularized Hypothesis Set** 先来看一个典型的overfitting的例子: ![这里写图片描述](https://img.kancloud.cn/f3/05/f3052ec10836f397e505dc9a79b740cc_266x229.jpg) 如图所示,在数据量不够大的情况下,如果我们使用一个高阶多项式(图中红色曲线所示),例如10阶,对目标函数(蓝色曲线)进行拟合。拟合曲线波动很大,虽然![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)很小,但是![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)很大,也就造成了过拟合现象。 那么如何对过拟合现象进行修正,使hypothesis更接近于target function呢?一种方法就是regularized fit。 ![这里写图片描述](https://img.kancloud.cn/5b/44/5b44707dcdf2bbb93de5a0f7c9abb903_281x225.jpg) 这种方法得到的红色fit曲线,要比overfit的红色曲线平滑很多,更接近与目标函数,它的阶数要更低一些。那么问题就变成了我们要把高阶(10阶)的hypothesis sets转换为低阶(2阶)的hypothesis sets。通过下图我们发现,不同阶数的hypothesis存在如下包含关系: ![这里写图片描述](https://img.kancloud.cn/56/7c/567cbfe0d558c7400cc14d0c3f8e913b_566x135.jpg) 我们发现10阶多项式hypothesis sets里包含了2阶多项式hypothesis sets的所有项,那么在![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)中加入一些限定条件,使它近似为![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)即可。这种函数近似曾被称之为不适定问题(ill-posed problem)。 如何从10阶转换为2阶呢?首先,![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)可表示为: 而![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)可表示为: 所以,如果限定条件是![](https://img.kancloud.cn/e9/de/e9de81958e9f94076cf14ce01de66377_175x16.jpg),那么就有![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)。也就是说,对于高阶的hypothesis,为了防止过拟合,我们可以将其高阶部分的权重w限制为0,这样,就相当于从高阶的形式转换为低阶,fit波形更加平滑,不容易发生过拟合。 ![这里写图片描述](https://img.kancloud.cn/df/ee/dfee5d6c7a05ae241ed6767b49aee3d9_566x294.jpg) 那有一个问题,令![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)高阶权重w为0,为什么不直接使用![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)呢?这样做的目的是拓展我们的视野,为即将讨论的问题做准备。刚刚我们讨论的限制是![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)高阶部分的权重w限制为0,这是比较苛刻的一种限制。下面,我们把这个限制条件变得更宽松一点,即令任意8个权重w为0,并不非要限定![](https://img.kancloud.cn/e9/de/e9de81958e9f94076cf14ce01de66377_175x16.jpg),这个Looser Constraint可以写成: 也就只是限定了w不为0的个数,并不限定必须是高阶的w。这种hypothesis记为![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg),称为sparse hypothesis set,它与![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)和![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)的关系为: ![这里写图片描述](https://img.kancloud.cn/3c/46/3c46c6c4e42a9c1e7a097d3a4e17cf2c_566x59.jpg) Looser Constraint对应的hypothesis应该更好解一些,但事实是sparse hypothesis set ![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)被证明也是NP-hard,求解非常困难。所以,还要转换为另一种易于求解的限定条件。 那么,我们寻找一种更容易求解的宽松的限定条件Softer Constraint,即: 其中,C是常数,也就是说,所有的权重w的平方和的大小不超过C,我们把这种hypothesis sets记为![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)。 ![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)与![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)的关系是,它们之间有重叠,有交集的部分,但是没有完全包含的关系,也不一定相等。对应![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg),C值越大,限定的范围越大,即越宽松: 当C无限大的时候,即限定条件非常宽松,相当于没有加上任何限制,就与![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)没有什么两样。![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)称为regularized hypothesis set,这种形式的限定条件是可以进行求解的,我们把求解的满足限定条件的权重w记为![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。接下来就要探讨如何求解![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。 ### **二、Weight Decay Regularization** 现在,针对H(c),即加上限定条件,我们的问题变成: ![这里写图片描述](https://img.kancloud.cn/fb/02/fb02f96f9b08919fe39c3cb8af5472c2_444x200.jpg) 我们的目的是计算![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的最小值,限定条件是![](https://img.kancloud.cn/de/b5/deb59eda59b29b4ccbf70fc6decedab4_71x18.jpg)。这个限定条件从几何角度上的意思是,权重w被限定在半径为![](https://img.kancloud.cn/47/e7/47e7b96989bb95139bfb9205cabb5a78_26x17.jpg)的圆内,而球外的w都不符合要求,即便它是靠近![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)梯度为零的w。 ![这里写图片描述](https://img.kancloud.cn/dc/9d/dc9dcdb21e3fd0d7a0b2bf7bd1bb2b06_566x56.jpg) 下面用一张图来解释在限定条件下,最小化![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的过程: ![这里写图片描述](https://img.kancloud.cn/34/96/3496a31024043a3816ec4124e1f372bc_566x227.jpg) 如上图所示,假设在空间中的一点w,根据梯度下降算法,w会朝着![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)的方向移动(图中蓝色箭头指示的方向),在没有限定条件的情况下,w最终会取得最小值![](https://img.kancloud.cn/93/56/93565f162b5dcab4c34635c4ae6d4916_26x10.jpg),即“谷底”的位置。现在,加上限定条件,即w被限定在半径为![](https://img.kancloud.cn/47/e7/47e7b96989bb95139bfb9205cabb5a78_26x17.jpg)的圆内,w距离原点的距离不能超过圆的半径,球如图中红色圆圈所示![](https://img.kancloud.cn/80/51/80511377ee863cfc564632da5b614dbd_68x14.jpg)。那么,这种情况下,w不能到达![](https://img.kancloud.cn/93/56/93565f162b5dcab4c34635c4ae6d4916_26x10.jpg)的位置,最大只能位于圆上,沿着圆的切线方向移动(图中绿色箭头指示的方向)。与绿色向量垂直的向量(图中红色箭头指示的方向)是圆切线的法向量,即w的方向,w不能靠近红色箭头方向移动。那么随着迭代优化过程,只要![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)与w点切线方向不垂直,那么根据向量知识,![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)一定在w点切线方向上有不为零的分量,即w点会继续移动。只有当![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)与绿色切线垂直,即与红色法向量平行的时候,![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)在切线方向上没有不为零的分量了,也就表示这时w达到了最优解的位置。 有了这个平行的概念,我们就得到了获得最优解需要满足的性质: 上面公式中的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)称为Lagrange multiplier,是用来解有条件的最佳化问题常用的数学工具,![](https://img.kancloud.cn/0c/8f/0c8f18d16fd10ce97f3c1dad5e56e290_15x35.jpg)是方便后面公式推导。那么我们的目标就变成了求解满足上面公式的![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。 之前我们推导过,线性回归的![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的表达式为: 计算![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)梯度,并代入到平行条件中,得到: 这是一个线性方程式,直接得到![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)为: 上式中包含了求逆矩阵的过程,因为![](https://img.kancloud.cn/0c/8c/0c8c88f9cadccb551c510fd8640dc2c5_33x14.jpg)是半正定矩阵,如果![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)大于零,那么![](https://img.kancloud.cn/0c/8c/0c8c88f9cadccb551c510fd8640dc2c5_33x14.jpg)一定是正定矩阵,即一定可逆。另外提一下,统计学上把这叫做ridge regression,可以看成是linear regression的进阶版。 如果对于更一般的情况,例如逻辑回归问题中,![](https://img.kancloud.cn/aa/92/aa9233624c110684d7368fda5ca911c8_37x15.jpg)不是线性的,那么将其代入平行条件中得到的就不是一个线性方程式,![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)不易求解。下面我们从另一个角度来看一下平行等式: 已知![](https://img.kancloud.cn/aa/92/aa9233624c110684d7368fda5ca911c8_37x15.jpg)是![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)对![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)的导数,而![](https://img.kancloud.cn/d9/d4/d9d4e1fcb9d9058fc5ed77463f246b4d_58x35.jpg)也可以看成是![](https://img.kancloud.cn/87/fb/87fba0b255a37cadf92e95e02531f526_56x34.jpg)的导数。那么平行等式左边可以看成一个函数的导数,导数为零,即求该函数的最小值。也就是说,问题转换为最小化该函数: 该函数中第二项就是限定条件regularizer,也称为weight-decay regularization。我们把这个函数称为Augmented Error,即![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)。 如果![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)不为零,对应于加上了限定条件,若![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)等于零,则对应于没有任何限定条件,问题转换成之前的最小化![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)。 下面给出一个曲线拟合的例子,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取不同的值时,得到的曲线也不相同: ![这里写图片描述](https://img.kancloud.cn/c4/f5/c4f55c95aa0c1801f348bcf0400d5ce2_566x203.jpg) 从图中可以看出,当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)时,发生了过拟合;当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)时,拟合的效果很好;当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)和![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)时,发生了欠拟合。我们可以把![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)看成是一种penality,即对hypothesis复杂度的惩罚,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大,w就越小,对应于C值越小,即这种惩罚越大,拟合曲线就会越平滑,高阶项就会削弱,容易发生欠拟合。![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)一般取比较小的值就能达到良好的拟合效果,过大过小都有问题,但究竟取什么值,要根据具体训练数据和模型进行分析与调试。 ![这里写图片描述](https://img.kancloud.cn/ee/8b/ee8b0ab22887b8e2c358235aedd5c1e8_393x155.jpg) 事实上,这种regularization不仅可以用在多项式的hypothesis中,还可以应用在logistic regression等其他hypothesis中,都可以达到防止过拟合的效果。 我们目前讨论的多项式是形如![](https://img.kancloud.cn/2f/be/2fbefa25e56299d2c19499fac41676dc_111x17.jpg)的形式,若x的范围限定在[-1,1]之间,那么可能导致![](https://img.kancloud.cn/19/92/19924990c8f7345f2166503fdef97c8e_16x11.jpg)相对于低阶的值要小得多,则其对于的w非常大,相当于要给高阶项设置很大的惩罚。为了避免出现这种数据大小差别很大的情况,可以使用Legendre Polynomials代替![](https://img.kancloud.cn/2f/be/2fbefa25e56299d2c19499fac41676dc_111x17.jpg)这种形式,Legendre Polynomials各项之间是正交的,用它进行多项式拟合的效果更好。关于Legendre Polynomials的概念这里不详细介绍,有兴趣的童鞋可以看一下[维基百科](https://en.wikipedia.org/wiki/Legendre_polynomials)。 ### **三、Regularization and VC Theory** 下面我们研究一下Regularization与VC理论之间的关系。Augmented Error表达式如下: VC Bound表示为: 其中![](https://img.kancloud.cn/ab/61/ab614d2800a13e392642dc8031df3264_33x14.jpg)表示的是单个hypothesis的复杂度,记为![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg);而![](https://img.kancloud.cn/a7/6d/a76dff566ef5b5b3296b23949d6b2978_38x18.jpg)表示整个hypothesis set的复杂度。根据Augmented Error和VC Bound的表达式,![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg)包含于![](https://img.kancloud.cn/a7/6d/a76dff566ef5b5b3296b23949d6b2978_38x18.jpg)之内,所以,![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)比![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)更接近于![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg),即更好地代表![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg),![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)与![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)之间的误差更小。 ![这里写图片描述](https://img.kancloud.cn/c7/3e/c73eca8b1db6323a1f73956dfffc9d26_566x202.jpg) 根据VC Dimension理论,整个hypothesis set的![](https://img.kancloud.cn/6e/1c/6e1c5079b40d6e2f1830686474fdd958_85x19.jpg),这是因为所有的w都考虑了,没有任何限制条件。而引入限定条件的![](https://img.kancloud.cn/5b/39/5b390e131729dbe54a37a6e095571645_184x18.jpg),即有效的VC dimension。也就是说,![](https://img.kancloud.cn/d9/46/d946870a2c28781a9e73f7045b89b48c_54x18.jpg)比较大,因为它代表了整个hypothesis set,但是![](https://img.kancloud.cn/b2/70/b270fbe526f7a3f3b499ac44300b8b14_81x18.jpg)比较小,因为由于regularized的影响,限定了w只取一小部分。其中A表示regularized算法。当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)时,有: 这些与实际情况是相符的,比如对多项式拟合模型,当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)时,所有的w都给予考虑,相应的![](https://img.kancloud.cn/b4/c8/b4c87c6639d87ada7d0ebe0f897375ee_27x14.jpg)很大,容易发生过拟合。当![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)且越来越大时,很多w将被舍弃,![](https://img.kancloud.cn/b2/70/b270fbe526f7a3f3b499ac44300b8b14_81x18.jpg)减小,拟合曲线越来越平滑,容易发生欠拟合。 ### **四、General Regularizers** 那么通用的Regularizers,即![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg),应该选择什么样的形式呢?一般地,我们会朝着目标函数的方向进行选取。有三种方式: * **target-dependent** * **plausible** * **friendly** ![这里写图片描述](https://img.kancloud.cn/69/60/696055af024dd348f8aff9b1517a9b08_566x180.jpg) 其实这三种方法跟之前error measure类似,其也有三种方法: * **user-dependent** * **plausible** * **friendly** regularizer与error measure是机器学习模型设计中的重要步骤。 ![这里写图片描述](https://img.kancloud.cn/2c/e5/2ce5aecf44e1650e7766f396e56f2a95_566x97.jpg) 接下来,介绍两种Regularizer:L2和L1。L2 Regularizer一般比较通用,其形式如下: 这种形式的regularizer计算的是w的平方和,是凸函数,比较平滑,易于微分,容易进行最优化计算。 L1 Regularizer的表达式如下: L1计算的不是w的平方和,而是绝对值和,即长度和,也是凸函数。已知![](https://img.kancloud.cn/80/51/80511377ee863cfc564632da5b614dbd_68x14.jpg)围成的是圆形,而![](https://img.kancloud.cn/1d/c3/1dc31c67d519e27abdb61d696a5c85ac_71x17.jpg)围成的是正方形,那么在正方形的四个顶点处,是不可微分的(不像圆形,处处可微分)。根据之前介绍的平行等式推导过程,对应这种正方形,它的解大都位于四个顶点处(不太理解,欢迎补充赐教),因为正方形边界处的w绝对值都不为零,若![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)不与其平行,那么w就会向顶点处移动,顶点处的许多w分量为零,所以,L1 Regularizer的解是稀疏的,称为sparsity。优点是计算速度快。 ![这里写图片描述](https://img.kancloud.cn/2b/ef/2bef8bcd430e08a0c91432969bb6d749_566x377.jpg) 下面来看一下![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)如何取值,首先,若stochastic noise不同,那么一般情况下,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取值有如下特点: ![这里写图片描述](https://img.kancloud.cn/0a/7c/0a7c5a8f2814755f985f70da35071fe8_279x209.jpg) 从图中可以看出,stochastic noise越大,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大。 另一种情况,不同的deterministic noise,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取值有如下特点: ![这里写图片描述](https://img.kancloud.cn/f1/a4/f1a44eb36cf7e5b938ffc32220adc3fe_277x208.jpg) 从图中可以看出,deterministic noise越大,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大。 以上两种noise的情况下,都是noise越大,相应的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)也就越大。这也很好理解,如果在开车的情况下,路况也不好,即noise越多,那么就越会踩刹车,这里踩刹车指的就是regularization。但是大多数情况下,noise是不可知的,这种情况下如何选择![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)?这部分内容,我们下节课将会讨论。 ### **五、总结** 本节课主要介绍了Regularization。首先,原来的hypothesis set加上一些限制条件,就成了Regularized Hypothesis Set。加上限制条件之后,我们就可以把问题转化为![](https://img.kancloud.cn/32/26/3226a8971528cd68f194ccc55cf51e84_31x16.jpg)最小化问题,即把w的平方加进去。这种过程,实际上回降低VC Dimension。最后,介绍regularization是通用的机器学习工具,设计方法通常包括target-dependent,plausible,friendly等等。下节课将介绍如何选取合适的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)来建立最佳拟合模型。 **_注明:_** 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程