您的当前位置：首页机器学习

机器学习

来源：独旅网

机器学习与人工智能第一章、机器学习一、概念

机器学习：基于过去预测未来的技术。二、用途

1. 当人类专业知识不存在时。（在火星上航行） 2. 人类无法解释的专业知识。（语音识别） 3. 模型必须定制。（个性化医疗）

4. 模型需要基于大量的数据。（基因组学）三、相关领域

统计学、数据挖掘、控制论、决策论、认知科学、心理学模型、神经科学、进化论、数据库、信息论等。

四、评判标准

主要关注学习的有效性和准确性。五、解决任务

1. 识别模式：面部识别、面部表情识别，手写体、口语识别、医学图像识别。 2. 生成模式：生成图像或运算序列。

3. 识别异常：不寻常的信用卡交易、核电厂中不寻常的传感器读数模式。 4. 预测：预测股票未来价格或货币汇率。六、应用场景

网络搜索、计算生物学、财务、电子商务、太空探索、机器人、信息提取、社交网络、调试软件。

机器学习的类型： 1. 监督（归纳）学习

训练数据+输出结果（标签） 2. 无监督学习

训练数据（没有输出结果） 3. 半监督学习

输出结果+一些输出结果 4. 强化学习

从一系列行动中获得奖励主要内容

监督学习：线性回归、Logistic回归、K近邻、朴素贝叶斯、支持向量机、决策树、合凑学习方法、神经网络、深度学习、正则化

监督学习：

分类：有限集的标签（银行根据客户收入和储蓄额区分低风险和高风险客户）

回归：标签是实数值（依据汽车里程数预测二手车价格、预测股票价格、流行病学、导航、天气）

排序：标签是序号（给出一个查询和一组网页，根据相关性进行排序）无监督学习：聚类分析、降维无监督学习的应用

图像压缩、生物学信息（基因识别）、客户分块、分组强化学习：

根据对动作进行评价和奖励去预测将来单个状态或行为动作进而选择最优的动作。

强化学习应用：训练机器学习让机器学会下棋。分类的应用人脸识别、手写体识别、垃圾邮件检测、医学诊断（从症状到疾病）、生物医学信息（用身体或行为特征面容、眼瞳、签字去识别/验证）

第二章、机器学习的评估方法 2.1 监督学习的评价

根据训练集去训练模型或者是预测器。

总的来说，不是根据一组数据就能判断一个模型的好坏，而是通过多组数据测试后，做出评价，才能判断一个模型的优略。

N折交叉验证。对不同的划分，得到的不同评价给出评价，可以更好的利用标签数据，更稳健。代价是增加了计算的负担。

N折交叉验证的特例。减一交叉验证（Jackknifing）。当n训练集个数。劣势：训练很慢；当有大量数据时，计算昂贵。

优势：训练数据有限的领域中作用很大，可以最大化用于训练的数据；非常适合某些分类器。

Bootstrap重抽样

假设：训练集t有n个样本。

做m次：从训练集中有重复的抽n个样本形成一个新的训练集t’；在t’上训练模型；在测试集上评价表现。

2.2 不均衡数据预测的评估方法出现不平衡问题的领域

医学诊断（例如癌症），预测故障（例如硬盘故障、机械故障），预测罕见事件（地震等），检测欺诈（信用卡交易、互联网流量异常、黑客攻击等）。

准确率不再作为评估模型好坏的标准。出现了精确度和召回率。

正确的预测为“正面”正确的预测为“正面” 召回率 精确度预测为“正面”测试集中标签为“正面”最大化精确度：预测值都不是正面的；最大化召回率：预测值都为正面的。平衡精确度与召回率：通过置信度。

分类器好坏标准：精确度-召回率曲线下方面积（AUC）面积阈值：目前没有一个确定值。

评估精确度（P）/召回率（R）权衡的综合测度：F测度（加权调和平均值）：

(21)PRF 211PR(1)PR1当0.5时，F110.5110.5PR2PR PR第三章、回归分析 1. 概念

回归分析是使用方程来表达感兴趣的变量（因变量）与相关变量（自变量）之间关系的分析过程。

2. 回归分析的应用范围

回归分析广泛的应用于各种领域和各种学科。（工程学、物理学、经济学、管理学、生命科学等）

3. 回归分析的研究对象与目的

研究对象：具有相关关系的变量，即不能用函数刻画、但有一定的“趋势性”关系。（人的身高与体重、父亲身高与儿子身高）

研究目的：寻找他们之间客观存在的依赖关系。 4. 回归分析的模型

假设因变量y的取值可以看成由两部分组成：自变量决定部分f(x)和随机误差（未加考虑的因素）。即：yf(x)

若f(x)abx

则yabx（其中a叫回归常数，b叫回归系数，有时统称为回归系数）假设（数学期望）E()0，则E(y|x)f(x)abx（回归方程）估计回归函数

历史数据（样本）：(xi,yi),i1,,n满足：yiabxii 应用适当的统计方法，得到a和b的估计：yabx

^^^最小二乘估计：^bay-bx^_^__ni1(xix)(yiy)

2(xx)ii1n__推广：多元线性回归模型

y01x1pxp

历史数据：

(xi1,，xip,yi),i1,,n

回归方程：

^^^^y01x1pxp

5. 回归方程的应用

1. 定量刻画自变量与因变量的相依关系。（正相依关系、负相依关系） 2. 给定自变量的取值，可用回归方程预测相应因变量的取值。 6. 非线性回归

放宽自变量与因变量之间的线性假设：

y01xtxt

历史数据：

(xi,yi),i1,,n

回归方程：

^^^^y01xtxt 注：在实际应用中，对多项式中阶数t不宜取过大，

一般是3或4。

例子（多个影响因素共同作用时，交互效应x1*x2，可以减小平均拟合误差） 7. 样条回归

基函数回归

基本原理：对自变量x的函数或变换b1(x),,bt(x)进行回归建模，以如下方式代替普通的线性模型y01b1(x)tbt(x)

对于多项式回归，基函数是：bj(x)x

分段多项式回归：在自变量x不同取值区域各自拟合低阶的多项式函数。例如：分段三次多项式回归x在不同取值区域分别拟合如下模型：

j^^^^y01x2x23x3

4个回归系数在x的不同区域不必都相同。

回归系数发生变化的（x的）临界点称为结点（knot）. 只有一个结点c的分段三次多项式：（要拟合两个不同的多项式函数，其中一个在满足下x0111x21x231x3，yxx2x3,12223202xcxc

假如有K个结点，那么利用训练数据拟合K+1个不同的三次多项式，通常在结点

处是不连续的。（不合理）

所以需要对每一个三次多项式函数添加一个连续性的约束，但这还不够，尽管连续，但有可能不够光滑，出现尖角或斜率变化过大等情况。

因此还需要对回归函数在结点处的一阶导数和二阶导数添加约束，使得回归函数具有足够的光滑性。

分段拟合一个三次多项式，并添加多个约束使得多项式函数足够光滑的方式，有时候显得比较繁琐。使用等价做法“基函数回归方法”

基函数回归方法

一个带有K个结点的三次样条回归模型可以表示为：

y01b1(x)K3bK3(x)

可采用最小二乘的方法来拟合。

对上述模型中，以三次多项式的基（x，x的平方，x的三次方）为基础，然后在每

(x)3,xh(x,)0,个结点处添加一个截断幂（其中是结点。） x拟合带有K个结点的三次样条，只需把来建立回归模型，

x,x2,x3,h(x,1),,h(x,K)作为自变量

1,,K是结点。

红色实线是三次样条的回归线，两条红色的虚线是置信水平为0.95的置信带。两条红色的虚线比较宽，自然样条可以缓减这种问题。

自然样条：添加了边界约束的样条回归（回归函数在边界区域是线性的）。这使得自然样条在边界处产生更稳定的估计。

蓝色实线是自然样条回归曲线，两条蓝色的虚线是置信水平为0.95的置信带。显然蓝色虚线比红色虚线要窄。曲线回归的主要目的是预测。样条回归的两大问题:

1. 应该设置多少个结点？

若节点过多，样条的回归曲线会非常曲折；若节点过少，样条的回归曲线将过于平坦。实际中，使用交叉验证法（选择测试均方误差最小的样条回归所对应的K值作为节点数）。

2. 结点应该选在什么位置？

令结点在数据上呈现均匀分布是一种行之有效的方法。

光滑样条回归

给定训练数据像拟合一条光滑回归曲线，需要找到某个函数g(x)，使它与训练数据能很好的吻合（使误差平方尽可能小

2）。 (yg(x))iii1n若选择函数g在每个样本点做插值，便可得到一个取值为0的误差平方和。（过拟

合，欠光滑！）

实际上，真正需要的函数g的曲线既能够让误差平方和尽可能小，也要让回归曲线尽量光滑。

保证光滑的方法：最小化以下的“损失+惩罚”函数

22(yg(x))[g''(t)]dt，其中，是一个非负的调节参数。通过最小iii1n化上述目标函数得到的函数g的曲线就是光滑样条。

ni1(yig(xi))2 是损失函数，使得函数g的曲线尽可能拟合训练数据。

[g''(t)]2dt是惩罚函数，对函数g的曲线的波动性进行惩罚。

如果函数g的曲线非常光滑近似一条直线，那么[g''(t)]2dt取值偏小，若函数g

的曲线跳跃性太强，则[g''(t)]2dt取值偏大。

越大，函数g的曲线越光滑。当时，函数g的曲线会变成一条尽可能接近所有训练数据的直线，即最小二乘回归直线。当0时，惩罚函数不起作用，函数

g的曲线会变得非常跳跃且在每个训练数据点上做插值。

最小化得到函数g的性质：在不同的x1,，xn处，函数g是带结点的三次多项式函数；在每个结点处的一阶导数和二阶导数是连续的；在两个边界节点之外的区域是线性的。

在实际应用当中，通过交叉验证法选择的大小。

用光滑样条回归方法处理数据，用交叉验证的方法选择。 8. 局部回归

22(yg(x))[g''(t)]dt iii1n局部回归方法是一种非参数回归方法（事先不设定模型的参数，增加了模型的灵活

度及适应性）。

非参数回归模型的拟合方法： 1. 基于基函数逼近的整体形方法 2. 基于光滑思想的局部拟合方法非参数回归模型一般形式

ym(x)，对m值做一些连续性或光滑性的要求。

利用样本数据估计回归函数m(x)

局部常数拟合方法（Nadaray-Watson）N-W估计方法

对任意的x0D（D是自变量x的取值范围），通过合适的函数（核函数）利用自变量的观测值在x0吃产生权值（越靠近x0权值越大），基于权值对因变量的观测值进行加权平均，得到回归函数m(x)在x0点的估计。其中加权平均的范围由带宽的参数所控制。

具体方法如下：设K(x)为给定的核函数，对称、单峰，且满足lim|t|K(t)0（概率密度函数），记Kh(t)1tK()，其中，h>0为带宽。 hhxix0)yi^K(xx)yhi0ihi0N-W估计：mNW(x0) ni0Kh(xix0)in0K(xix0)hni0K(n当h接近0时，mNW(xj)K(0)yj/K(0)yj

_1n当h很大时，mNW(xj)i0K(0)yi/K(0)yii0yiy

n^n^h越大，估计的回归函数曲线越光滑，从而可能导致欠拟合；h越小，估计的回归函数曲线的波动越大，从而可能导致过拟合。

在实际中用交叉验证法进行选择。常用的核函数： 1. Gauss核

K(t)11exp(t2)

222. 对称Beta函数族

K(t)1(1t2),0,1,2 1Beta(,1)22(ya(x))Kh(xix0) iii1nN-W估计可以看成是下面的加权最小二乘问题：

mina(x0)N-W估计其实是将回归函数在没一点的局部视为常数，然后通过加权最小二乘法

得到回归函数在这点的估计。N-W估计也被称为局部常数估计。

更优的估计：在每一点的局部用p次多项式逼近回归函数，然后基于加权二乘法得到回归函数在个点的估计。

局部多项式光滑方法：

设m(x)有n阶连续导数，对于任意给定的x0D，由Taylor公式，在x0的领域

m(x)m''(x0)m(p)(x0)2内m(x0)m'(x0)(xx0)(xx0)(xx0)p

2p!j(x0)(xx0)jj0p其中j(x0)m(x0)/j!,j0,1,，p

局部多项估计利用加权最小二乘方法在x0的局部拟合上述多项式，

(j)0(x0)m(x0)作为函数m(x0)在x0的估计值。

目标函数：

^^j2(y(x)(xx))Kh(xix0) ij00i1j0np9. 广义加性模型

广义加性模型（generalized additive model,GAM）提供了一个推广标准线性回归模型的一般框架。

在这个框架里，每一个自变量都被一个它的非线性函数所取代，同时任然保留自变量的可加性。

模型：y0f1(x1)fp(xp)

之所以是加性的，是由于xj的样本数据拟合fj(xj)，j1,2,,p然后将P个拟合（拟合方法：样条回归、多项式回归、局部回归等）出来的函数进行加总。

优点：

1. 可自动的对自变量和因变量进行非线性关系的建模。 2. 非线性拟合可能会提高对因变量的预测精度。 3. 因加性，在保持其他自变量不变的情形下可以分为每个自变量对因变量的单独效应。

缺点：

它的加性，忽略了自变量之间的交互效应。

要想摆脱广义加性模型在模型形式上的设定缺陷，可以使用随机森林等更一般的方法。广义加性模型可以视为介于线性模型和完全非参数模型之间的一类折中的方法。第四章、回归方法

逻辑斯蒂回归

逻辑斯蒂回归（logistic regeression）是统计中的经典分类方法。因变量是定性变量（假设只取两个值），而自变量既可以是定量的变量，也可以是定性的变量。

对定性变量可以通过“哑变量”的方法把它数量化。

假设因变量y是信用卡持有人的违约状态，那么他有“违约”和“未违约”两个状态。

1,违约将Y数量化，即：Y。

0，未违约假设要基于一个人的年收入x1和信用卡余额x2预测其违约状态。记：X(X1,X2)T，建立：p(X)P(Y1|X)与X之间的关系，利用的p(X)大小对信用卡用户进行分类。如：若p(X)0.5定位“违约”。

假设自变量只有一个，建立p(X)P(Y1|X)与X之间的关系： 1. 用线性回归模型来为概率大小建模：

p(X)01X

^^缺陷：p(X)的取值范围为[0，1]，而01X的取值范围不受[0，1]的。甚至可能是无穷。

需要找到一个函数，针对p(X)的模型，使得对应的输出结果都在0到1之间。例如，随机变量的分布函数的反函数，用的更多的是逻辑斯蒂函数：

e01Xp(X) 等价写为p(X)e01X 01X1e1-p(X)p(X)称为发生比，p(X)。发生比趋于0.则发生的概率比较小。（0，）1-p(X)1-p(X)否则，发生的概率比较大。

对p(X)e01X取对数：log（p(X)）01X 1-p(X)1-p(X)对数发生比相当于关于X的回归模型。

极大似然法估计逻辑斯蒂模型中的参数。其基本思想是：

寻找0,1的一个估计，使得由逻辑斯蒂模型得到的每一个的违约预测概率最大可能的与违约的观测值接近。即，所求得的0，1带入逻辑斯蒂模型中，使得所有违约人的预测值接近于1，而为违约人的预测值接近于0。

似然函数：L(0,1)p(xi)(1p(xi'))

i:yi1i':yi0^^所得到的系数估计应使似然函数值最大。

在逻辑斯蒂回归中，通常采用梯度下降法或者牛顿迭代法求系数估计。求出0，1后，可以用p(X)e^^来预测概率的大小并作分类。 1e01X^^^01X^^判别归类

假设观测分成K类，K2,k为一个随机观测属于第k类的先验（prior）概率。

fk(x)P(Xx|Yk)表示第K类观测的X的密度函数。如果，第K类观测在Xx附

近有很大可能性，那么fk(x)的值会很大，否则fk(x)的值会很小。

根据贝叶斯定理：pk(x)P(Yk|Xx)kfk(x)l1K（pk(x)表示Xx的观测

lfl(x)属于第k类的后验概率，即给定自变量的观测取值时，观测属于第K类的概率。）

估计k：取一些随机样本，计算属于第K类的样本占总样本的比例。

贝叶斯分类器：将把一个待判别的x分类到使得pk(x)达到最大的那个类的方法。例如：在一个二分问题中，只有两个可能响应值，一个为类1，另一个为类2。如果

P(Yk|Xx)0.5则贝叶斯分类器将观测分类到类1，否则分到类2。

线性判别分析（linear discriminat analysis ,LDA）：假设预测变量只有一个，fk(x)是正态的：

fk(x)P(Xx|Yk)2其中12k2

11exp{-2(x-k)2},xR，

2k2k11exp{-2(x-k)2}22那么pk(x)P(Yk|Xx)K

11lexp{-2(x-l)2}22l1k通过取对数，可以知道，贝叶斯分类器是将观测值x分类到使得

kk2kx22logk达到最大那一类。

2假设K2,12则当2x(12)12时，贝叶斯分类器将观测值分入类1，

22122212否则分入类2。贝叶斯决策边界：x。 2(12)2在实际中需要估计参数1k,1k和.

21估计方法：knk^^nk1K2，其中n为观测总量，x,(x),kiiknKk1i:yikni:yik^^2nk属于第K类观测量，k为第K类观测的样本均值。

二次判别分析（Quadratic Distcriminant analysis ,QDA）：

线性判别分析：假设每一类观测服从一个多元正态分布，其中所有K类的方差（或协方差矩阵）是相同的。

二次判别分析：假设每一类观测服从一个正态分布，然后把参数估计带入贝叶斯分类器进行类别预测。（每一类都有自己的方差和协方差）

假设来自第K类的随即观测服从正太分布N(k,k)，贝叶斯分类器把观测分入使得

2k--12k12k22(xk)2logkx2-xklogk222k12k^22k2达到最大的那一类。把未知参数用相应的估计代入，

即可得到QDA的判别函数k-何时用哪种分类呢？

x-2xk2k^2^k2^2^2logk

^当有p个自变量时，LDA的协方差矩阵有p(p1)/2个参数，而QDA的K个协方差

矩阵有个数Kp(p1)/2个参数。所以，LDA没有QDA分类器光滑，LDA拥有更小的方差和更大的预测偏差。

如果训练观测数据量较少，宜选用LDA；如果训练数据集很大，宜选用QDA。 K最近邻（K-nearest neighbor,KNN）法，是一种回归与分类方法。

首先给定一个训练数据集，其中的观测类别是给定的。分类时对新的观测根据其K个最邻近的训练数据的类别，通过多数表决等方式进行类别预测。（不具有显式的学习过程）

K最近邻法的三个基本要素： 1. K的选择； 2. 距离度量； 3. 决策规划。

算法：1：输入：训练数据集其中，为训练数据的特征向量，为训练数据的类别。待分类数据特征向量为x； 2：过程： 1）根据给定的距离度量在训练数据集T中找到与x最邻近的k个点，涵盖这k个点的x的领域记为2）在；中根据分类决策规划（如多数表决）决定x的类别y： 3：输出：待分类数据x的类别y. 特征空间中两个训练数据点xi(xi1，，)的距离通常采用，xip)Txj(xj1，欧氏距离：L2(xi,xj)(T

|xm1pim-xjm|)

212k的选择对最近邻分类器有着本质的影响：

当k=1时，把最近邻的哪一个数据的类别当成预测类别，此时，最近邻分类器偏差较小，但方差很大，决策很不规则。

当k变大时，方差较低，偏差却很大，将得到一个接近线性的决策边界。在实际中，用交叉验证的方法选择k的大小。

k近邻法的分类决策规则往往采用多数表决，即由训练数据集中的k个临近的观测数据中的多数类决定待分类数据的类别。

多数表决规则的统计解释：如果分类的损失函数为0-1损失函数，分类函数为：

f:Rp{c1,,cL}，则误分的概率为P(Yf(x))1P(Yf(x))

对给定的分类数据x，其最邻近的k个训练数据点构成集合Nk(x)。如果涵盖Nk(x)的

区域的类别是cj那么误分概率为：

11I{yc}1jjI{yjcj}

kxiNk(x)kxiNk(x)要使误分概率最小，就要使

1I{yjcj}最大，所以多数表决规则等价于经验风险kxiNk(x)最小化。

回归树：

回归树是决策树的特例。决策树能够让我们根据安排在属性结构里的一系列规则来对因变量进行预测。

建模的因变量可以是数值型的也可以是类别型的。当建模的因变量是数值型时，可利用决策树处理回归问题（也叫回归树）；建模的因变量是类别型的，可利用决策树来处理分类问题（也叫分类树）。

决策树优点：1.模型具有可读性；2.预测速度快。

学习时，利用一定的原则建立决策树模型，得到新的观测后，可利用决策树模型进行预测。

引入回归树例子：

假设利用工龄（X1，年）和上一年度出勤数（X2，星期）来预测某企业一线工人年薪（y，万元）

X1<3 回归树叶内节5 X2<35 回归树叶结点 R1 7 R2 8 R3 工资

记X(X1,,Xp)，建立回归树的过程：

1. 将自变量空间（即X1,,Xp的可能取值构成得集合）分割成J个互不相容的区域； 2. 对落入区域Rj的每个观测做同样的预测，预测值取为Rj区域上训练数据的平均响应值。

“第一步”至关重要：

出于对模型简化和增加模型的可解释性的考虑，通常将自变量空间划分为高维矩形（或称“盒子”）。划分区域的目标是找到使模型的残差平方和（RPSS）最小的矩形区域。

T残差平方和（RPSS）：

(yjy(Rj))2其中

j1iRjJ^y(Rj)^是第j个矩形区域中训练观测

的平均响应值。

一般采用递归二叉来将自变量空间划分为J个矩形区域。（从树的顶端开始依次自变量空间，每个点产生两个新分支，仅限于某一局部过程）

此方法在训练集中取得良好的预测效果，但很有可能造成数据的过拟合，导致在测试集上表现不佳。（树可能过于复杂）

通过先生成一颗很大的树T0，然后剪枝（选出测试误<测试集上的预测误差，可通过交叉验证或验证集来计算>差最小的子树）得到子树解决。

回归树算法：1.利用递归二叉在训练集中生成一颗大树，当叶节点包含的观测值个数小于某个阈值时才停止；2.对大树进行成本复杂性剪枝，得到一系列（相对）最优子树，子树是的函数；3.利用K折交叉验证选择最优的。先将训练集分成K折，然后对所有的K=1，…，K；1）对训练集上所有的不属于第K折的数据重复步骤1.2.，得到与对应的子树；2）求出上述子树在K折上的均方预测误差，并选取使均方误差达到最小的的值。4.在2.中找到与选出的值相对应的子树。

分类树和回归树的区别：

分类树被用于预测定性变量（即类别变量）而非定量变量。

在回归树中，响应预测值取它所属的叶节点的训练观测的平均响应值。在分类树中，相应预测值取它所属的叶节点的训练观测中最常出现的类别。

分类树也采用递归二叉法。但在分类树中无法残差平方和（RPSS）无法作为的准则。用分类错误率来代替。

分类错误率：此区域的训练观测中非最常见类别所占的比例。Em1maxpmk，其中k^^pmk表示第m个区域的训练观测中第K类所占的比例，maxpmk是分类的正确率。（不够k^敏感）

基尼指数：

第m个结点的基尼指数定义为：Gm^pk1K^mk(1maxpmk)。其中K表示类别总数。k^若所有pmk取值都接近0和1，基尼指数将会很小。因此可用他来衡量结点的纯度。

互熵：

Dmpmklogpmk 如果所有的pmk的取值都接近0或1，那么互熵的取值接近0.

k1K^^^因此，若第m个结点的纯度较高，则互熵的值较小。

基尼指数、互熵用来衡量特定点的效果。但若目标是追求更高的预测准确性的话，此时建议选择错误率这一指标。

Bagging分类

集成学习：通过构建并整合多棵分类树来完成分类任务。

个体分类树1 个体分类树2 ……整合称一棵树（集成树）预测输出个体分类树T

要想获得好的集成树，个体分类树应做到“好而不同”，个体树要有一定的“准确性”，预测性不能太差；同时要有“多样性”，个体树之间要有差异。

根据个体分类树的产生方式，集成树的产生方式有两种：

1. 个体树之间不存在强依赖关系，可以同时生成的并行化方法；（Bagging、随机森林） 2. 个体树之间存在强依赖关系，必须串行生成的序列化方法。（Boosting） Bagging分类：

主要关注的是：降低预测模型的方差

，Zn，假设他们的方差都是，那么样本均实现方法：给定n个随机变量Z1，1n2值ZZi的方差为/n。

ni1_从总体中抽取多个训练集，对每个训练集分别建立预测模型，再对由此得到的全部预测模型求平均，得到一个集成模型。

即可以用B个的训练集训练出B个模型：f(x),,f(x)然后求平均，得到一个低方差的模型：

^1^B1B^bfavg(x)f(x)

Bb1^在实际中不容易找到多个训练集。自助抽样法（Bootstrap）可以解决这个问题。

可以从一个单一的训练集中不断的重复抽样，这样就可以生成B个自助抽样集，用第b个自助抽样训练集训练出模型f^*b这就是Bagging。

实践表明，B的大小不是一个对Bagging起决定作用的参数。往往取足够大的B值使分类错误率能够大幅度降低并稳定下来。由于Bagging主要关注降低预测模型的方差，因此比未剪枝决策树、神经网络等易受样本扰动的学习器在模型预测的准确性上更优。

Bagging对模型预测的准确性的提升是以牺牲模型的可解释性为代价的。

2(x)1B^*bb1,,B最后进行平均fbag(x)f(x)Bb1^在Bagging分类树的建模过程中，可以对某一给定的预测变量在一棵个体分类树上因导致基尼指数的减少量进行加总，再在所有B棵个体分类树上求平均。平均值越大说明这个自变量越重要。

随机森林（代表集成学习技术水平的方法）：

随机森林是对Bagging的改进，他以决策树为基础构建Bagging分类树的基础上，进一步在决策树的训练过程中引入了自变量的随机选择，从而达到对树的去相关（decorrelating），实现对Bagging的改进。

在随机森林需要对自助抽样训练集建立新建的个体分类树，与Bagging类似。但是，在建立这些个体分类树时，每考虑树上的一个点都要从全部的p个自变量中选出一个包含

q(1qp)个自变量的随机样本作为候选变量。这个点所用的自变量只能从中q个变

量中选择。在每个点处都重新进行抽样，选出q个自变量。如果qp，这个随机森林就是Bagging，通常q为p的平方根。

假设数据集中有一个很强的自变量和其他一些中等强度的自变量。在Bagging方法中，大多数个体分类树会将最强的自变量用于顶部点，造成Bagging中所有的个体分类树看起来很相似，导致他们的预测输出具有高度相关性。

与对不相关的变量求平均相比，对高度相关的变量求平均所带来的方差减少量是无法与前者相提并论的。在这种情况下，Bagging分类树与单棵分类树相比不会带来方差的大幅度降低。

随机森林强迫每个点仅考虑自变量一个子集，克服了上述困难。最强的那个自变量就不会出现在大约(pq)/p比例的点上，所以其它自变量就有更多的入选点的机会。

这样得到的集成树有更小的模型方差，因此预测结果更加稳定、可靠。

随机森林对只做了一个小改动，中的分类树的“多样性”仅来自样本扰动（通过对初始训练集进行多次抽样），而随机森林中分类树的多样性不仅来自样本扰动，还来自自变量的扰动，这就使得最终的集成分类树可通过个体分类树之间的差异性的增加而得到进一步的提升。

在实践中应取足够大的B，使分类错误率能降低到一个稳定的水平。 Adcboost：

Boosting使一族可将弱分类器提升为强分类器的算法。 1. 从初始数据集训练出一个若分类器；

2. 根据这个分类器的表现对训练样本分布进行调整，使得先前分类器错分的训练样本在后续得到更多的关注；

3. 基于调整后的样本分布来训练下一个分类器；

4. 如此重复，直到获得的分类器的数目达到事先给定的值T； 5. 将这个T进行加权整合，得到一个强分类器。

算法（Adcboost）： 1.：输入：训练集2.过程：（a）（b）对（c）（d）；执行；；；；分类器算法；训练轮数T；（e）如果，则停止；否则，继续执行；（f）；（g）令（h）循环结束。 3.输出：

从偏差方差权衡的角度看，Adcboost主要关注降低偏差，因此Adcboost能够基于泛化性能相对较弱的分类器构建出很强的集成分类器。

支持向量机（support vector machine,SVM）

一种分类方法。可看作是一类简单、直观的最大间隔分类器（maximal margin classifier）的推广。

最大间隔分类器

超平面：在p维空间中，超平面是一个p-1维的平面仿射子空间（仿射意味着这个子空间不经过原点）

T在p维空间中，超平面可用bxa0，其中，b(b1,,bp)为法向量，决定了超

T平面的方向，a为位移项决定了超平面与位移之间的距离。将超平面记为（b,a）。

T样本空间中的任意点x(x1,,xp)到超平面的距离为dbTxab

T假设x(x1,,xp)不满足dbTxab，如果bxa0则x落在超平面的某一侧；

T如果bxa0则x落在超平面的另一侧。

T给定训练集Dx1,y1,,xm,ym,yi1,1

其中-1和1分别代表不同的训练集。

目标：根据这个训练集构造一个性能优良的分类器。分割超平面可以将类别不同的标签数据分割开来。

若分割超平面（b,a）能将训练样本正确分类，则

bTxa0.如果yi1Tbxa0.如果yi1构造分类器：

i1,,m

T设x*(x1*,,xp*)为一个测试观测。可根据f(x*)bx*a的符号来对测试观测

T分类：符号为正，将测试观测分入“1”类；否则将测试观测分入“-1”类。

超平面有无数个。

最大间隔超平面是离训练观测最远的那个分割超平面。

首先计算出每个训练观测到一个特定的分割超平面的垂直距离，这些距离的最小值就是训练观测到分割超平面的距离，这个距离被称为间隔。最大间隔超平面就是间隔最大的分割超平面。

通过和观察测试观测落在最大超平面的哪一侧，判断测试观测的类别归属，这就是最大间隔分类器。

有两个训练观测落在了虚线上，它们到最大超平面的距离一样大，这两个训练观测就称为支持向量，因为他们支持着最大间隔超平面。

可以看出，只要这两个点的位置稍微移动，最大间隔超平面就会随之移动，因此最大间隔超平面由支持向量决定，跟其他的训练感受无关。也就是说，只要其他观测在移动的时候落到边界面的另一边，那么其位置的改变就不会影响最大分割超平面。

一个很重要问题是：如何通过训练观测构造最大间隔分类器？下面我们从理论的角度来分析这个问题。

通过缩放变换先将

bTxa0.如果yi1Tbxa0.如果yi1i1,,m

bTxa1.如果yi1改写为Tbxa1.如果yi1T等价于yi(bxa)1i1,,m

i1,,m

中间的黑色直线是最大间隔超平面，这个间隔大小为1b。

显然，为了最大化间隔，我们仅需最小化bbTb，于是，为了寻找最大间隔超平面，我们只需求解下面的优化问题。

12minbb,a2（凸二次规划问题，用现成的式子来求解） Ts.t.yi(bxia)1,i1,,m2通过上式来得到最大间隔超平面所对应的模型，f(x)bTxa

支持向量分类器：

如果分割超平面确实存在，那么对最大间隔分类器是一种非常自然的方法，但是在许多情况下分割超平面并不存。在下面图给出来这样的一个例子

：显然无法找到一个最大间隔分类器把他们完全区分开来，也就是说不存在最大间隔分类器。

另一方面，即使分隔超平面确实存在，但基于分割超平面的分类器仍有不可取的时候，因为基于分割超平面的分类器需要将所有的序列观测都正确进行分类，这样的分类器对观测个体是非常敏感的。

我们给出一个例子，在上面这张图中我们增加了一个红色观测，结果最大间隔超平面就发生了大幅度的变化，而且最后得到的最大间隔超平面是的间隔很小，这是有问题的。（因为一个观测到最大间隔超平面的距离，可以看成是分类的准确性的度量，此外，最大间隔超平面对单个观测的变化及其敏感，这也说明他可能过拟合训练数据）在这种情况下，为了提高分类器对单个观测分类的稳定性以及为了使大部分训练观测能更好的被分类，我们可以考虑非完美分类的超平面分类器（允许小部分训练观测被误分能保证对其余大部分观测能实现更好的分类）。

支持向量分类器，也称为软间隔分类器：与其寻找可能的最大间隔，要求每个观测不仅落在超平面观测正确的一侧，而且还必须正确的落在间隔面错误的一侧，甚至落在超平面错误的一侧。

落在错误一侧的观测叫支持向量。

支持向量分类器允许某些观测不满足约束yi(bTxa)1

在最大间隔的同时，要求不满足观测的个数尽可能少。优化目标：

m12minbCl0/1(yi(bTxia)1) b,ai12l0/1是其中C0式调节参数，在间隔大小和越过间隔面的观测个数之间维持权衡关系，

“0/1损失函数”。

1,l0/1(z)0,z0z0（非凸非连续使得优化函数很难直接求解）

通常用其他的一些函数来代替l0/1，称为“替代损失函数”。替代损失函数通常是凸的连续函数且是l0/1的上界。常用hinge损失函数：lhinge(z)max(0,1z)

m12则优化函数为：minbCmax(0,1yi(bTxia))引入松弛变量i0，将

b,ai12上式写为：

m12minbCib,a,i2松弛变量i用来表征不满足约束的程i1s.t.y(bTxa)1，0，i1,,miiii度。

支持向量分类器的判断规则只由训练观测的一部分（支持向量机）确定，着

意味着，对于距离超平面较远的观测来说，分类器是非常稳健的。

支持向量机（非线性分类边界）

支持向量机是支持向量分类器的一个推广，支持向量机采用核函数来扩大特征空间。

解决方法：对于线性不可分的分类问题，从样本原始空间映射到更高维的空间，使得样本在这个特征空间里是线性可分的。

令(x)表示将x映射后的特征向量，在特征空间中分割超平面所对应的模型可以表示为：

f(x)bT(x)a

m12TminbCl(y(b(x）a)1)0/1ii优化问题：b,a2i1

用hinge损失替代上式中

l0/1

则优化函数为：

m12minbCmax(0,1yi(bT(xi)a))b,ai12

引入松弛变量

i0，将上式写为：

m12minbCib,a,i2i1s.t.y(bT(x)a)1，0，i1,,miiii

松弛变量

i用来表征不满足约束的程度。

最终转化为对偶问题来解决：

m1mmTminyy(x)(x)iijijij2i1j1i1ms.t.y0.0Ci1,,miiij1

(xi)T(xj)高维时很难求解，对偶问题重写：

m1mmminyyK(x,x)iijijij2i1i1j1ms.t.y0.0Ci1,,miiij1 求解后即可得到：

f(x)b(x)aiyik(x,xi)a 其中k(x,xi)是核函数。

Ti1m常用核函数名称线性核函数多项式核函数径向核函数拉普拉斯核函数 Sigmoid核函数决策树：

数据的表示：标签：

表达式 k(xi,xj)xixj k(xi,xj)(xixj)d TT参数 d1 k(xi,xj)exp(||xixj||2) k(xi,xj)exp(||xixj||2) 0 T0 0,0 k(xi,xj)tanh(xixj) 合奏（Ensemble）学习：

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文