1.3 统计学习方法的三要素
创始人
2024-03-12 01:44:17
0

1.3 统计学习方法的三要素

  • 监督学习的三要素
    • 模型
    • 策略
  • 无监督学习

统计学习方法的三要素为 模型+策略+算法


监督学习的三要素

模型

假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数,用F\mathcal{F}F表示。

  • 若定义为决策函数的集合:F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}
  • F\mathcal{F}F由一个参数向量决定的函数族构成:F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}F={f∣Y=fθ​(X),θ∈Rn}
  • 参数空间:Θ={θ∣θ∈Rn}\Theta=\left\{\theta \mid \theta \in \mathbf{R}^{n}\right\}Θ={θ∣θ∈Rn}

例如,线性回归:

  • 实例:x=(x(1),x(2),⋯,x(n))Tx=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}x=(x(1),x(2),⋯,x(n))T
  • 决策函数:f(x)=w(1)x(1)+w(2)x(2)+⋯+w(n)x(n)+bf(x)=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}+bf(x)=w(1)x(1)+w(2)x(2)+⋯+w(n)x(n)+b
  • 向量形式:f(x)=w⋅x+bf(x)=w \cdot x+bf(x)=w⋅x+b,其中,w=(w(1),w(2),⋯,w(n))w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right)w=(w(1),w(2),⋯,w(n))
  • 参数空间:所有可能的w和b组合的一个空间

  • 若定义为条件概率的集合:F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}
  • F\mathcal{F}F由一个参数向量决定的条件概率分布族构成:F={P∣Pθ(Y∣X),θ∈Rn}\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}F={P∣Pθ​(Y∣X),θ∈Rn}

例如,逻辑回归:

  • 实例:x=(x(1),x(2),⋯,x(n))Tx=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}x=(x(1),x(2),⋯,x(n))T
  • 条件概率分布:{P(Y=1∣x)=exp⁡(w⋅x+b)1+exp⁡(w⋅x+b)P(Y=0∣x)=11+exp⁡(w⋅x+b)\left\{\begin{array}{l} P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} \\ P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} \end{array}\right.{P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)​P(Y=0∣x)=1+exp(w⋅x+b)1​​

策略

损失函数:度量模型一次预测的好坏,记作L(Y,f(X))L(Y, f(X))L(Y,f(X))

  • 0-1损失函数:L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y, f(X))=\left\{\begin{array}{ll}1, & Y \neq f(X) \\0, & Y=f(X)\end{array}\right.L(Y,f(X))={1,0,​Y​=f(X)Y=f(X)​
  • 平方损失函数:L(Y,f(X))=(Y−f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Y−f(X))2
  • 绝对损失函数:L(Y,f(X))=∣Y−f(X)∣L(Y, f(X))=|Y-f(X)|L(Y,f(X))=∣Y−f(X)∣
  • 对数损失函数:L(Y,P(Y∣X))=−log⁡P(Y∣X)L(Y, P(Y \mid X))=-\log P(Y \mid X)L(Y,P(Y∣X))=−logP(Y∣X)

风险函数:度量平均意义下模型预测的好坏Rexp⁡(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy\begin{aligned} R_{\exp }(f) &=E_{P}[L(Y, f(X))] \\&=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) d x d y \end{aligned}Rexp​(f)​=EP​[L(Y,f(X))]=∫X×Y​L(y,f(x))P(x,y)dxdy​
经验风险:模型f(X)关于训练集的平均损失Remp(f)=1N∑i=1NL(yi,f(xi))R_{e m p}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)Remp​(f)=N1​i=1∑N​L(yi​,f(xi​))其中训练集T={(x1,y1),(x2,y2)⋯,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1​,y1​),(x2​,y2​)⋯,(xN​,yN​)}

当N→∞N \rightarrow \inftyN→∞ 时,根据大数定律,经验损失就会趋于风险函数,所以在一定程度上,用经验损失作为风险函数的估计是合理的

Remp (f)=1N∑i=1NL(yi,f(xi))⟶Rexp⁡(f)=EP[L(Y,f(X))],N→∞R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \inftyRemp ​(f)=N1​i=1∑N​L(yi​,f(xi​))⟶Rexp​(f)=EP​[L(Y,f(X))],N→∞min⁡f∈F1N∑i=1NL(yi,f(xi))\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)f∈Fmin​N1​i=1∑N​L(yi​,f(xi​))
但在现实生活中,样本容量N一般是有限的,甚至会很小,所以仅仅用经验风险来估计风险函数,效果并不理想,所以需要对其进行矫正

结构风险:
Rsrm=1N∑i=1NL(yi,f(xi))+λJ(f)R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)Rsrm​=N1​i=1∑N​L(yi​,f(xi​))+λJ(f)
结构风险最小化:
min⁡f∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)f∈Fmin​N1​i=1∑N​L(yi​,f(xi​))+λJ(f)

无监督学习

  • 模型:函数z=gθ(x)z=g_{\theta}(x)z=gθ​(x),条件概率分布Pθ(z∣x)P_{\theta}(z \mid x)Pθ​(z∣x)或条件概率分布Pθ(x∣z)P_{\theta}(x \mid z)Pθ​(x∣z)
  • 策略:优化目标函数
  • 算法:通常是迭代算法

注:以上笔记素材来自于 [B站_简博士_十分钟 机器学习 系列视频 《统计学习方法》]

相关内容

热门资讯

国家矿山安全监察局公布矿山智能... 人民财讯12月24日电,国家矿山安全监察局12月24日公布矿山智能化建设相关激励政策,其中提出,在煤...
中航基金杨中楷:政策+技术+资... 近日,A股商业航天板块在资本市场热度骤升。中航基金总监助理杨中楷在接受上海证券报记者专访时深入解读商...
北京:优化政策放宽非京籍家庭购... 新华社北京12月24日电(记者郭宇靖)为贯彻落实中央经济工作会议精神,着力稳定房地产市场,12月24...
清华招生办:遭冒用名义散布不实... 每经AI快讯,12月24日,清华大学招生办公室发布声明:近日,我办接到多所中学、家长及学生反映,有部...
北京楼市:三次松绑政策促需求释... 【12月24日消息,自去年9月起北京三次松绑楼市政策】自去年9月以来,北京已三次出台政策松绑楼市。业...
志邦家居(603801)发布董... 截至2025年12月24日收盘,志邦家居(603801)报收于9.22元,较前一交易日上涨0.44%...
注意,北京住房限购政策有调整! 24日,北京市住建委网站发布通知,进一步优化调整本市房地产相关政策,全文如下: 北京市住房和城乡建设...
鑫汇科及子公司陷施工合同纠纷 ... 12月24日,鑫汇科(920267)发布公告,公司及全资子公司鑫汇科电器的部分银行账户资金被冻结,冻...
北京房地产限购政策调整! | ... 12月24日,北京市住房城乡建设委、市发展改革委、人民银行北京市分行、北京住房公积金管理中心等4部门...