0%

读统计学习方法(一)

统计学习方法第一章

统计学习

  • 定义:对数据的预测和分析。
  • 研究对象:数据(特征)(数字、文字、图像、音视频等)(离散、连续)
  • 方法:本书的主要内容
  • 平台:计算机及网络
  • 中心:模型的选择与学习
  • 目的:对数据预测、分析(性能的提高、为我们提供新的知识、带来新的发现)
  • 假设:同类数据具有一定的统计特性。

的一门交叉学科。

统计学习的三要素

  • 模型
  • 策略(评价准则)
  • 算法

    统计学习方法解决的问题

  • 分类问题
  • 标注问题
  • 回归问题

学习的定义

  • 执行某个过程而改善它的性能。学习要做到准确和高效,就是所谓的可靠性和有效性。

统计学习方法的研究内容

  • 统计学习方法
  • 统计学习理论(算法的有效性,可靠性)
  • 应用

统计学习方法的重要性

  • 处理海量数据的有效的方法. 很好的应对不确定性.
  • 智能化的有效手段. 可以模仿人的智能(好还是不好?).
  • 计算机科学(系统,计算,信息)的重要的组成部分. 是信息技术的核心.

监督学习

输入 —> 模型 —> 输出

输入空间, 输出空间和特征空间

  • 所有输入$x$,输出$y$,特征的所有可能取值的集合成为输入空间$X$,输出空间$Y$和特征空间(有限空间,欧氏空间).

训练数据集

$T = {(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}$
其中,每个tuple$(x_i,y_i)$都称为一个样本.

根据输入输出的类型,可以对监督学习进行分类

输入变量 输出变量
回归问题 连续 连续
分类问题 / 离散
标注问题 变量序列 变量序列

假设条件

  • 训练书籍和测试数据依联合分布概率$P(X,Y)$

假设空间(学习范围)

  • 输入空间到输出空间映射的集合$\mathcal{F}$.

模型可以有概率模型$P(Y|X)$或由非概率模型的决策函数$Y=f(x)$表示

具体实现的过程

  1. 学习
  2. 预测

监督学习问题

$(x_i, y_i),i=1,2,…,N$为样本点.

$x_i\in X\subseteq \mathbb{R}^n$为输入的观测值.

$y_i\in Y$输出的观测值.

选取最好的模型,对训练数据集有很好的预测,对未知的测试数据集的预测也有很好的推广.

模型

模型即假设空间,详见公式(2).

策略

即为选优准则(经验风险最小/结构风险最小)

损失函数

  • 损失函数:一次预测的好坏

损失函数为$f(X)$和$Y$的非负实值函数$L(Y,f(X))$

常用的损失函数:

  1. 0-1损失函数
  2. 平方损失函数
  3. 绝对损失函数
  4. 对数(似然)函数

风险函数

  • 风险函数:多次预测的好坏

学习的目标:选择期望风险最小的模型.

  • 经验风险或平均风险.
  • 经验风险最小化(ERM)和结构风险(SRM)最小化

    • 经验风险最小化
    • 结构风险最小化:经验风险+表示模型复杂度的正则化项.

算法

通过上面对策略的分析,可以将统计学习的问题归结为了最优化的问题.

对简单问题,我们可以得到解析解. 对复杂的问题我们采用数值分析的方法进行求解.

模型选择

  • 避免过拟合的方法
    1. 正则化
    2. 交叉验证

常用的正则化项

  • L2范数
  • L1范数
  • 贝叶斯估计的角度:正则化项对应于模型的先验概率. 条件减少熵(我自己加的).

泛化能力

  • 模型对未知数据的预测能力