统计学习方法第一章
统计学习
- 定义:对数据的预测和分析。
- 研究对象:数据(特征)(数字、文字、图像、音视频等)(离散、连续)
- 方法:本书的主要内容
- 平台:计算机及网络
- 中心:模型的选择与学习
- 目的:对数据预测、分析(性能的提高、为我们提供新的知识、带来新的发现)
- 假设:同类数据具有一定的统计特性。
的一门交叉学科。
统计学习的三要素
学习的定义
- 执行某个过程而改善它的性能。学习要做到准确和高效,就是所谓的可靠性和有效性。
统计学习方法的研究内容
- 统计学习方法
- 统计学习理论(算法的有效性,可靠性)
- 应用
统计学习方法的重要性
- 处理海量数据的有效的方法. 很好的应对不确定性.
- 智能化的有效手段. 可以模仿人的智能(好还是不好?).
- 计算机科学(系统,计算,信息)的重要的组成部分. 是信息技术的核心.
监督学习
输入 —> 模型 —> 输出
输入空间, 输出空间和特征空间
- 所有输入$x$,输出$y$,特征的所有可能取值的集合成为输入空间$X$,输出空间$Y$和特征空间(有限空间,欧氏空间).
训练数据集
$T = {(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}$
其中,每个tuple$(x_i,y_i)$都称为一个样本.
根据输入输出的类型,可以对监督学习进行分类
输入变量 | 输出变量 | |
---|---|---|
回归问题 | 连续 | 连续 |
分类问题 | / | 离散 |
标注问题 | 变量序列 | 变量序列 |
假设条件
- 训练书籍和测试数据依联合分布概率$P(X,Y)$
假设空间(学习范围)
- 输入空间到输出空间映射的集合$\mathcal{F}$.
模型可以有概率模型$P(Y|X)$或由非概率模型的决策函数$Y=f(x)$表示
具体实现的过程
- 学习
- 预测
监督学习问题
$(x_i, y_i),i=1,2,…,N$为样本点.
$x_i\in X\subseteq \mathbb{R}^n$为输入的观测值.
$y_i\in Y$输出的观测值.
选取最好的模型,对训练数据集有很好的预测,对未知的测试数据集的预测也有很好的推广.
模型
模型即假设空间,详见公式(2).
策略
即为选优准则(经验风险最小/结构风险最小)
损失函数
- 损失函数:一次预测的好坏
损失函数为$f(X)$和$Y$的非负实值函数$L(Y,f(X))$
常用的损失函数:
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数(似然)函数
风险函数
- 风险函数:多次预测的好坏
学习的目标:选择期望风险最小的模型.
- 经验风险或平均风险.
经验风险最小化(ERM)和结构风险(SRM)最小化
- 经验风险最小化
- 结构风险最小化:经验风险+表示模型复杂度的正则化项.
算法
通过上面对策略的分析,可以将统计学习的问题归结为了最优化的问题.
对简单问题,我们可以得到解析解. 对复杂的问题我们采用数值分析的方法进行求解.
模型选择
- 避免过拟合的方法
- 正则化
- 交叉验证
常用的正则化项
- L2范数
- L1范数
- 贝叶斯估计的角度:正则化项对应于模型的先验概率. 条件减少熵(我自己加的).
泛化能力
- 模型对未知数据的预测能力