统计学习理论学习笔记(一)

第一章 统计学习方法概论

统计学习

统计学习,也称统计机器学习(statistical machine learning)。统计学习方法:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)等。
统计学习方法三要素:模型(model)、策略(strategy)、算法(algorithm)。

监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

  • 输入/输出空间(input/output space):将输入与输出空间可以是有限元素的集合。
  • 特征空间(feature space):每个具体的输入是一个实例(instance),通常有特征向量(feature vector)表示,这时所有特征向量存在的空间称为特征空间。

习惯上,input:X,output:Y,输入输出的取值用小写x,y。输入实例x的特征向量记作(多用列向量表示)
$$x = (x^{(1)}, x^{(2)},···, x^{(i)},···,x^{(n)})^T$$
其中 $x^{(i)}$ 表示$x$的第$i$个特征。
训练数据由输入(或特征向量)与输出对组成,训练集通常表示为
$$T = {(x_1,y_1), (x_2,y_2), ···, (x_N,y_N)}$$
测试数据也由相应的输入与输出对组成。输入与输出对又称为样本(sample)或样本点。

统计学习假设数据存在一定的规律,假设输入与输出的随机变量X和Y遵循联合概论分布$P(X,Y)$。
160302-1.jpg
图1
监督学习的目的是学习一个由输入到输出的映射,这一映射用模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确立就意味着学习范围的确定。
监督学习的模型可以是概率模型非概率模型