Lecture 1:绪论
概念说明
首先一些入门性的概念说明
- 机器学习是人工智能的一个特定领域,而深度学习是机器学习的一个具体技术
- 人工智能技术应用三要素包括算法、算力、数据
- 数据方面已有数据库、数据管理领域考虑
- 算力方面已有高性能计算、集成电路等领域考虑
- 而算法方面也需要专门的领域
- 人工智能和人工智能交叉不同
- 对人工智能的内核级学习,和在其他领域中交叉使用人工智能,学习的内容是不一样的
- 智能科学和人工智能也不同
- 智能科学强调“智能”(如何体现“智能”),而人工智能强调“人工”(如何实现“智能”)
- 强人工智能 vs 弱人工智能
- 强人工智能需要具有自主意识,往往全面达到、超过人类智能水平
- 弱人工智能不需要自主意识,可以在某一领域超过人类智能水平
- 只有自主意识才是区分性的特征
- 机器学习的经典定义是:利用经验改善系统自身的性能
一个典型的机器学习过程如下
事实上,机器学习可以理解为一种“有效的数据分析”,当已知样本的特征信息、样本信息(比如数量)足够充分时,机器能够对未知样本的特征进行预测
基本术语
让 LLM 进行总结
这段文本是周志华《机器学习》(“西瓜书”)第1章的经典内容,系统介绍了机器学习的基本术语。核心知识点概括如下:
基本定义
- 数据集:记录的集合。
- 示例/样本:关于一个事件或对象的描述(如一个西瓜)。
- 属性/特征:反映对象某方面表现的事项(如色泽、根蒂)。
- 属性值:属性上的取值(如青绿、乌黑)。
- 属性空间/样本空间/输入空间:属性张成的空间。
- 特征向量:示例在空间中的坐标向量。
数学表示
- 数据集:$ D = {x_1, x_2, \ldots, x_m} $
- 样本:$ x_i = (x_{i1}, x_{i2}, \ldots, x_{id}) \in \mathcal{X} $
- 维数:$ d $
- 标记:$ y_i $
- 样例:$ (x_i, y_i) $,其中 $ y_i \in \mathcal{Y} $
学习过程
- 学习/训练:从数据中学得模型的过程。
- 训练数据、训练样本、训练集
- 假设:学得的模型(关于潜在规律的假设)。
- 真相/真实:潜在的客观规律。
- 学习器:学习算法在给定数据和参数空间上的实例化。
学习任务分类
类型 预测目标 标记取值 示例 分类 离散值 有限类别 好瓜/坏瓜 二分类 两个类别 \(\{ -1, +1 \}\) 或 \(\{0,1\}\) 正类/反类 多分类 多个类别 $ \mathcal{Y}$ 回归 连续值 $ \mathbb{R} $ 成熟度 ≈ 0.95 聚类 无标记(簇划分) 无编号 浅色瓜/深色瓜 监督与无监督学习
- 监督学习:使用有标记的训练数据(分类、回归)。
- 无监督学习:使用无标记的训练数据(聚类)。
模型评估核心概念
- 泛化能力:模型适用于新样本的能力。
- 测试:使用模型进行预测的过程。
- 测试样本:被预测的样本。
- 独立同分布(i.i.d.):假设全体样本服从分布 $ \mathcal{D} $,每个样本独立采样自该分布。
这些术语构成了机器学习描述和讨论的基础语言框架。
PAC 模型
PAC(Probably Approximately Correct,概率近似正确)学习模型是计算学习理论中最重要的理论模型: $$ P(|f(\mathbf{x}) - y| \leq \epsilon) \geq 1 - \delta $$ 其中:
- \(f(\mathbf{x})\) 是训练的模型 \(f\) 对输入 \(\mathbf{x}\) 做出的预测
- \(y\) 是 \(\mathbf{x}\) 对应的客观正确的实际标签
- \(\epsilon\) 是容差值,表示预测值与真实值的绝对误差不能超过 \(\epsilon\)
- \(\delta\) 是失败概率,表示允许模型有 \(\delta\) 的概率不满足上述容差要求
- \(1-\delta\) 是置信度
- \(P\) 为概率
整个表达式的含义是:模型预测与真实值的误差不超过 \(ϵ\) 的概率,至少为 \(1−δ\)
这个数学模型使得学习模型可以被定量衡量
假设空间 && 版本空间
假设空间(Hypothesis Space)是学习算法理论上所有可能输出的模型组成的集合
版本空间(Version Space)是假设空间中所有能够在训练集上满足要求的假设组成的子集
版本空间 ⊆ 假设空间
举一个例子
现在给定三个训练数据 \((1, 1), (2, 2), (3, 3)\)
目的是训练出一个能穿过这些点的多项式函数
则假设空间就是所有多项式函数
版本空间就是所有穿过这三个点的多项式函数
注意到版本空间可能是有穷或无穷的。比如如果限定多项式为一次多项式,则版本空间的大小可能为 0,也可能为 1(此处非常幸运为 1);如果限定多项式为二次多项式,则版本空间的大小一定为 1;如果限定多项式为三次多项式,则版本空间大小一定为无穷
这里的“多项式次数”可以理解为模型的灵活度(自由度 vs 约束)
归纳偏好
归纳偏好指的是机器学习算法在学习过程中对某种类型假设的偏好
图:存在多条曲线与有限样本训练集一致
任何一个有效的机器学习算法必有其偏好,而学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能
从奥卡姆剃刀原则来看,如果多个假设与观察一致,则选择最简单的那个。因此我们会自然认为 A 比 B 更优秀
事实上,根据训练样本和测试样本的不同,A 和 B 都可能是更好的模型。我们引入 NFL 定理
NFL 定理
NFL 定理的全称是 No Free Lunch 定理(没有免费的午餐)
一个算法 \(\mathcal{L_{a}}\) 若在某些问题上比另一个算法 \(\mathcal{L_{b}}\) 好,必存在另一些问题,使得 \(\mathcal{L_{b}}\) 比 \(\mathcal{L_{a}}\) 好
证明略去
那么就无法评判出不同算法的优劣性了?并不是
NFL 定理的重要前提是,所有问题出现的机会相同、或所有问题同等重要
而实际情形并非如此;我们通常只关注自己正在试图解决的问题,这使得我们想要的 “最优算法” 往往也是具体情境下的


