实用机器学习

发表于2021-11-19更新于2021-11-19字数统计542阅读时长4分

本文为学习李沐老师《实用机器学习》这门课程的笔记。

overview

任务分类

监督学习，半监督学习，无监督学习，强化学习
任务组成部分

模型：给定输入，有输出

损失函数：模型预测值和真实值的差距如何定量计算

目标函数：模型训练过程中的优化目标，如，使得模型预测的值与真实值的差距尽量小

模型优化：调整参数，最小化损失
模型分类：

决策树；

线性模型：根据输入的线性组合来做决定。

核方法：用不同的核函数来衡量两个样本之间的相似度，来达到非线性的效果。

神经网络；

决策树

优缺点

优点：

模型可解释。
可以处理数值型和类别型的特征，可分类可回归。
不太需要调参，可以广泛应用于工业界。

缺点：

不稳定，受数据的噪声影响大 - embedding
复杂树导致过拟合 - 剪枝
不好并行计算，性能吃亏

随机森林

随机生成多个决策树，决策树训练彼此独立，用投票法或加权平均做出最后决定。

如何随机训练单棵树？

bagging：数据随机采样，有放回。
randomly：随机选取一些特征。

梯度提升（Gradient Boosting Decision Trees ）

序列化生成若干树。各个决策树中彼此不独立。

设 $t=1 … , F_t(x)$ 是前 $t-1$ 棵树的函数输出的和。
在 $t$ 时刻训练新的树 $f_t$ ，训练数据集为残差数据集： $[(x_i,y_i-F_t(x_i))]_{i=1...}$ ，用来预测当前模型和真实数据之间的误差。
那么，新的模型为： $F_{t+1}=F_t(x)+f_t(x)$

残差等同于平均均方误差的负梯度 $- \partial L/\partial F$ 。

L 为 F 的预测值和真实值之间的均方误差。后续的决策树都在拟合均方误差的负梯度->梯度下降。