一、监督学习与非监督学习
1.1 监督学习
监督学习是机器学习中最常见的一种方法,其核心思想是通过已知的输入和输出数据来训练模型,使其能够预测新的输入数据的输出。监督学习可以分为回归问题和分类问题。
- 回归问题:输出是连续值,例如预测房价、股票价格等。
- 分类问题:输出是离散值,例如垃圾邮件分类、图像识别等。
1.2 非监督学习
非监督学习则是在没有标签的情况下,通过数据的内在结构来发现模式或规律。常见的非监督学习方法包括聚类和降维。
- 聚类:将数据分成不同的组,例如客户细分、市场分析等。
- 降维:减少数据的维度,例如主成分分析(PCA)、t-SNE等。
二、线性回归与梯度下降
2.1 线性回归
线性回归是一种用于预测连续值的监督学习方法,其模型假设输入和输出之间存在线性关系。线性回归的目标是找到一条挺好拟合直线,使得预测值与实际值之间的误差最小。
- 模型表示:$y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n$
- 损失函数:均方误差(MSE)
2.2 梯度下降
梯度下降是一种优化算法,用于最小化损失函数。通过迭代更新模型参数,梯度下降能够逐步逼近挺好解。
- 更新规则:$\theta_j := \theta_j – \alpha \frac{\partial}{\partial \theta_j} J(\theta)$
- 学习率:$\alpha$ 控制每次更新的步长
三、逻辑回归与分类问题
3.1 逻辑回归
逻辑回归是一种用于分类问题的监督学习方法,尽管名字中有“回归”,但它主要用于二分类问题。逻辑回归通过sigmoid函数将线性回归的输出映射到0和1之间,表示概率。
- 模型表示:$h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}$
- 损失函数:交叉熵损失
3.2 分类问题
分类问题可以分为二分类和多分类问题。逻辑回归通常用于二分类问题,而多分类问题可以通过一对多(One-vs-All)策略来解决。
- 二分类:例如垃圾邮件分类
- 多分类:例如手写数字识别
四、神经网络基础
4.1 神经网络结构
神经网络是一种模拟人脑神经元结构的计算模型,由输入层、隐藏层和输出层组成。每一层包含多个神经元,神经元之间通过权重连接。
- 输入层:接收输入数据
- 隐藏层:进行特征提取和转换
- 输出层:输出最终结果
4.2 前向传播与反向传播
神经网络的训练过程包括前向传播和反向传播两个阶段。
- 前向传播:计算每一层的输出
- 反向传播:通过链式法则计算梯度,更新权重
五、支持向量机与核方法
5.1 支持向量机
支持向量机(SVM)是一种用于分类和回归问题的监督学习方法。SVM通过寻找一个挺好超平面来很大化类别之间的间隔。
- 挺好超平面:$w^T x + b = 0$
- 间隔:$\frac{2}{|w|}$
5.2 核方法
核方法是一种将低维数据映射到高维空间的技术,使得在高维空间中更容易找到线性可分超平面。常见的核函数包括线性核、多项式核和高斯核。
- 线性核:$K(x, y) = x^T y$
- 高斯核:$K(x, y) = \exp(-\frac{|x – y|^2}{2\sigma^2})$
六、模型评估与选择
6.1 模型评估
模型评估是机器学习中非常重要的一环,常用的评估指标包括准确率、精确率、召回率、F1分数等。
- 准确率:$\frac{TP + TN}{TP + TN + FP + FN}$
- F1分数:$2 \times \frac{Precision \times Recall}{Precision + Recall}$
6.2 模型选择
模型选择涉及到选择合适的算法和参数,常用的方法包括交叉验证、网格搜索等。
- 交叉验证:将数据集分成多个子集,轮流作为训练集和验证集
- 网格搜索:遍历所有可能的参数组合,选择挺好参数
总结
吴恩达的机器学习笔记涵盖了从基础到先进的多个主题,包括监督学习与非监督学习、线性回归与梯度下降、逻辑回归与分类问题、神经网络基础、支持向量机与核方法以及模型评估与选择。这些内容为理解和应用机器学习提供了坚实的基础。
原创文章,作者:hiIT,如若转载,请注明出处:https://docs.ihr360.com/strategy/it_strategy/210277