一、监督学习术语
1.1 监督学习定义
监督学习是机器学习中最常见的一种方法,其核心思想是通过已知的输入和输出数据来训练模型,使其能够预测新的输入数据的输出。常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)和决策树等。
1.2 常见术语
- 标签(Label):在监督学习中,标签是指已知的输出数据,用于训练模型。
- 特征(Feature):输入数据中的各个属性或变量,用于描述数据的特征。
- 训练集(Training Set):用于训练模型的数据集,包含输入特征和对应的标签。
- 测试集(Test Set):用于评估模型性能的数据集,通常不参与模型的训练。
- 过拟合(Overfitting):模型在训练集上表现很好,但在测试集上表现较差的现象,通常是由于模型过于复杂导致的。
- 欠拟合(Underfitting):模型在训练集和测试集上表现都不佳的现象,通常是由于模型过于简单导致的。
二、无监督学习术语
2.1 无监督学习定义
无监督学习是指在没有标签的情况下,通过对输入数据的结构进行分析来发现数据中的模式或结构。常见的无监督学习算法包括聚类、降维和关联规则挖掘等。
2.2 常见术语
- 聚类(Clustering):将相似的数据点分组在一起的过程,常见的聚类算法包括K-means和层次聚类。
- 降维(Dimensionality Reduction):减少数据特征数量的过程,常见的降维算法包括主成分分析(PCA)和t-SNE。
- 关联规则(Association Rule):发现数据中变量之间的关联关系,常见的应用包括市场篮子分析。
- 异常检测(Anomaly Detection):识别数据中的异常点或离群点,常见的算法包括孤立森林和LOF(局部异常因子)。
三、强化学习术语
3.1 强化学习定义
强化学习是一种通过与环境交互来学习挺好策略的机器学习方法。智能体通过执行动作并接收奖励来学习如何在特定环境中做出挺好决策。
3.2 常见术语
- 智能体(Agent):在强化学习中,智能体是指执行动作并学习策略的主体。
- 环境(Environment):智能体所处的环境,智能体通过与环境交互来学习。
- 状态(State):环境在某一时刻的特定情况,智能体根据状态来决定执行什么动作。
- 动作(Action):智能体在某一状态下执行的操作。
- 奖励(Reward):智能体执行动作后从环境中获得的反馈,用于指导智能体的学习。
- 策略(Policy):智能体在某一状态下选择动作的规则或策略。
- 价值函数(Value Function):用于评估某一状态或动作的长期收益的函数。
四、模型评估术语
4.1 模型评估定义
模型评估是指通过一系列指标和方法来评估机器学习模型的性能,以确保模型在实际应用中的有效性和可靠性。
4.2 常见术语
- 准确率(Accuracy):模型预测正确的样本占总样本的比例。
- 精确率(Precision):模型预测为正类的样本中实际为正类的比例。
- 召回率(Recall):实际为正类的样本中被模型预测为正类的比例。
- F1分数(F1 Score):精确率和召回率的调和平均数,用于综合评估模型的性能。
- ROC曲线(ROC Curve):用于评估分类模型性能的曲线,横轴为假阳性率,纵轴为真阳性率。
- AUC(Area Under Curve):ROC曲线下的面积,用于评估分类模型的整体性能。
- 交叉验证(Cross-Validation):一种评估模型性能的方法,通过将数据集分成多个子集来多次训练和测试模型。
五、特征工程术语
5.1 特征工程定义
特征工程是指通过对原始数据进行处理和转换,提取出对模型训练有用的特征的过程。特征工程的质量直接影响模型的性能。
5.2 常见术语
- 特征选择(Feature Selection):从原始特征中选择对模型训练最有用的特征,常见的特征选择方法包括过滤法、包装法和嵌入法。
- 特征提取(Feature Extraction):通过某种方法从原始数据中提取出新的特征,常见的特征提取方法包括主成分分析(PCA)和线性判别分析(LDA)。
- 特征缩放(Feature Scaling):对特征进行标准化或归一化处理,常见的特征缩放方法包括最小-很大缩放和Z-score标准化。
- 独热编码(One-Hot Encoding):将分类变量转换为二进制向量的过程,用于处理非数值型特征。
- 缺失值处理(Missing Value Handling):处理数据中缺失值的方法,常见的处理方法包括删除缺失值、填充缺失值和插值法。
六、算法优化术语
6.1 算法优化定义
算法优化是指通过调整模型的参数或结构,以提高模型的性能和效率的过程。算法优化是机器学习中的重要环节,直接影响模型的最终效果。
6.2 常见术语
- 超参数(Hyperparameter):在模型训练之前需要设置的参数,如学习率、正则化系数等。
- 网格搜索(Grid Search):一种超参数调优方法,通过遍历所有可能的超参数组合来寻找挺好参数。
- 随机搜索(Random Search):一种超参数调优方法,通过随机选择超参数组合来寻找挺好参数。
- 贝叶斯优化(Bayesian Optimization):一种基于概率模型的超参数调优方法,通过构建目标函数的概率模型来指导搜索过程。
- 早停(Early Stopping):在模型训练过程中,当验证集上的性能不再提升时提前停止训练,以防止过拟合。
- 正则化(Regularization):通过在损失函数中加入惩罚项来防止模型过拟合的方法,常见的正则化方法包括L1正则化和L2正则化。
通过以上六个方面的详细解析,我们可以全面了解机器学习中的常见术语及其在不同场景下的应用。这些术语不仅是理解机器学习的基础,也是在实际项目中解决问题和优化模型的关键。
原创文章,作者:IT_learner,如若转载,请注明出处:https://docs.ihr360.com/strategy/it_strategy/210977