机器学习笔记(一)机器学习常用模型和算法

发布网友

我来回答

1个回答

热心网友

机器学习模型与算法详解

1. 监督学习模型:在有标签数据上进行训练以预测标签。包括决策树、线性方法、神经网络与支持向量机。

决策树:通过自顶向下的方法构建决策树,使用特征选择标准如信息熵、信息增益率与基尼指数来优化决策路径。使用sklearn工具包中的决策树算法构建模型,适用于鸢尾花分类与房价回归任务。

线性方法:包括一元与多元线性回归,使用最小二乘法来确定参数。对于分类任务,可以使用逻辑回归,通过Sigmoid函数将输出映射到概率区间,并使用交叉熵损失函数来评估模型。

神经网络:从线性模型到多层感知机,通过全连接层进行特征提取。多层感知机具有多个隐藏层,能够更深入表示特征。卷积层用于提取输入数据的复杂特征,池化层则用于压缩数据降低维度,防止过拟合。循环网络处理序列信息,其隐藏状态传递时间信息。

支持向量机:通过凸二次规划求解间隔最大线性分类器,最大间隔超平面作为决策边界。支持向量机需要完全标记输入数据,适用于二分类任务,通过软间隔处理线性不可分情况,并使用核技巧将数据映射到高维空间实现线性可分。

2. 无监督学习模型:在无标签数据上训练。包括聚类、密度估计与强化学习。

聚类与密度估计:在无标签数据上训练模型,用于发现数据集中的结构与模式。强化学习通过与环境交互来学习最优行为,以最大化奖励。

3. 半监督学习模型:结合有标签与无标签数据训练,使用模型推断无标签数据的标签。例如,自我训练方法。

4. 支持向量机(SVM):基于凸二次规划的最优化算法,求解间隔最大的线性分类器,支持软间隔处理近似线性可分与非线性问题,核技巧将线性不可分样本映射到高维空间实现线性可分。

5. KNN(最近邻):通过计算新数据与训练数据集中最邻近k个实例的类别来预测类别,适用于数值型与离散型数据,理论成熟,精度高,无数据输入假定,但计算复杂性与空间复杂性较高,对样本不平衡敏感。

6. 朴素贝叶斯:基于贝叶斯定理的分类方法,计算条件概率与后验概率,适用于分类任务,简单好用,易于理解,但可解释性较差,无法揭示数据内在含义。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com