当前位置: 首页 > 如何自学

机器学习回归算法,机器学习的方法之回归算法

  • 如何自学
  • 2023-04-29
目录
  • 机器学习新手必看十大算法
  • 机器学习故事汇-逻辑回归算法
  • 机器学习有几种算法?
  • 机器学习常见算法优缺点之逻辑回归
  • 机器学习的方法之回归算法

  • 机器学习新手必看十大算法

    1.线性回归

    在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。

    2.Logistic回归

    Logistic回归是机器学习从统计学领域借鉴过来的另一种技芦指塌术。它是二分类问题的首选方法。

    3.线性判别分析

    Logistic回归是一种传统的分类算法,它的使用场景仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(LDA)是首选的线性分类技术。

    4.分类和回归树

    决策树是一类重要的机器学习预测建模算法。

    5.朴素贝叶斯

    朴素贝叶斯是一种简单而强大的预测建模算法。

    6.K最近邻算法

    K最近邻(KNN)算法是非常简单而有效的。KNN的模型表示就是整个训练数据集。

    7.学习向量量化

    KNN算法的一个缺点是,你需要处理整个训练数据集。

    8.支持向量机

    支持向量机(SVM)可能陪圆是目前最流行、被讨论地最多的机器学习算法之一。

    9.袋装法和随机森林

    随机森林是最流行也最强大的机器学习算法之一,它是一种集成机器学习算法。

    想要学习了解更多机器学习的知识,推荐CDA数据分析师课程。CDA(CertifiedDataAnalyst),即“CDA数据逗仔分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证,旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。

    机器学习故事汇-逻辑回归算法

    机器学习新手必看十大算法

    本文介绍了机指茄器学习新手需要了解的 10 大算法,包括线性回归、Logistic 回归、朴素贝叶斯、K 近邻算法等。

    在机器学习中,有一种叫做「没有免费的午餐」的定理。简而言之,它指出没有任何一种算法对所有问题都有效,在监督学习(即预测建模)中尤其如此。

    例如,你不能说神经网络总是比决策树好,反之亦然。有很多因素在起作用,例如数据集的大小和结构。

    因此,你应该针对具体问题尝试多种不同算法,并留出一个数据「测试集」来评估性能、选出优胜者。

    当然,你尝试的算法必须适合你的问题,也就是选择正确的机器学习任务。打个比方,如果你唯咐察需要打扫房子,你可能会用吸尘器、扫帚或拖把,但是你不会拿出铲子开始挖土。

    大原则

    不过也有一个普遍原则,即所有监督机器学习算法预测建模的基础。

    机器学习算法被描述为学习一个目标函数 f,该函数将输入变量 X 最好地映射到输出变量 Y:Y = f(X)

    这是一个普遍的学习任务,我们可以根据输入变量 X 的新样本对 Y 进行预测。我们不知道函数 f 的样子或形式。如果我们知道的话,我们将会直接使用它,不需要用机器学习算法从数据中学习。

    最常见的机器学习算法是学习映射 Y = f(X) 来预测新 X 的 Y。这叫做预测建模或预测分析,我们的目标是尽可能作出最准确的预测。

    对于想了解机器学习基础知识的新手,本文将概述数据科学家使用的 top 10 机器学习算法。

    1. 线性回归

    线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。

    预测建模主要关注最小化模型误差或者尽可能作出最准确的预测,以可解释性为代价简塌。我们将借用、重用包括统计学在内的很多不同领域的算法,并将其用于这些目的。

    线性回归的表示是一个方程,它通过找到输入变量的特定权重(称为系数 B),来描述一条最适合表示输入变量 x 与输出变量 y 关系的直线。

    线性回归

    例如:y = B0 + B1 * x

    我们将根据输入 x 预测 y,线性回归学习算法的目标是找到系数 B0 和 B1 的值。

    可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘法和梯度下降优化的线性代数解。

    线性回归已经存在了 200 多年,并得到了广泛研究。使用这种技术的一些经验是尽可能去除非常相似(相关)的变量,并去除噪音。这是一种快速、简单的技术,可以首先尝试一下。

    2. Logistic 回归

    Logistic 回归是机器学习从统计学中借鉴的另一种技术。它是解决二分类问题的首选方法。

    Logistic 回归与线性回归相似,目标都是找到每个输入变量的权重,即系数值。与线性回归不同的是,Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。

    logistic 函数看起来像一个大的 S,并且可以将任何值转换到 0 到 1 的区间内。这非常实用,因为我们可以规定 logistic 函数的输出值是 0 和 1(例如,输入小于 0.5 则输出为 1)并预测类别值。

    Logistic 回归

    由于模型的学习方式,Logistic 回归的预测也可以作为给定数据实例(属于类别 0 或 1)的概率。这对于需要为预测提供更多依据的问题很有用。

    像线性回归一样,Logistic 回归在删除与输出变量无关的属性以及非常相似(相关)的属性时效果更好。它是一个快速的学习模型,并且对于二分类问题非常有效。

    3. 线性判别分析(LDA)

    Logistic 回归是一种分类算法,传统上,它仅限于只有两类的分类问题。如果你有两个以上的类别,那么线性判别分析是首选的线性分类技术。

    LDA 的表示非常简单直接。它由数据的统计属性构成,对每个类别进行计算。单个输入变量的 LDA 包括:

    每个类别的平均值;

    所有类别的方差。

    线性判别分析

    进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布(钟形曲线),因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。

    4. 分类与回归树

    决策树是预测建模机器学习的一种重要算法。

    决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树,没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点(假设变量是数字)。

    决策树

    决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点,直到到达一个叶节点并输出该节点的类别值就可以作出预测。

    决策树学习速度和预测速度都很快。它们还可以解决大量问题,并且不需要对数据做特别准备。

    5. 朴素贝叶斯

    朴素贝叶斯是一个简单但是很强大的预测建模算法。

    该模型由两种概率组成,这两种概率都可以直接从训练数据中计算出来:1)每个类别的概率;2)给定每个 x 的值,每个类别的条件概率。一旦计算出来,概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时,通常假设一个高斯分布(钟形曲线),这样你可以简单的估计这些概率。

    贝叶斯定理

    朴素贝叶斯之所以是朴素的,是因为它假设每个输入变量是独立的。这是一个强大的假设,真实的数据并非如此,但是,该技术在大量复杂问题上非常有用。

    6. K 近邻算法

    KNN 算法非常简单且有效。KNN 的模型表示是整个训练数据集。是不是很简单?

    KNN 算法在整个训练集中搜索 K 个最相似实例(近邻)并汇总这 K 个实例的输出变量,以预测新数据点。对于回归问题,这可能是平均输出变量,对于分类问题,这可能是众数(或最常见的)类别值。

    诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同(例如都是用英寸表示),那么最简单的技术是使用欧几里得距离,你可以根据每个输入变量之间的差值直接计算出来其数值。

    K 近邻算法

    KNN 需要大量内存或空间来存储所有数据,但是只有在需要预测时才执行计算(或学习)。你还可以随时更新和管理训练实例,以保持预测的准确性。

    距离或紧密性的概念可能在非常高的维度(很多输入变量)中会瓦解,这对算法在你的问题上的性能产生负面影响。这被称为维数灾难。因此你最好只使用那些与预测输出变量最相关的输入变量。

    7. 学习向量量化

    K 近邻算法的一个缺点是你需要遍历整个训练数据集。学习向量量化算法(简称 LVQ)是一种人工神经网络算法,它允许你选择训练实例的数量,并精确地学习这些实例应该是什么样的。

    学习向量量化

    LVQ 的表示是码本向量的集合。这些是在开始时随机选择的,并逐渐调整以在学习算法的多次迭代中最好地总结训练数据集。在学习之后,码本向量可用于预测(类似 K 近邻算法)。最相似的近邻(最佳匹配的码本向量)通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值或(回归中的实际值)作为预测。如果你重新调整数据,使其具有相同的范围(比如 0 到 1 之间),就可以获得最佳结果。

    如果你发现 KNN 在你的数据集上达到很好的结果,请尝试用 LVQ 减少存储整个训练数据集的内存要求。

    8. 支持向量机(SVM)

    支持向量机可能是最受欢迎和最广泛讨论的机器学习算法之一。

    超平面是分割输入变量空间的一条线。在 SVM 中,选择一条可以最好地根据输入变量类别(类别 0 或类别 1)对输入变量空间进行分割的超平面。在二维中,你可以将其视为一条线,我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数。

    支持向量机

    超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量,它们支持或定义了超平面。实际上,优化算法用于寻找最大化间隔的系数的值。

    SVM 可能是最强大的立即可用的分类器之一,值得一试。

    9. Bagging 和随机森林

    随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。

    bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本,计算平均值,然后平均所有的平均值以便更好的估计真实的平均值。

    bagging 使用相同的方法,但是它估计整个统计模型,最常见的是决策树。在训练数据中抽取多个样本,然后对每个数据样本建模。当你需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好的估计真实的输出值。

    随机森林

    随机森林是对这种方法的一种调整,在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割,而不是选择最佳分割点。

    因此,针对每个数据样本创建的模型将会与其他方式得到的有所不同,不过虽然方法独特且不同,它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。

    如果你用方差较高的算法(如决策树)得到了很好的结果,那么通常可以通过 bagging 该算法来获得更好的结果。

    10. Boosting 和 AdaBoost

    Boosting 是一种集成技术,它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集,或添加的模型数量已经达到最大数量。

    AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上,最显著的是随机梯度提升。

    AdaBoost

    AdaBoost与短决策树一起使用。在第一个决策树创建之后,利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重,而容易预测的数据分配的权重较少。依次创建模型,每个模型在训练实例上更新权重,影响序列中下一个决策树的学习。在所有决策树建立之后,对新数据进行预测,并且通过每个决策树在训练数据上的精确度评估其性能。

    因为在纠正算法错误上投入了太多注意力,所以具备已删除异常值的干净数据非常重要。

    总结

    初学者在面对各种机器学习算法时经常问:「我应该用哪个算法?」这个问题的答案取决于很多因素,包括:(1)数据的大小、质量和特性;(2)可用的计算时间;(3)任务的紧迫性;(4)你想用这些数据做什么。

    即使是经验丰富的数据科学家在尝试不同的算法之前,也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法,但本篇文章中讨论的是最受欢迎的算法。如果你是机器学习的新手,这将是一个很好的学习起点。

    机器学习有几种算法?

    我们都知道,机器学习是盯闭一个十分实用的技术,而这一实用的技术中涉及到了很多的算法。所以说,我们要了解机器学习的话就要对这些算法掌握通透。在这篇文章中我们就给大家详细介绍一下机器学习中的回归算法,希望这篇文章能够帮助到大家。

    一般来说,回归算法是机器学习中第一个要学习的凯磨裂算法。具体的原因,第一就是回归算法比较简单,可以让人直接从统计学过渡到机器学习中。第二就是回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习其他的算法。而回归算法有两个重要的子类:即线性回归和逻辑回归。

    那么什么是线性回归呢?其实线性回归就是我们常见的直线函数。如何拟合出一条直线最佳匹配我所有的数据?这就需要最小二乘法来求解。那么最小二乘法的思想是什么呢?假设我们拟合出的直线代表数据的真实值,而观测到的数据代表游羡拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。

    那么什么是逻辑回归呢?逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字。而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类。而逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线。这就是有关逻辑回归的相关事项。

    在这篇文章中我们简单给大家介绍了机器学习中的回归算法的相关知识,通过这篇文章我们不难发现回归算法是一个比较简答的算法,回归算法是线性回归和逻辑回归组成的算法,而线性回归和逻辑回归都有自己实现功能的用处。这一点是需要大家理解的并掌握的,最后祝愿大家能够早日学会回归算法。

    机器学习常见算法优缺点之逻辑回归

    1. 线性回归

    工作原理:该算法可以按其权重可视化。但问题是,当你无法真正衡量它时,必须通过观察其高度和宽度来做一些猜测。通过这种可视化的分析,可以获取一个结果。

    2. 逻辑回归

    根据一组独立变量,估计离散值。它通过将数据匹配到logit函数来帮助预测事件。

    3. 决策树

    利用监督学习算法对问题进行分类。决策树是一种支持,它使用树状图来决定决策或可能的后果、机会事件结果、资源成本和实用程序。根据独立变量,将其划分为两个或多个同构集。

    4. 支持向量机(SVM)

    基本原理(以二维数据为例):如果训练数据是分布在二维平面上的点,它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的――称为线性划分,曲线的――称为非线性划分)。对于多维数据(如N维),可以将它们视为N维空间中的点,而分类边界就是N维空间中的面,称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面。

    5. 朴素贝叶斯

    朴素贝叶斯认为每个特征都是独立于另一个特征的。即使在计算结果的概率时,它也会考虑每一个单独的神瞎亩关系。

    它不仅易于使用,而且能有效地使用大量的数据集,甚至超过了高度复杂的分类。

    6. KNN(K -最近邻)

    该算法适用于分类和回归问题。在数据科学行业中,它更常用来解决分类问题。

    这个简单的算法能够存储所有可用的案例,并通过对其k近邻的多数投票来对任何新事件进行分类。然后将事件分配给与之匹配最多的类。一个距离函数执行这个测量过程。神宽

    7. k – 均值

    这种无监督算法用于解决聚类问题。数据集以这样一种方式列在一个特定数量的集群中:所有数据点都是同质的,并且与其他集群中的数据是异构的。

    8. 随机森林

    利用多棵决策树对样本进行训练并预测的一种分类器被称为随机森林。为了根据其特性来分类一个新对象,每棵决策树都被排序和分类,然后决策树投票给一个特定的类,那游森些拥有最多选票的被森林所选择。

    9. 降维算法

    在存储和分析大量数据时,识别多个模式和变量是具有挑战性的。维数简化算法,如决策树、因子分析、缺失值比、随机森林等,有助于寻找相关数据。

    10. 梯度提高和演算法

    这些算法是在处理大量数据,以作出准确和快速的预测时使用的boosting算法。boosting是一种组合学习算法,它结合了几种基本估计量的预测能力,以提高效力和功率。

    综上所述,它将所有弱或平均预测因子组合成一个强预测器。

    机器学习的方法之回归算法

    算法很多种的,像贝叶斯网络/SOM神经网络/碧野BP神经网络/山困ART神经网络/贝叶斯网络悔唯喊/支持向量机等等

    猜你喜欢