2023年最全面最热门的机器学习算法

yizhihongxing

在过去的几年里,我根据自己的工作经验、与其他数据科学家的对话以及我在网上阅读的内容,整理了我认为最重要的机器学习算法。

今年,我想通过提供更多类型的模型以及每个类别中的更多模型来扩展去年的文章。通过这个,我希望提供一个工具和技术的存储库,您可以将其添加为书签,以便您可以解决各种数据科学问题!

话虽如此,让我们深入研究六种最重要的机器学习算法:

  • 解释性算法
  • 模式挖掘算法
  • 集成学习算法
  • 聚类算法
  • 时间序列算法
  • 相似度算法

解释算法

机器学习中最大的问题之一是了解各种模型如何得出最终预测。我们常常知道“是什么”,但很难解释“为什么”。

解释性算法帮助我们识别对我们感兴趣的结果有有意义影响的变量。这些算法使我们能够理解模型中变量之间的关系,而不仅仅是使用模型来预测结果。

您可以使用多种算法更好地理解给定模型的自变量和因变量之间的关系。

2023年最全面最热门的机器学习算法

算法:

  • 线性/逻辑回归:一种对因变量与一个或多个自变量之间的线性关系建模的统计方法——可用于根据 t 检验和系数了解变量之间的关系。
  • 决策树:一种机器学习算法,它创建决策及其可能后果的树状模型。通过查看拆分分支的规则,它们对于理解变量之间的关系很有用。
  • 主成分分析 (PCA):一种降维技术,可将数据投射到低维空间,同时保留尽可能多的方差。PCA 可用于简化数据或确定特征重要性。
  • Local Interpretable Model-Agnostic Explanations (LIME):一种算法,通过使用线性回归或决策树等技术构建更简单的模型,在预测周围近似模型来解释任何机器学习模型的预测。
  • Shapley Additive explanations (SHAPLEY):一种算法,通过使用基于“边际贡献”概念的方法计算每个特征对预测的贡献来解释任何机器学习模型的预测。在某些情况下,它可能比 SHAP 更准确。
  • Shapley Approximation (SHAP):一种通过估计每个特征在预测中的重要性来解释任何机器学习模型的预测的方法。SHAP 使用一种称为“联合博弈”的方法来近似 Shapley 值,并且通常比 SHAPLEY 更快。

模式挖掘算法

模式挖掘算法是一种数据挖掘技术,用于识别数据集中的模式和关系。这些算法可用于多种目的,例如识别零售环境中的客户购买模式、了解网站/应用程序的常见用户行为序列,或在科学研究中寻找不同变量之间的关系。

模式挖掘算法通常通过分析大型数据集并寻找重复模式或变量之间的关联来工作。一旦确定了这些模式,就可以使用它们来预测未来趋势或结果,或者了解数据中的潜在关系。

  • Apriori 算法:一种用于在事务数据库中查找频繁项集的算法 - 它高效且广泛用于关联规则挖掘任务。
  • 递归神经网络 (RNN):一种神经网络,旨在处理顺序数据,因为它们能够捕获数据中的时间依赖性。
  • 长短期记忆 (LSTM):一种循环神经网络,旨在更长时间地记住信息。LSTM 能够捕获数据中的长期依赖关系,通常用于语言翻译和语言生成等任务。
  • 使用等价类 (SPADE) 的顺序模式发现:一种通过将在某种意义上等价的项目组合在一起来查找顺序数据中频繁模式的方法。这种方法能够处理大型数据集并且相对高效,但可能不适用于稀疏数据。
  • PrefixSpan:一种通过构建前缀树和修剪不频繁项目来查找顺序数据中频繁模式的算法。PrefixScan 能够处理大型数据集并且相对高效,但可能不适用于稀疏数据。

集成学习

2023年最全面最热门的机器学习算法

集成算法是一种机器学习技术,它结合了多个模型的预测,以便做出比任何单个模型都更准确的预测。集成算法优于传统机器学习算法的原因有以下几个:

  • 多样性:通过组合多个模型的预测,集成算法可以捕获数据中更广泛的模式。
  • 健壮性:集成算法通常对数据中的噪声和异常值不太敏感,这可以导致更稳定和可靠的预测。
  • 减少过度拟合:通过对多个模型的预测进行平均,集成算法可以减少单个模型过度拟合训练数据的趋势,从而提高对新数据的泛化能力。
  • 提高准确性:集成算法已被证明在各种情况下始终优于传统的机器学习算法。

算法

  • 随机森林:一种机器学习算法,它创建决策树的集合并根据树的多数票进行预测。
  • XGBoost:一种梯度提升算法,它使用决策树作为其基础模型,被认为是最强的 ML 预测算法之一。
  • LightGBM:另一种梯度提升算法,旨在比其他提升算法更快、更高效。
  • CatBoost:一种梯度提升算法,专门设计用于很好地处理分类变量。

聚类

2023年最全面最热门的机器学习算法

聚类算法是一种无监督学习任务,用于将数据分组为“集群”。与目标变量已知的监督学习相反,聚类中没有目标变量。

这种技术对于发现数据的自然模式和趋势很有用,并且经常在探索性数据分析阶段使用,以进一步了解数据。此外,聚类可用于根据各种变量将数据集划分为不同的部分。这方面的一个常见应用是对客户或用户进行细分。

算法

  • K模式聚类:一种专门为分类数据设计的聚类算法。它能够很好地处理高维分类数据并且实现起来相对简单。
  • DBSCAN:一种基于密度的聚类算法,能够识别任意形状的聚类。它对噪声相对稳健,可以识别数据中的异常值。
  • 谱聚类:一种聚类算法,它使用相似矩阵的特征向量将数据点分组到聚类中。它能够处理非线性可分数据并且相对高效。

时间序列算法

2023年最全面最热门的机器学习算法

时间序列算法是用于分析时间相关数据的技术。这些算法考虑了一系列数据点之间的时间依赖性,这在尝试预测未来值时尤为重要。

时间序列算法用于各种业务应用程序,例如预测产品需求、预测销售或分析客户随时间变化的行为。它们还可用于检测数据中的异常或趋势变化。

算法

  • Prophet 时间序列建模:Facebook 开发的一种时间序列预测算法,旨在直观且易于使用。它的一些主要优势包括处理缺失数据和趋势变化、对异常值具有鲁棒性以及快速适应。
  • 自回归积分移动平均 (ARIMA):一种用于预测时间序列数据的统计方法,它对数据与其滞后值之间的相关性进行建模。ARIMA 可以处理范围广泛的时间序列数据,但可能比其他一些方法更难实现。
  • 指数平滑:一种预测时间序列数据的方法,它使用过去数据的加权平均值来进行预测。指数平滑实现起来相对简单,可用于范围广泛的数据,但性能可能不如更复杂的方法。

相似度算法

2023年最全面最热门的机器学习算法

相似度算法用于衡量成对的记录、节点、数据点或文本之间的相似度。这些算法可以基于两个数据点之间的距离(例如欧氏距离)或基于文本的相似性(例如 Levenshtein 算法)。

这些算法具有广泛的应用,但在推荐方面特别有用。它们可用于识别相似的项目或向用户推荐相关内容。

算法

  • 欧氏距离:欧氏空间中两点之间直线距离的度量。欧氏距离计算简单,广泛应用于机器学习,但在数据分布不均匀的情况下可能不是最佳选择。
  • 余弦相似度:基于两个向量之间的角度来衡量两个向量之间的相似度。
  • Levenshtein 算法:一种用于测量两个字符串之间距离的算法,基于将一个字符串转换为另一个字符串所需的最小单字符编辑(插入、删除或替换)次数。Levenshtein 算法通常用于拼写检查和字符串匹配任务。
  • Jaro-Winkler 算法:一种基于匹配字符数和换位数来衡量两个字符串之间相似性的算法。它类似于 Levenshtein 算法,通常用于记录链接和实体解析任务。
  • 奇异值分解 (SVD):一种矩阵分解方法,可将一个矩阵分解为三个矩阵的乘积——它是最先进的推荐系统不可或缺的组成部分。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:2023年最全面最热门的机器学习算法 - Python技术站

(0)
上一篇 2023年1月12日 下午9:00
下一篇 2023年2月12日 下午8:15

相关文章

  • 机器学习中的数学基础_七月算法4月机器学习班第4次课程笔记

        desc 优化问题的分类 无约束优化 梯度下降法 深度梯度下降 牛顿法   有约束的优化: KKT条件(拉格朗日的扩充) 转换为凸优化,使用内点法求解,matlab cov 命令 认识两个符号 这个符号 表示 半正定 和 正定 对于 scalar 来说,本身具有正负性,而对于 矩阵来说 与正负性对应的就是其 正定性 而不是 其对应 的行列式的 正负性…

    机器学习 2023年4月10日
    00
  • 机器学习三 卷积神经网络作业

    本来这门课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html 作业是用卷积神经网络做半监督学习,这个还没完全解决,于是先从基础的开始,用keras 实现cifar10。 以下是代码 1 # -*- coding: utf-8 -*- 2 __author__ = ‘Administrator’ 3 4…

    机器学习 2023年4月13日
    00
  • 经验之谈:如何为你的机器学习问题选择合适的算法

    随着机器学习越来越流行,也出现了越来越多能很好地处理任务的算法。但是,你不可能预先知道哪个算法对你的问题是最优的。如果你有足够的时间,你可以尝试所有的算法来找出最优的算法。本文介绍了如何依靠已有的方法(模型选择和超参数调节)去指导你更好地去选择算法。本文作者为华盛顿大学 eScience Institute 和 Institute for Neuroengi…

    机器学习 2023年4月13日
    00
  • 《机器学习基石》—正则化

    本节涉及的知识点包括: (1)所谓正则化,就是在原来的假设空间上加上一定限制条件; (2)推导线性回归中引入L2正则; (3)带正则化约束条件的问题 等价于 无约束的加正则项的augmented error; (4)VC维解释正则的好处; (5)选择一般正则项的三个原则; (6)L1正则和L2正则的对比; 1 正则化的概念 所谓正则化假设空间,就是带有限制条…

    机器学习 2023年4月12日
    00
  • 机器学习总结-LR(对数几率回归)

    LR(对数几率回归) 函数为\(y=f(x)=\frac{1}{1+e^{-(w^{T}x+b)}}\)。 由于输出的是概率值\(p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}},p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}\),所以求解使用极大似然估计来求解参数\(w,b\)。为了方便表示,记\…

    机器学习 2023年4月11日
    00
  • 机器学习实战-决策树

    本文讲解了决策树的创键的过程,包括熵,信息增益的计算,还有决策树的创建,以及使用matplotlib让决策树可视化的详细过程 1.决策树的构造 1.1优缺点 优点: 计算复杂度不高:以ID3为例,每次运算都是基于某一列特征,特征计算完后,下次计算不考虑该最有特征,并且通过适当剪枝可以简化复杂度 输出结果易于理解:因为输出的是一个树的结构,树的走向一目了然 对…

    机器学习 2023年4月11日
    00
  • 机器学习(1)

    前言 学习机器学习和数据挖掘的相关知识也有一段时间了,平时事情比较多也就懒得做笔记, 回忆起来,AndrewNg 在coursera上开设的机器学习课程受益匪浅,课程覆盖了机器学习的基础内容,深入浅出,把很多概念解释得很到位。以AndrewNg的课程为出发点,参考多本经典的教材,对经典的机器学习和数据挖掘的思想和算法进行总结回顾,一来是为了对自身学习做一个总…

    机器学习 2023年4月13日
    00
  • [转]机器学习——C4.5 决策树算法学习

    1. 算法背景介绍 分类树(决策树)是一种十分常用的分类方法。它是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。C4.5分类树就是决策树算法中最流行的一种。下面给出一个数据集作为算法例子的…

    2023年4月10日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

合作推广
合作推广
分享本页
返回顶部