Python机器学习教程

📅 最后修改于: 2020-12-10 05:38:16 🧑 作者: Mango

回归概论回归是另一个重要且广泛使用的统计和机器学习工具。基于回归的任务的主要目标是针对给定的输入数据，预测输出标签或响应(连续的数值)。输出将基于模型在训练阶段学到的知识。基本上，回归模型使用输入数据特征(独立变量)及其对应的连续数值输出值(因变量或结果变量)来学习输入与对应输出之间的特定关联。回归模型的类型回归模型具有以下两种类型-简单回归模型-这是最基本的回归模型，其中预测是根据数据的单变量特...

回归算法-线性回归

📅 最后修改于: 2020-12-10 05:39:02 🧑 作者: Mango

线性回归简介线性回归可以定义为统计模型，用于分析因变量与给定的一组自变量之间的线性关系。变量之间的线性关系意味着，当一个或多个自变量的值更改(增加或减少)时，因变量的值也将相应更改(增加或减少)。数学上的关系可以借助以下方程式来表示-Y = mX + b在这里，Y是我们试图预测的因变量X是我们用来进行预测的因变量。m是回归线的斜率，代表X对Y的影响b是一个常数，称为Y截距。如果X = 0，则Y等于...

聚类算法-概述

📅 最后修改于: 2020-12-10 05:39:40 🧑 作者: Mango

集群介绍聚类方法是最有用的无监督ML方法之一。这些方法用于查找数据样本之间的相似性以及关系模式，然后基于特征将这些样本聚类为具有相似性的组。聚类很重要，因为它决定了当前未标记数据之间的固有分组。他们基本上对数据点进行一些假设以构成它们的相似性。每个假设将构建不同但有效的集群。例如，以下是显示集群系统的图，该集群系统将不同集群中的同类数据分组在一起-团簇形成方法簇不必形成球形。以下是其他一些集群形成...

聚类算法-K-均值算法

📅 最后修改于: 2020-12-10 05:40:19 🧑 作者: Mango

K-Means算法简介K-均值聚类算法计算质心并进行迭代，直到找到最佳质心为止。它假定群集的数目是已知的。它也称为平面聚类算法。通过算法从数据中识别出的聚类数量以K均值中的“ K”表示。在该算法中，将数据点分配给群集，以使数据点和质心之间的平方距离之和最小。应当理解，簇内的较少变化将导致相同簇内的更多相似数据点。K均值算法的工作我们可以通过以下步骤来了解K-Means聚类算法的工作原理-步骤1-首...

聚类算法-均值漂移算法

📅 最后修改于: 2020-12-10 05:40:42 🧑 作者: Mango

均值漂移算法简介如前所述，它是在无监督学习中使用的另一种强大的聚类算法。与K均值聚类不同，它没有做任何假设；因此它是一种非参数算法。均值漂移算法基本上是通过将数据点移向最高密度的数据点(即群集质心)来迭代地将数据点分配给群集。K-Means算法和Mean-Shift算法之间的区别在于，后一种算法无需提前指定聚类数，因为聚类数将由算法的数据确定。均值漂移算法的工作通过以下步骤，我们可以了解Mean-...

聚类算法-分层聚类

📅 最后修改于: 2020-12-10 05:41:15 🧑 作者: Mango

层次聚类简介分层聚类是另一种无监督的学习算法，用于将具有相似特征的未标记数据点分组在一起。分层聚类算法分为以下两类-聚集层次算法-在聚集层次算法中，每个数据点都被视为单个群集，然后连续合并或聚集(自下而上)群集对。群集的层次结构表示为树状图或树结构。分开的分层算法-另一方面，在分开的分层算法中，所有数据点都被视为一个大群集，并且群集过程涉及将(一个自上而下的方法)将一个大群集划分为各种小群集。执行...

KNN算法-查找最近的邻居

📅 最后修改于: 2020-12-10 05:41:58 🧑 作者: Mango

介绍K最近邻(KNN)算法是一种监督的ML算法，可用于分类以及回归预测问题。但是，它主要用于行业中的分类预测问题。以下两个属性将很好地定义KNN-惰性学习算法-KNN是一种惰性学习算法，因为它没有专门的训练阶段，并且在分类时将所有数据用于训练。非参数学习算法-KNN也是非参数学习算法，因为它不假设有关基础数据的任何信息。KNN算法的工作K最近邻(KNN)算法使用“特征相似性”来预测新数据点的值，这...

机器学习-性能指标

📅 最后修改于: 2020-12-10 05:42:41 🧑 作者: Mango

我们可以使用各种指标来评估ML算法，分类以及回归算法的性能。我们必须谨慎选择评估ML性能的指标，因为-如何测量和比较ML算法的性能完全取决于您选择的指标。您如何权衡各种特征在结果中的重要性，将完全取决于您选择的指标。分类问题的绩效指标在前面的章节中，我们讨论了分类及其算法。在这里，我们将讨论各种性能指标，这些指标可用于评估分类问题的预测。混淆矩阵这是衡量分类问题性能的最简单方法，其中输出可以是两种...

机器学习-自动工作流程

📅 最后修改于: 2020-12-10 05:43:18 🧑 作者: Mango

介绍为了成功执行并产生结果，机器学习模型必须使某些标准工作流程自动化。这些标准工作流程的自动化过程可以在Scikit-learn Pipelines的帮助下完成。从数据科学家的角度来看，管道是一个通用的但非常重要的概念。它基本上允许数据从其原始格式流向一些有用的信息。下图可以帮助理解管道的工作方式-ML管道的块如下-数据提取-顾名思义，这是导入数据以供ML项目使用的过程。可以从单个或多个系统实时或...

改善ML模型的性能

📅 最后修改于: 2020-12-10 05:44:21 🧑 作者: Mango

整体演奏的性能提升集成多个模型可以使我们提高机器学习的效果。基本上，集成模型由几个单独训练的监督学习模型组成，并且与单个模型相比，它们的结果以各种方式合并以实现更好的预测性能。合奏方法可以分为以下两组-顺序集成法顾名思义，在这种集成方法中，基础学习器是顺序生成的。这种方法的动机是利用基础学习者之间的依赖性。并行合奏方法顾名思义，在这种集成方法中，基础学习器是并行生成的。这种方法的动机是利用基础学习...

改进ML模型(续)的性能

📅 最后修改于: 2020-12-10 05:44:46 🧑 作者: Mango

通过算法调整提高性能众所周知，ML模型的参数化方式可以针对特定问题调整其行为。算法调整意味着找到这些参数的最佳组合，从而可以提高ML模型的性能。这个过程有时称为超参数优化，算法本身的参数称为超参数，而ML算法找到的系数称为参数。在这里，我们将讨论Python Scikit-learn提供的一些算法参数调整方法。网格搜索参数调整这是一种参数调整方法。该方法工作的关键点是针对网格中指定的算法参数的每种...

使用Python机器学习-有用的资源

📅 最后修改于: 2020-12-10 05:45:03 🧑 作者: Mango

以下资源包含有关使用Python进行机器学习的其他信息。请使用它们来获得有关此方面的更深入的知识。使用Python进行机器学习的有用链接机器学习使用Python @百科-机器学习使用Python，它的历史和各种其他方面一直处于简单的语言解释。使用Python进行机器学习的实用书籍要在此页面上注册您的网站，请发送电子邮件至...

讨论使用Python机器学习

📅 最后修改于: 2020-12-10 05:45:16 🧑 作者: Mango

机器学习(ML)基本上是计算机科学领域，计算机系统可以像人类一样提供对数据的感知。简而言之，ML是一种人工智能，可以通过使用算法或方法从原始数据中提取模式。 ML的重点是允许计算机系统从经验中学习，而无需进行明确的编程或人工干预。...