📜  R 中的机器学习简介

📅  最后修改于: 2022-05-13 01:55:24.944000             🧑  作者: Mango

R 中的机器学习简介

机器学习一词最早是由 Arthur Samuel 在 1959 年创造的。机器学习的定义可以定义为机器学习赋予计算机学习的能力,而无需明确编程。同样在 1997 年,Tom Mitchell 将机器学习定义为“如果计算机程序在 T 上的性能(以 P 衡量)随着经验 E 而提高,则可以说计算机程序从经验 E 中学习某些任务 T 和某些性能度量 P”。机器学习被认为是计算机科学中最有趣的领域。

机器学习是如何工作的?

  1. 清理从数据集中获得的数据
  2. 选择合适的算法来构建预测模型
  3. 训练您的模型以了解项目的模式
  4. 更准确地预测结果

机器学习的分类

根据学习的性质,机器学习实现分为 3 大类。

  1. 监督学习
    监督学习顾名思义就是在监督的存在下。简而言之,在监督学习中,我们尝试使用标签来教机器学习数据,并且这些数据中已经有了正确的答案。在此之后,机器将创建一个示例数据集,以便监督算法分析训练数据并生成标记数据的正确输出。
    例如,如果我们创建一组水果数据,我们将标记为圆形的水果,向上倾斜,颜色为红色,而不是称为苹果。
    现在,当我们要求机器从水果篮中识别苹果时,它会使用之前的标签来识别苹果。

    监督学习分为以下两类:

    • 分类:分类问题是输出变量是一个类别,例如“红色”或“橙色”或“可数”或“不可数”。
    • 回归:当输出变量是真实值时使用回归,例如“ruppes”或“height”。
  2. 无监督学习
    无监督学习是使用未标记的信息训练机器,它在没有任何指导的情况下工作。在这里,机器的主要任务是在没有任何事先监督的情况下使用相似性、差异性和模式来分离数据。
    因此,机器被限制在自己找到未标记数据中的隐藏结构。
    例如,如果我们提供一组以前从未见过的猫和狗。然后机器会根据猫和狗的行为和性质来区分它们。现在当我们提供狗和猫的图片时,它会根据机器的分类提供结果。

    无监督学习分为以下两类:

    • 聚类:聚类问题是机器识别数据中的固有分组,例如根据商店的访问量对客户进行分组。
    • 关联:关联问题是我们可以找到两个事件或物品之间的关系,例如购买物品 A 的人也倾向于购买 B。
  3. 强化学习
    强化学习方法就是在特定情况下采取适当的行动来最大化奖励。它由各种机器监督,以在特定情况下采取最佳路径来解决问题。强化学习和监督学习之间的区别在于,在监督学习中,数据有一个正确答案的键,它用来找到答案,但在强化中,代理决定做什么来执行给定的任务。例如,从一个地方到另一个地方旅行时,我们总是考虑到达目的地的最短和最好的部分。强化学习的一些要点:
    • 输入:输入应该来自模型实际开始的初始阶段。
    • 输出:任何问题都有多个输出。
    • 训练:由于训练依赖于输入,模型将返回状态,用户将根据其输出决定奖励或丢弃模型。

R 语言基本上是由统计学家开发的,旨在帮助其他统计学家和开发人员更快、更高效地处理数据。到目前为止,我们知道机器学习基本上是处理大量数据和统计数据,作为数据科学的一部分,总是推荐使用 R 语言。因此,对于那些使用机器学习使任务更容易、更快和创新的人来说,R 语言变得越来越方便。以下是 R 语言在 R 编程中实现机器学习算法的一些主要优势。

使用 R 语言实现机器学习的优势

  • 它提供了很好的解释性代码。例如,如果您处于机器学习项目的早期阶段并且需要解释您所做的工作,那么将 R 语言与Python语言进行比较会变得很容易,因为它提供了处理数据的适当统计方法用更少的代码行。
  • R 语言非常适合数据可视化。 R 语言提供了与机器学习模型一起工作的最佳原型。
  • R 语言拥有最好的工具和库包来处理机器学习项目。开发人员可以使用这些包来创建机器学习项目的最佳前模型、模型和后模型。此外,R 的包比Python语言更先进、更广泛,这使其成为处理机器学习项目的首选。

用于实现机器学习的流行 R 语言包

  • lattice: lattice 包支持创建显示变量或多个变量与条件之间的关系的图形。
  • DataExplorer:这个 R 包专注于自动化数据可视化和数据处理,以便用户可以关注项目的数据洞察力。
  • Dalex(描述性机器学习解释):这个包有助于为输入变量和它的输出之间的关系提供各种解释。它有助于理解机器学习的复杂模型
  • dplyr:这个 R 包用于用行和列汇总机器学习的表格数据。它采用“拆分-应用-组合”方法。
  • Esquisse:这个 R 包用于快速探索数据以获取其中包含的信息。它还允许绘制条形图、直方图、曲线和散点图。
  • caret:这个 R 包试图简化创建预测模型的过程。
  • janitor:这个 R 包具有检查和清理脏数据的功能。它基本上是为了初学者和中级用户的用户友好性而构建的。
  • rpart:这个 R 包有助于使用两阶段过程创建分类和回归模型。生成的模型表示为二叉树。

R在机器学习中的应用

有许多顶级公司,如 Google、Facebook、Uber 等使用 R 语言来应用机器学习。该应用程序是:

  • 社交网络分析
  • 分析趋势和模式
  • 深入了解用户的行为
  • 寻找用户之间的关系
  • 开发分析解决方案
  • 访问图表组件
  • 嵌入交互式视觉图形

机器学习问题示例

  • 网络搜索,如 Siri、Alexa、Google、Cortona:识别用户的声音并完成请求
  • 社交媒体服务:帮助世界各地的人们联系并展示我们可能认识的人的推荐
  • 在线客户支持:为客户提供高便利性和支持代理的效率
  • 智能游戏:使用类似于人类智能的高级响应和自适应非玩家字符
  • 产品推荐:用于推荐您可能想购买或参与的产品的软件工具
  • 虚拟个人助理:它是可以根据提供的说明执行任务的软件
  • 交通警报:帮助根据提供的情况切换交通警报
  • 在线欺诈检测:检查用户执行的异常功能并检测欺诈行为
  • 医疗保健:机器学习可以管理大量超出正常人想象的数据,帮助根据症状识别患者的病情
  • 现实世界的例子:当你在 youtube 上搜索某种烹饪食谱时,你会看到下面标题为“你也可能喜欢这个”的推荐。这是机器学习的常见用途。

机器学习问题的类型

  • 回归:回归技术有助于机器学习方法预测连续值。例如,房子的价格。
  • 分类:将输入划分为一个或多个类或类别,供学习者生成模型以分配未见过的模块。例如,在电子邮件欺诈的情况下,我们可以将电子邮件分为两类,即“垃圾邮件”和“非垃圾邮件”。
  • 聚类:这种技术遵循总结,找到一组相似的实体。例如,我们可以收集并读取医院患者的读数。
  • 关联:此技术发现同时发生的事件或项目。例如,市场篮子。
  • Anamoly 检测:该技术通过发现异常情况或行为来发挥作用。例如,信用卡欺诈检测。
  • 序列挖掘:该技术预测下一个流事件。例如,点击流事件。
  • 推荐:此技术推荐该项目。例如,根据其中名人的歌曲或电影。