📜  机器学习简介

📅  最后修改于: 2021-04-17 02:28:27             🧑  作者: Mango

机器学习一词由亚瑟·塞缪尔(Arthur Samuel)于1959年提出,他是计算机游戏和人工智能领域的美国先驱,他说:“它使计算机无需明确编程即可学习。”
1997年,汤姆·米切尔(Tom Mitchell)给出了一个“恰当的”数学和关系定义:“据称,计算机程序可以从经验E中学习一些任务T和一些性能指标P(如果它对T的性能), P,随着经验E而提高。

机器学习是一个流行的最新流行语。它是计算机科学中最有趣的子领域之一,值得拥有。那么,机器学习的真正含义是什么?

让我们尝试以通俗易懂的方式理解机器学习。考虑到您正在尝试将纸张扔到垃圾箱。

第一次尝试后,您意识到自己施加了太多的力量。第二次尝试后,您意识到自己更接近目标,但是您需要增加投掷角度。这里发生的基本上是在每次掷球之后我们都在学习一些东西并改善最终结果。我们被编程为从我们的经验中学习。

这意味着涉及机器学习的任务从根本上提供了操作上的定义,而不是用认知术语来定义领域。这是根据艾伦·图灵(Alan Turing)在其论文“计算机械与智能”中的建议提出的,其中提出了“机器可以思考吗?”的问题。替换为“机器可以做我们(作为思想实体)可以做的事情吗?”的问题。
在数据分析领域,机器学习用于设计复杂的模型和算法,以进行预测。在商业用途中,这称为预测分析。这些分析模型使研究人员,数据科学家,工程师和分析师能够“得出可靠,可重复的决策和结果”,并通过从数据集(输入)的历史关系和趋势中学习来发现“隐藏的见解”。

假设您决定为假期退房。您浏览旅行社网站并搜索酒店。当您查看特定的酒店时,在酒店说明下方会出现一个标题为“您可能也喜欢这些酒店”的部分。这是机器学习的一个常见用例,称为“推荐引擎”。同样,许多数据点被用来训练模型,以便根据他们已经知道的关于您的许多信息,预测在该部分下向您展示的最佳酒店。

因此,如果您想让程序预测例如繁忙路口的交通模式(任务T),则可以通过机器学习算法来运行它,该算法包含有关过去交通模式的数据(体验E),并且如果它成功地“学习了” ”,那么它将更好地预测未来的流量模式(性能指标P)。
但是,许多现实世界中问题的高度复杂性通常意味着,即使不是不可能,发明能够每次都完美解决这些问题的专用算法也是不切实际的。机器学习问题的示例包括:“这是癌症吗?”,“这些人中的哪些是彼此的好朋友?”,“这个人会喜欢这部电影吗?”这些问题是机器学习的绝佳目标,实际上,机器学习已被应用。取得了巨大的成功。

机器学习分类

根据可用于学习系统的学习“信号”或“响应”的性质,机器学习实现分为三大类:

  1. 监督学习:当算法从示例数据和相关目标响应中学习时,目标数据可以由数值或字符串标签(例如类或标签)组成,以便以后预测新示例构成的正确响应时,属于监督学习类别。这种方法的确类似于在老师的监督下的人类学习。老师为学生提供了良好的记忆范例,然后学生从这些特定的范例中得出一般规则。
  2. 无监督学习:当算法从无任何关联响应的简单示例中学习时,由算法自行确定数据模式。这种类型的算法倾向于将数据重组为其他内容,例如可能代表一类的新功能或一系列新的不相关值。它们在为人类提供有关数据含义的见解以及对受监督的机器学习算法的新的有用输入方面非常有用。
    作为一种学习,它类似于人类用来确定某些对象或事件来自同一类的方法,例如通过观察对象之间的相似度。您在网络上以营销自动化形式找到的一些推荐系统都是基于这种学习类型的。
  3. 强化学习:在无监督学习中,当您使用缺少标签的示例展示算法时。但是,根据算法提出的解决方案,您可以将示例与正反馈或负反馈配合使用,该解决方案属于强化学习类别,该类别与算法必须做出决策的应用程序相关(因此,产品具有说明性,而不仅仅是说明性,就像在无监督学习中一样),这些决定将产生后果。在人类世界中,这就像通过反复试验而学习。
    错误可以帮助您学习,因为它们增加了罚款(成本,时间损失,后悔,痛苦等),使您知道某些行动比其他行动更不可能成功。当计算机自己学习玩视频游戏时,就会出现一个有趣的强化学习示例。
    在这种情况下,应用程序会向算法提供特定情况的示例,例如让游戏玩家在避开敌人的同时被困在迷宫中。该应用程序使算法知道采取行动的结果,并在尝试避免发现危险的情况并寻求生存的同时进行学习。您可以看看Google DeepMind公司如何创建了一个强化学习程序,该程序可以播放Atari的旧视频游戏。观看视频时,请注意该程序最初是笨拙且不熟练的,但经过培训才能稳步改进,直到成为冠军为止。
  4. 半监督学习:给出不完整的训练信号的情况:缺少某些(通常很多)目标输出的训练集。该原理有一个特殊情况,即转导,在学习时可以知道整个问题实例集,但缺少部分目标。

分类的要求输出的基础上,

当人们考虑机器学习系统的期望输出时,就会出现另一种机器学习任务的分类:

  1. 分类:将输入分为两个或更多类时,学习者必须生成一个模型,将看不见的输入分配给这些类中的一个或多个(多标签分类)。这通常是在有监督的方式下解决的。垃圾邮件过滤是分类的示例,其中输入是电子邮件(或其他)消息,类别是“垃圾邮件”和“非垃圾邮件”。
  2. 回归:这也是一个监督问题,是输出是连续而不是离散的情况。
  3. 聚类:将一组输入分为几组时。与分类不同,这些组是事先未知的,这通常是一项无人监督的任务。

当无法通过典型方法解决问题时,机器学习就会成为现实。