监督与非监督学习

文章

发表:2021年8月16日

|最后更新:2022年3月15日

| 罗伯特·荷兰

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“监督与非监督学习”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

188金宝搏备用科技网络有限公司需要您提供的联系方式联系你关于我们的产品和服务。你可以随时取消订阅这些通讯。如何取消订阅的信息,以及我们的隐私实践和承诺保护你的隐私,看看我们隐私政策

阅读时间:

监督学习是什么?结合大数据,这种机器学习技术有能力改变世界。在本文中,我们将探索监督学习的主题,但首先要涉及最近的一些机器学习历史。

2012年,亚历克斯Krizhevsky多伦多大学的研究员开始第三个人工智能的黄金时代。以绝对优势取胜,他击败了最先进的ImageNet自动贴标,¹超过一百万张1000种不同类别的图像数据库从独木舟到猫和青蛙热狗。如果你有没有想过为什么人工智能在过去十年里一直在新闻炒作开始突破。

亚历克斯的新方法是并行化计算的神经网络,允许他们比以往任何时候都更广泛和深入。²但实际上他是如何训练他的网络?这就是监督学习。

监督学习是什么?

监督学习所有你需要的是一些数据样本和他们的标签。我们想火车模型猜测正确的每个数据样本的标签。

(Alex的网络猜测一些图像的五大类最有可能ImageNet)²

这种学习方法是我们所有人的内在。如果你曾经练习语言,修订为数学考试或做酒吧测验你学到的监督之下。想象拿着一个苹果一个婴儿,问,“这是什么?”。婴儿指出苹果和声明“香蕉! !”。婴儿很近,但是有一些错误的预测。“App-le”,你说。婴儿更新它的语言模型,下次你显示苹果它说“Appum !”。最终,孩子将学会说“苹果”。

这正是更新公式用于监督学习。总之,我们正在测试我们的模型,与问题和婴儿监督真正的答案。或在统计说,我们适合模型之间的误差最小化他们的预测和地面真理。

你摆出婴儿分类问题,因为它需要一个明确的回应。其他类型的问题是关心估计量,我们称之为回归问题。这些包括猜价格的房子,某人的年龄和你的箱子的重量。

让我们继续我们的机器学习的故事。那现在是2015年,他开明,微软研究员建立监督神经网络,第一次超过人类层次的分类ImageNet表现。³以来,焦点已经转向无监督学习,我们可以实现没有标签。

无监督学习是什么?

简而言之,无监督学习仅仅是监督学习但没有标签。但是我们如何学习任何一组“正确答案”?

无监督学习解决这个看似不可能完成的任务没有任何sample-specific先验知识的学习有用的信息。回忆我们的监督学习的孩子。第一次出生时从未见过任何对象,不知道一个词。怎么样从对世界一无所知,知道吗?一个流行的术语,这类问题在计算机科学引导命名,因为任务类似于解除自己自力更生。

(无监督聚类在ImageNet。¹你同意的红色和绿色组合成生物和非生物的事情,或者你是否有不同呢?也许通过颜色或时间?)

这通常是通过使对整个数据集的通用的假设。受欢迎的是:

聚类——假设数据自然落入有限数量的不同的群体。我们可能期望ImageNet 1000类分为1000组。算法,帮助决定哪些数据应该在集团包括centroid-based方法如k - means和高斯混合模型,并基于谱聚类等方法。
降维——假设这些数据可以压缩,同时保留数据的完整性。我们使用有损压缩格式,如日常算法JPEG和MP3。我们也使用主成分分析和autoencoders。
异常检测——期待异常样本之外的分布正常。通过展示我们的模型只规范样本,异常的标记的距离规范人口。在实践中我们假设规范人口遵循一个高斯分布和异常定义为某个数的标准差的意思。

Self-supervised学习

Self-supervised无监督学习的方法代表了一种迷人的子集。在端到端深度学习的背景下,我们仍然需要某种形式的监管信号进行训练。这意味着我们需要设计学习目标样本数据的函数。研究人员一直在创新。语言模型这可能意味着填写空白用到一个句子中,如:

机器会在吗词吗?

和模型训练图像,解决拼图游戏

(鉴于(b),模型必须重新排列拼图碎片重建(a))⁴

理由,你可能问题的有用性解决了拼图游戏的AI。但这样的执行一般任务需要学习重要的信息数据。重新排列老虎,你必须首先学习一个样子。

Semi-supervised学习:两全其美

结合无监督和监督学习,这种情况要求我们可以学习当只标注数据集的一个子集。通常,这涉及到学习的强大的表示数据未受训的通过,其次是监督校准和测试的小标签集。首先从廉价和丰富的标记集学习我们可以获得更好的结果比如果我们只执行监督培训使用标记子集。

何时使用监督与非监督学习

监督学习我们需要标签。但是注释您的数据并不总是那么容易。

(标签的问题。第一张图片真的是格栅吗?第三张照片是一只狗,或者一些樱桃吗?你会如何标签这些图片?)

你可能会遇到一些问题:

大数据:分配一个标签为每个样本数据集可以及时的和昂贵的,尤其是当他们需要一个专家对于医学成像。
每个样本的多个类:你的数据集可能需要几个标签/样本如果它属于多个类或展览。第三次上图一只狗,一些樱桃,或都有?
密集的标签:每个维度的多元数据可能需要一个标签可以非常昂贵。例如,如果我们训练一个网络画轮廓在苹果。我们通常需要每个像素标记为属于一个苹果或背景。

如果您的数据是预包装标签,监督学习是一个很好的起点。它让你可以比较不同模型的性能,并提供直觉预测的任务是多么的困难。然而,请记住,你的标签可以在危险的准确性:

标签错误,如系统的偏差和方差。换句话说,不同的注释器不得转让相同的标签相同的样本。这就是所谓的两分的协议,可以低得惊人。事实上,标签从同一个人并不保证是一致的;它被发现法官给轻句子后吃午餐。
连续变量的类别表示,几个不同的水平的一个变量被相同的离散值,从而破坏变量中的细微差别。
无视类关系。独立分类变量忽略类重叠。例如,我们知道猫在概念上更接近狗比摩天大楼。然而简单的分类标签不会编码这个事实。

孩子自己做大量的学习。在2016年NeurIPS会议Yann Lecun(人工智能的三个教父之一,说:

“如果情报是一个蛋糕,蛋糕的大部分是无监督学习,锦上添花是监督式学习”

无人监督的深度学习方法已经看到在过去的几年中取得了重大进展,他们的表现迅速接近他们监督同行在ImageNet挑战。一旦你知道学习两种形式的利弊,选择无监督或监管,或混合,是你和你的数据集。

引用

邓J,董W, Socher R, et al . ImageNet:大规模的分层图像数据库。:2009年IEEE计算机视觉与模式识别会议;2009:248 - 255。doi:10.1109 / CVPR.2009.5206848
通用电气Krizhevsky Sutskever我,辛顿。ImageNet与深卷积神经网络分类。Commun ACM。60 2017;(6):84 - 90。doi:10.1145 / 3065386
他张X K,任年代,太阳j .深残余图像识别的学习。arXiv: 151203385 (cs)。网上发布的12月10日,2015年。2021年8月17日通过。http://arxiv.org/abs/1512.03385
Noroozi M, Favaro p .无监督学习通过求解拼图游戏的视觉表示。arXiv: 160309246 (cs)。2017年8月22日在线发表。2021年8月17日通过。http://arxiv.org/abs/1603.09246