本文摘要:因此,Boosting的Margin本质上反映了Boosting使用的基本分类器对数据分类结果的信赖度。大家最初在VCTheory研究Boosting时,理论结果认为综合越少的基本分类器,一般效果越差。

一般化

AI科学技术评论根据王立威教授在中国人工智能学会AIDL第二期人工智能最先进讲座*机械学习最先进的报告书《机械学习理论:总结与未来发展》的编辑整理,在不改变意图的基础上稍作删改。王立威王立威在北京大学教授主要研究领域为机器学习。此外,还包括COLT、NIPS、JMLR、UPAMI等权威会议期刊公开发表了60多篇论文。2010年入选,AI’s10totoWatch,是第一位获得该奖项的亚洲学者。

2012年获得首批国家自然科学基金优秀青年基金,新世纪优秀人才。任命NIPS等权威会议,AreaChair和许多学术期刊编辑委员会。以下是王立威教授现场演讲的第三部分,主要说明MarginTheory、算法稳定性等问题,对深度自学算法进行了讨论。|MarginTheory说明了机器学习中第二个最重要的理论——MarginTheory。

MarginTheory和VCTheory有什么区别?VCTheory与算法没什么关系,描绘子集的复杂性MarginTheory不同,与很多算法有关,之后说明的MarginTheory几乎描绘了算法。因此,我们应该解释机器学习理论的发展是从描绘一些结构的性质到逐渐改变描绘算法本身。我指出,现在特别是对于深度自学来说,最有价值的自学理论一定是刻画深度自学算法本身的性质。

当然,你的模型的复杂性也很简单,但它可能不是最重要的。什么是Margin?MarginTheory可能听说过SVM、Boosting等方法。

那到底是什么意思呢?MarginTheory在SVM中如何使用是众所周知的。想象一下。例如,空间有正负两种,现在找线分离这两种。

必须找到分法,这两种分法结束后,分类面的间隔越大越好,这个间隔被称为Margin。Boosting也有类似的概念。

Boosting是许多基本分类器将线性组合起来的最后结果。Margin发生了什么?例如,你组成了100个分类器,这100个分类器中有多少把这个数据视为正点,有多少被视为胜利。50%是正的,50%是胜利的,实质上这个判断结果对数据没有Margin,Margin是0的100%是正的,Margin非常大。因此,Boosting的Margin本质上反映了Boosting使用的基本分类器对数据分类结果的信赖度。

如果100%分为正确的类别,说明这个结果的信赖度非常低的类似50%,说明信赖度非常低。因此,这种信赖度是Margin应对的,实质上对一般化能力有着非常重要的影响。

为什么不开始研究MarginTheory?大家最初在VCTheory研究Boosting时,理论结果认为综合越少的基本分类器,一般效果越差。但实质上质上,实验结果综合了数千个基本分类器后,一般化的性能不仅不差,而且大大逆转。

这看起来很奇怪,引导人们思考,不仅要考虑模型的复杂性,还要考虑算法本身是否也会影响一般化。直观解释:如何用Margin描绘一般化?Margin既可以普遍描绘SVM,也可以普遍描绘Boosting。然而,我们可以忘记所有这些理论,从直观的角度思考。

现在大家都有两种情况。第一种情况是,我现在有分类器。它对大部分数据有相当大的信赖度,或者都是正类,或者都是负类。

在Margin语言中,大部分数据Margin相当大的第二种情况下,大部分数据Margin小,基本上0%稍多。这两种分类器相差甚远,但假设这两种情况在培训数据上的培训错误率完全相同。

训练的错误率无法应对数据是否正确,但信赖度实质上代表了明确的分类值的大小。在训练错误率完全相同的前提下,信赖度高的可能性高,还是信赖度小的可能性高?从非常直观的角度来看,不需要任何理论,信赖度高的一般化能力肯定会更大。MarginTheory是在正确的数学基础上制作直观的想法,用森严的语言进行说明。

信赖

对数学感兴趣的同学,如果对其中数学的明确证明书不感兴趣的话,就解读刚才说的话。也就是说,关于分类结果,不仅要看训练错误率这样非常简单的数字,还要关注Margin。

Margin代表了赖度,信赖度对一般化能力有着非常根本的发展。我和周志华老师合作过很多工作,尤其是在Boosting这方面。

这是近十年前做的工作。之后,周老师和他的学生做了更加理解、更加美丽的工作。

因此,如果你感兴趣,你可以参考这方面的论文。|MarginTheory的总结VCTheory是宏观的,是对问题最简单的说明,只考虑算法对各数据的判断、判断错误和模型的复杂性,用这两点描绘一般化。

MarginTheory告诉我们更加关注算法的信息,算法不会输入很多可靠的信息。只是,在今天的深度自学中,在某种程度上有这个问题。深度自学最后输入的不仅是非,还输入了实数值。

这个值本身含有一定的信息量,这个值的大小也许只体现了信赖度的大小。作为研究内容,我们可以探讨这个值对深度自学的一般化能力是如何发展的。

从Boosting的发展过程中,有什么灵感?刚才,MarginTheory限于SVM和Boosting,可以探索两者的关系。以下是Boosting对明确的Margin理论的数学表达式,该表达式比较复杂,最初是Boosting的明确提出者Freund和Schapire明确提出的。这里只有很多故事。

让我们简单谈谈这里的故事。Boosting只是很有趣。总结机器学习的发展历史,就找不到历史。

大约在1995年和1996年,人们明确提出了adaBoost算法。这个算法明确提出后,大家为什么这么简单的人组能大幅度提高性能呢?这看似魔术,如今深度自学。

其方法只是将基本的分类器人组合起来。现在没有人需要说明为什么深度自学实际上有这么好的效果,当时adaBoost算法刚出来的时候也是如此。但是,很快,adaBoost的明确提出者Freund和Schapire获得了理论Margintheory,数学上证明了Boosting需要分类器,其Margin相当大。

但旋转后,随机森林和bagging的明确提出者Leo、Breiman明确提出了MinimumMargin这一理论。该理论在定量方面更好,但实验结果与理论相反——理论上更好的Boosting算法最终没有理论上差的Boosting算法的实验结果。

因此,我们可以解释此时的实验结果和理论预测几乎是对立的。我们应该相信实验还是理论?此时,我们必须根据事实追求的精神,承认100%的实验结果:承认理论上有什么问题。Breiman得出结论,MarginTheory同意存在很大问题,不能说明实际现象。多年后,通过学者们,包括我和周志华先生在内,在这方面进行的研究,我们找到这个理论没有问题,问题是以前的理论在定量的意义上没有最差。

更加理解定量,更加细致的话,就找不到Margin的理论和试验观测。因此,Boosting发展历史的故事对我个人的灵感之一是,算法的明确提出不会落后于理论,adaBoosting是典型的例子。然而,不要生气。

我们逐渐深入研究和解读它。我坚信深度自学是一样的。在即将到来的时候,我们不会理论上对深度自学有更深刻的理解。关于王教授和其他教授的主题报告,请期待(公共编号:)的以前报告。

原始文章允许禁止发布。下一篇文章发表了注意事项。

本文关键词:泛亚电竞平台手机版官网,一般化,明确提出,理论,自学

本文来源:泛亚电竞平台手机版官网-www.magterraplenagem.com