首页 >> 职场 >> 王言治团队:神经网络要「发财」,秘密在于学习率!|ICML 2021

王言治团队:神经网络要「发财」,秘密在于学习率!|ICML 2021

2024-12-31 职场

的加权错综复杂的表征。

上图1 并不相同操练阶段性的下回应方法有示意上图:包括亦同操练、剪枝(剪枝掩码聚合)、稀少操练以及「剪枝与变更」

神经在线加权表征相反的分析

本兼职在各种DNN核心和CIFAR-10和CIFAR-100样本集上新的解读了「开奖新理论」兼职的实验,包括VGG-11、ResNet-20和MobileNet-V2。所作的目的是研究者中所奖结构上假定的精确前提。

上图2 CIFAR-10样本集上的ResNet-20在线在修习叛将为0.01和0.1时的随机新的加载和「中所奖在线」的简介

以ResNet-20的CIFAR-10样本集上为例,在初始修习叛将为0.01的完全,亦同操练的DNN的准确叛将为89.62%。在并不相同的稀少叛将下,「中所奖在线」的表现持续性要强随机为重加载。在稀少叛将为62%时,它达到了最高者的准确叛将90.04%(较较差亦同操练的DNN)。这与「开奖新理论」兼职在同一在线和样本集上推测的辨别结果完全相同。

另一方面,在初始修习叛将为0.1的完全,亦同操练的DNN的准确叛将为91.7%。在这种完全,「中所奖在线」的准确叛将与随机新的加载完全相同,在有本质的稀少叛将下(例如50%或以上),无法达到接近亦同操练的DNN的准确叛将。因此,并未满足中所奖结构上。

从这些实验来看,在较差修习叛将的完全,中所奖结构上假定,但在一般来说极高的修习叛将下并不必需推测,这在「Rethinking the value of pruning」[2]兼职中所也辨别到十分完全相同现象。

然而,必需表明的是,一般来说极高的修习叛将0.1(只不过是这些样本集的基准修习叛将)避免亦同操练的DNN的准确叛将值得注意较较差较差修习叛将(91.7%对89.6%)。

在「开奖新理论」的设为中所,在修习叛将为0.1的完全,其稀少操练的结果(「中所奖在线」,随机新的加载)也是一般来说极高。这一点在之前的方面讨论中所是其不会的。

现在的这两项问题是:上述两个辨别结果是方面的吗?如果谜题是信服的,这意味着中所奖结构上对DNN来说并不普遍,也不是DNN本身或者方面技术的发展的自然结构上。相反,它表明当修习叛将过分大时,完整的亦同操练DNN并未获得较好的操练。

所作的也就是说是上述辨别结果是方面的,这主要或许当修习叛将过分大时,加载的加权和再一操练的加权错综复杂假定表征。在实验者也就是说之前,所作将带入一个表征衡量(correlation indicator,CI)同步进行基本理论。

上图3 CIFAR-10上的ResNet-20在修习叛将为0.01和0.1时的随机新的加载和「中所奖在线」的指明

定义表征衡量用来取样四组加权

错综复杂的最大幅值的部分加权的前方的交错度。就其乘积如下:

加权的表征意味着如果一个加权的幅值在加载时就大,那么它在操练后也是大的。

造转成了这种表征的诱因是修习叛将太较差,加权新版本太慢。这种加权的表征对于神经在线操练来说是不可取的,一般来说不会避免高的准确叛将,在一个良好操练的神经在线中所,加权的幅值应该更多地远大于这些加权的前方而不是加载。

因此当加权的表征很强时,神经在线的准确叛将将不会变较差,也就是说,并未经过良好的操练。

上图4 在修习叛将为0.01和0.1时,初始加权和亦同操练加权错综复杂的交错叛将(当p=10%、20%、30%、40%和50%时)

为了实验者上述应为,所作同步进行了实验,以并不相同的初始修习叛将得显现出神经在线亦同操练的表征衡量

以CIFAR-10样本集上的ResNet-20为例同步进行指明。上图4简介了在修习叛将分别为0.01和0.1时,初始加权

和来自神经在线亦同操练的加权的方面衡量。与修习叛将为0.1的情况相较,修习叛将为0.01时表征衡量值得注意极高。

这一辨别表明,在修习叛将为0.01的完全,

的很大幅值的加权并未被完全新版本,指明亦同操练的神经在线并未被较好地操练新版本。

在修习叛将为0.1的完全,加权被充份新版本,因此在很大程度上不依赖于初始加权(

,其中所p = 10%, 20%, 30%, 40%, 50%),表明神经在线获得良好的充份操练。

上图5 (a),(b):在并不相同的稀少叛将下,「剪枝与变更」

通过算法剪枝算法造转成了的掩码的准确度。(c),(d):p =0.2时,在0.3、0.5、0.7稀少度比下,「中所奖在线」的加权

和「剪枝与变更」的加权

,以及新的随机加载加权

和「剪枝与变更」的加权

错综复杂的加权表征(交错叛将)比较。

中所奖结构上的诱因和前提

当修习叛将高时,操练「中所奖在线」和随机新的加载在线的准确叛将并不相同,所作力上图从这点显现出发,从而洞察显现出中所奖要素的诱因和前提。所作通过研究者加权的表征来实现这一期望。

所作尝试了「剪枝与变更」的手段,即对来自完整亦同操练在线的加权技术的发展掩码,然后对其同步进行T轮变更。再一的加权下回应转成

。以CIFAR-10上的ResNet-20为例同步进行指明。从上图5(a)和5(b)可以认显现出,

实现了一般来说极高的准确叛将,接近或较较差并不相同修习叛将下的亦同操练DNN的准确叛将。

所作还研究者了

错综复杂的表征,以便对中所奖结构上的诱因有所了解到。从上图5(c)和5(d)可以辨别到,在较差修习叛将下,

错综复杂假定较强表征,这时假定中所奖结构上。在其他完全,这种表征很小或是并未。

正确性是,中所奖结构上的一个这两项前提是

错综复杂的表征。

剪枝与变更——在稀少完全以后准确叛将的好处手段

上图6 「剪枝与变更」的弹道表现与两种稀少操练可行性的比较(「中所奖在线」和随机新的加载)

上图6简介了用作三种剪枝算法聚合掩码:(a)算法剪枝,(b)基于ADMM的剪枝,以及(c)单次剪枝。

为了好处地解决「开奖新理论」兼职中所稀少操练的过剩,所作提显现出异议「剪枝与变更」的手段。 所作以CIFAR-10样本集上的ResNet-20为例同步进行指明。这里用作完美的修习叛将0.1。

从上图6可以似乎地辨别到「剪枝与变更」与两个稀少操练可行性错综复杂的弹道差别。事实上,「剪枝与变更」可行性可以持续性超越亦同操练的完整比较大神经在线,其稀少叛将可多达70%。同样,两个稀少操练可行性错综复杂并未准确叛将关联性。

上图7 在三种剪枝算法(算法剪枝、基于ADMM的剪枝和单次剪枝)同步进行掩码聚合下,「剪枝与变更」以及稀少操练(「中所奖在线」可行性)的准确叛将表现。

上图7建构了上述结果,简介了三种剪枝算法下的「剪枝与变更」以及稀少操练(「中所奖在线」可行性)的准确叛将。可以辨别到准确叛将的大小次序:基于ADMM的剪枝最高者,算法剪枝在中所间,单次剪枝在最较差。这个次序对于「剪枝与变更」以及稀少操练也是一样的。

在这里剪枝算法仅用来聚合掩码。因此,一般来说准确叛将关联性或许聚合并不相同的掩码的质量。可以得显现出正确性,剪枝算法的自由选择在聚合稀少叔父在线中所至关为最重要,因为聚合的掩码的质量在这里起着这两项作用。

结语

在这项兼职中所,所作研究者了开奖新理论中所中所奖结构上背后的大体前提和理论。带入了一个方面衡量同步进行基本理论。在并不相同的样本集上对多个深度框架同步进行了广泛的实验,推论了中所奖结构上的假定与神经在线亦同操练过剩有关,对于充份操练的神经在线来说不太似乎再次发养。

同时,「开奖新理论」兼职中所的稀少操练设为并不必需以后亦同操练的比较大神经在线的准确叛将。为了解决这一局限性,所作提显现出异议了「剪枝与变更」的手段,该手段在并不相同的剪枝算法和总的操练延时下,在并不相同的样本集上对并不相同的神经在线均要强「开奖新理论」兼职设为的稀少操练。

所作简介

学术著作第一所作邓华,Dr毕业于宾夕法尼亚州北京大学计算机工程学院,Dr养讲师为王言治教授。现任职美的资深研究者员。

袁赓,宾夕法尼亚州北京大学计算机工程学院Dr在读养,讲师为王言治教授。

简要:

[1] Frankle, J. and Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks.

[2] Liu, Z., Sun, M., Zhou, T., Huang, G., and Darrell, T. Rethinking the value of network pruning.

[3] Frankle, J., Dziugaite, G. K., Roy, D. M., and Carbin, M. Stabilizing the lottery ticket hypothesis.

大同治疗皮肤病医院排名
太原银屑病专科医院
成都治疗风湿病最好的医院
全民健康网药品
抗病毒治疗
科兴制药海外市场
佐米曲普坦片有什么用
得了类风湿关节僵硬如何治
友情链接