我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

加速了超级计算深度学习培训

深度学习训练加速了超级计算内容块的形象
二维图像的嵌入ImageNet数据库,通过卷积神经网络提取使用咖啡。信贷:Andrej Karpathy

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本“深度学习训练加速了超级计算”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

从加州大学一个研究小组,伯克利,加州大学戴维斯分校和得克萨斯高级计算中心(TACC)发表的结果努力利用超级计算机培训深神经网络(款)图像识别速度快速。

研究人员有效地使用1024 Skylake处理器Stampede2超级TACC完成100 -时代ImageNet训练AlexNet 11分钟,最快的时间记录日期。使用1600 Skylake处理器之前他们也打败了Facebook的结果通过整理90 -时代ImageNet训练ResNet-50在32分钟,批量大小超过20000,他们的精度远高于Facebook。(近年来,ImageNet基准——可视化数据库设计用于在图像识别研究中,扮演了一个重要的角色在评估不同的方法来培训款。)

使用Intel Xeonφ512芯片Stampede2他们完成了100 - 24分钟和90年时代AlexNet时代ResNet-50在60分钟。

“这些结果表明利用先进的计算资源的潜力,就像那些在TACC,连同大mini-batch使算法,训练神经网络交互和在一个分布式的方式,”赵说,研究员TACC,领先的超级计算中心。“鉴于我们庞大的用户基础和巨大的能力,这将对科学产生重大影响。”

他们发表了他们的结果Arxiv2017年11月。

款训练系统达到最先进的“(”测试的准确性,这意味着比例的情况下,标准答案(概率最高的一个)是完全预期的答案。使用ResNet-50(由微软开发的一种卷积神经网络,赢得了2015年的大规模ImageNet视觉识别竞争和超越人类表现ImageNet数据集)他们实现了超过75%的准确性,与Facebook和亚马逊的批量训练水平。扩展到数据的批量大小32000年这项工作只损失了0.6%(精度。

目前深度学习研究人员需要使用试错来设计新模式。这意味着他们需要运行几十甚至上百次训练过程建立模型。

的训练影响速度相对较慢的速度,和这种科学研究人员愿意探索。谷歌的研究人员指出,如果需要1到4天训练一个神经网络,这是研究人员认为还过得去。如果需要1至4周,该方法只能用于高价值的实验。如果它需要一个多月,科学家们甚至不会尝试。如果研究人员能在休息时间完成培训过程,它将显著地提高他们的生产力。

集团的突破的发展涉及Layer-Wise自适应率比例(LARS)算法能够有效地分配数据的多处理器计算同时使用一个比以往任何时候都多的批量大小(32000项)。

LARS包含更多的训练例子在一个向前/向后传递,自适应地调整神经网络的每一层之间的学习速率取决于一个度量从之前的迭代。

由于这些变化,他们能够利用大量的Skylakeφ和英特尔至强处理器上可用Stampede2同时保护精度,这与先前的大型批量方法并非如此。

“深度学习应用,更大的数据集和更大的模型导致精度显著提高,但是在更长的训练时间的成本,”James Demmel说“数学和计算机科学的教授在加州大学伯克利分校。“使用LARS算法,联合开发通过y b·金斯伯格和i Gitman在英伟达实习,使我们能够保持精度甚至在一批32 k的大小。这个大批大小使我们能够有效地利用分布式系统和完成ImageNet培训与AlexNet 11分钟1024 Skylake处理器,显著提高之前的结果。”

研究结果显示替代使用专门的硬件的趋势——要么gpu,张量流芯片、fpga或其他新兴架构——深度学习。基于咖啡的团队写的代码和利用Intel-Caffe,支持多节点的训练。

严重的神经网络的训练阶段通常是最耗时的深度学习的一部分。直到最近,这个过程通过加州大学Berkeley-led团队会耗费几小时或几天。快速的发展,分布式科学训练会影响速度,以及这种科学研究人员可以与这些新方法探索。

实验是一个更广泛的努力的一部分TACC为深度学习测试的适用性CPU硬件和机器学习应用程序和框架,包括咖啡、MXNet和TensorFlow。

TACC专家展示了他们当缩放咖啡1024 Skylake处理器使用resNet-50处理器,该框架运行效率约为73%,或750倍速度比在单一Skylake处理器。

“使用商品HPC服务器快速列车深学习算法在大规模数据集是一个强大的新工具测量和模拟研究,”尼尔·加夫尼说TACC主任数据密集型计算。”,不需要专门的硬件系统之间迁移大型数据集,数据驱动的时候发现是减少和总体效率会显著增加。”

研究人员和科学学科越来越多地使用机器和深度学习从大规模实验和模拟数据集,提取的见解有系统可以处理这个工作负载是重要的。

最近的结果表明这样的系统现在提供给开放科学社区通过Stampede2等国家先进的计算资源。

这篇文章被转载材料所提供的得克萨斯高级计算中心(TACC)。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。

广告
Baidu