加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

人工智能的最佳计算基础设施是什么?

发布时间:2019-08-20 04:38:14 所属栏目:创业 来源:亿欧网
导读:副标题#e# 比以往任何时候都更重要的是,对于每个新的数据中心工作负载,IT组织必须回答的问题是在哪里运行。如今,最新的企业计算工作负载是机器学习(或人工智能)的变体,无论是深度学习模型培训还是推理(使用经过培训的模型),人工智能基础设施已经有太多

Charlie Boyle:大约五年前,人们看到高性能计算(HPC)和人工智能系统之间存在非常明显的差异,但是现在,这二者很多功能已经合并。以前,每个人都认为超级计算机是64位、双精度。而人工智能工作负载主要是32位或16位混合。而这两种技术应用在两个不同的场合。

人们现在看到的是一个典型的超级计算机会在很多节点上运行一个问题,而在人工智能工作负载中正在做同样的事情。MLPerf(人工智能硬件性能基准测试版)刚刚发布,大量节点只完成一项工作。人工智能和高性能计算之间的工作量实际上非常相似。使用我们最新的GPU,可以提供传统的高性能计算双精度,人工智能为32位精度,并加速人工智能混合精度。

传统的超级计算中心现在都在采用人工智能技,可能已经建立了超级计算机,但他们都在同一个系统上运行超级计算机任务和人工智能工作负载。

这两者的架构相同。在过去,超级计算使用的网络不同于传统的人工智能。现在一切都融合了。这就是客户为什么要买Mellanox产品的部分原因。现在,超级计算基础设施对于双方都至关重要。人们认为它只是一个深奥的高性能计算机,但它将会成为主流;而企业现在将它作为他们的人工智能系统的支柱。

DCK:人工智能硬件有着激烈的竞争,例如谷歌的TPU、FPGA,云计算提供商和创业公司设计的其他定制芯片,这是不是Nvidia公司的关注点?

Charlie Boyle:我们总是关注竞争,但我们的竞争对手以我们为基准。我们在这个行业如此多产的部分原因是我们无处不在。在谷歌云平台中采用Nvidia GPU,而在亚马逊云平台中,也有Nvidia GPU。

如果笔记本电脑配有Nvidia GPU,可以对此进行训练。我们的GPU运行一切事务,可以在笔记本电脑上进行深度学习训练的软件堆栈与在我们在超级计算机上运行的软件堆栈相同。

当所有这些创业公司和不同的人选择一个基准时,这是一个巨大的问题。例如有的公司表示,“我们真的很擅长ResNet 50。”如果只做ResNet 50,这只是企业整体人工智能工作量的一小部分,所以具有软件灵活性和可编程性对我们来说是一笔巨大的财富。为此,我们在过去十年中建立了一个生态系统。

这是我认为这个领域的创业公司面临的最大挑战:企业可以开发构建一种芯片,但是当笔记本电脑和每个云中都没有采用这种芯片时,让数百万开发人员使用其开发的芯片是很困难的。当查看TPU(谷歌的定制人工智能芯片),TPU仅在他们认为适合的一些工作负载中提交。而我们提交最新的MLPerf结果时,我们可以提交几乎所有类别。

具有市场竞争是一件好事,它可以让企业变得更好。而凭借拥有的技术和生态系统,我们才能拥有真正的优势。

DCK:传统的HPC架构与人工智能融合意味着传统的HPC供应商现在正在与DGX竞争。这会对你的工作带来困难吗?

Charlie Boyle:我认为它们根本不是竞争对手,因为这些公司都使用Nvidia GPU。如果我们向客户销售系统,或者HPE、Dell或Cray向客户销售系统,只要客户满意,我们就没有问题。

我们制造的软件在我们自己的几千个DGX系统上运行,通过我们的NGC基础设施在内部提供(NGC是Nvidia公司的GPU优化软件在线分销中心),因此我们所有的OEM客户都可以下载相同的软件。在容器中也使用相同的软件,因为我们只希望每个客户都拥有最佳的GPU体验。

因此,我不认为这些公司是竞争对手。作为产品线所有者,我们与我的OEM合作伙伴分享了很多东西。我们总是先构建DGX系统,因为我们需要证明它是有效的。然后吸取这些经验教训,并把它们提供给我们的合作伙伴,以缩短它们的开发周期。

我们会和任何一家OEM公司进行沟通,如果他们正在考虑建立一个新的系统,我们可以为他们提供帮助。

DCK:DGX中是否有独特的Nvidia IP未与OEM厂商共享?

Charlie Boyle:独特的IP是我们在Nvidia内部为我们自己的研发而建立的令人难以置信的基础设施:我们所有的深度学习研究,这些都是在几千个DGX系统上完成的,所以我们从这些系统中学习,并将学习成果传递给我们的客户。在HPE、戴尔或Cray系统中也可以找到同样的技术。

我们从客户那里听到的一个常见问题是,“我想使用你们用的东西。”其实那就是DGX系统。如果客户喜欢使用HPE系统,因为他们喜欢采用其管理基础设施。

但从销售和市场的角度来看,只要人们购买GPU,我们就会感到高兴。

DCK:谷歌公司最近宣布了一种新的压缩算法,使人工智能的工作负载能够在智能手机上运行。未来数据中心需要更少的GPU,因为手机可以完成所有的人工智能计算吗?

Charlie Boyle:世界总是需要更多的计算。是的,手机的功能将会变得更强大,但世界对计算的渴望正在不断增长。如果我们在手机中加入更多计算机功能的话,这意味着什么?

如果人们经常旅行,可能会熟悉美联航或美国航空公司的语音应答系统:在过去的几年中,其功能变得更好,因为人工智能正在改善语音响应。随着它变得越来越好,人们需要更多的服务,更多服务意味着更多的计算能力。所以需要更多的GPU来完成这项任务。因此,在手机上使用的功能越好,对我们来说就越有利。我认为所有消费者服务都是如此。

DCK:您是否在移动网络边缘看到了令人信服的机器学习用例?

Charlie Boyle:我们与很多电信公司开展合作,无论人们使用流媒体,还是使用个人定位服务,电信公司总是试图靠近客户。大约十年前,我曾在电信公司工作,一直渴望把很多服务迁移到边缘。我们看到一些机器学习应用程序将在边缘运行。随着5G的推出,人们只会看到更多的东西在边缘运行。

DCK:电信公司在边缘测试或部署什么样的机器学习工作负载?

Charlie Boyle:这一切都是针对特定用户的服务。如果人们在某个地区,手机上的应用程序已经知道其在该区域,可以为其提供更好的建议或更好的处理方法。然后,随着人们开始消耗越来越多的内容,随着带宽的提高,更多的处理将转移到更远的边缘。

DCK:虽然电信公司是将计算推向边缘的公司,但他们是否也会提供您所指的所有丰富服务?

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读