一触即发:AI处理器之战或将于2018开启?

发布时间：2018-08-20 01:36:20 所属栏目：教程来源：李佳惠

导读：【资讯】回顾2017年，常发表威胁论的马斯克也开始造芯片，英特尔发布Nervana神经网络处理器和人工智能芯片Loihi，英伟达推出进化版TITAN V 等等，这一年各个巨头可谓是在人工智能领域卯足了劲儿，经过这年如火如荼的积蓄，2018势必将是充满“硝烟”的一年

　　就在今年十二月份，Nvidia宣布推出了一款基于PC的GPU Titan V，专为深度学习而设计。新的GPU基于Nvidia的Volta架构，该架构利用了Nvidia称之为Tensor Cores的新型核心技术。Nvidia所做的是开发具有复杂架构，专门用于处理深度学习和神经网络计算的需求。

　　Titan V包含210亿个晶体管，能够提供110 teraflops的深度学习性能。 Nvidia将目标瞄准从事人工智能和深度学习的开发人员。Titan V.公司创始人兼首席执行官Jensen Huang在一次新闻发布会上表示，“Titan V是有史以来为个人电脑开发的最强大的GPU。我们对Volta的愿景是推动高性能计算和人工智能的外部极限。我们开发了新的处理器架构、指令、数字格式、内存架构和处理器链接。随着泰坦V的出现，我们把Volta推向世界各地的研究人员和科学家手中。”

　　一个由张量构成的世界

　　提到张量的概念，那就不得不提谷歌公司了。在过去的一年，这个搜索巨头发布了一个名为TensorFlow的深度学习开发的已经流行的开源框架。如Google所述，“TensorFlow是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学运算，而图边表示在它们之间通信的多维数据阵列(张量)。灵活的体系结构允许您使用单个API将计算部署到桌面、服务器或移动设备中的一个或多个CPU或GPU上。”　　

一触即发:AI处理器之战或将于2018开启?
▲Google的张量处理单元(TPU)

　　TensorFlow的机器学习应用程序库包括面部识别、计算机视觉，当然还有其他应用程序中的搜索，在2016年的时候就已经被证明非常流行，以至于2016年英特尔一直致力于优化其处理器来运行TensorFlow。在2017年，谷歌还发布了针对移动和Android开发者的精简版TensorFlow。

　　但Google没有让软件成为人工智能野心的终点。在2016年，该公司发布了第一代称为张量处理单元(TPU)的新处理器。 Google的TPU是一个专为机器学习而设计的ASIC，专为运行TensorFlow而量身定制。而第二代TPU在今年五月份宣布，据Google称，它能够提供高达180 teraflops的性能。

　　作为加拿大多伦多第44届计算机体系结构国际研讨会(ISCA)的一部分，Google于2017年6月发布了一项研究报告，将其在数据中心部署的TPU与Intel Haswell CPU和部署在同一数据中心的Nvidia K80 GPU进行了比较， TPU平均比GPU和CPU执行速度快15到30倍。每瓦TPU的TOPS也高出约30到80倍。 Google表示，TPU正在推动其所有在线服务，如搜索、街景、Google相册和Google翻译。

　　在一份详细介绍最新热塑性聚氨酯(TPU)的文章中，Google的工程师们表示，早在六年前，当Google发现自己将深度学习融入越来越多的产品时，热塑性聚氨酯的需求就出现了。Google工程师认为，“如果我们假设人们每天只使用Google语音搜索三分钟，并且在我们正在使用的处理单元上运行深度神经网络来处理语音识别系统，那么我们必须加倍的增加Google的数据中心!”

　　Google的工程师在设计TPU时表示，他们采用了他们所说的“收缩性设计”。“这种设计被称为收缩性的，因为数据通过芯片流动，这让人想起心脏泵血的方式。矩阵乘法单元MXU中的特殊类型的脉动阵列针对执行矩阵乘法时的功率和面积效率进行了优化，不适合于通用计算，于是它做了一个工程折衷：限制寄存器、控制和操作的灵活性，以换取效率和更高的操作密度。”

　　在一些非常高端的AI应用中，TPU也已经证明了自己。 TPU是Google著名的AlphaGo AI背后的大脑，在去年击败了世界冠军，引起人们对于人工智能的关注。经过短短几个月的训练，AlphaGo的最新版本AlphaGo Zero就能够将自己的能力远远超过人类专家。对于国际象棋(一个复杂的游戏，但是比Go要小得多)，在几个小时内的训练之后也能达到比较显著的效果。

　　FPGA - AI竞赛中的黑马

　　那么，TPU是AI的未来，对吗?微软认为，在可扩展性和灵活性方面，基于FPGA的解决方案可能将优于CPU、GPU或TPU提供的解决方案。

一触即发:AI处理器之战或将于2018开启?
▲微软的Project Brainwave以39.5万亿次浮点运算的速度运行，在英特尔层的10个fpga上运行时，它的延迟时间还不到一毫秒

　　尽管基于处理器的解决方案在某种程度上由于其设计而局限于特定的任务，但是由于FPGA的灵活性和可编程性，所以或许可以使用FPGA来提供更容易的升级和更好的性能。根据微软的说法，在Intel Stratix 10 FPGA上运行时，微软的Project Brainwave以39.5 teraflops的速度执行，延时不到1毫秒。

　　FPGA是否为人工智能提供最佳选择与其他方面一样值得商榷。微软认为创造人工智能专用ASIC的生产成本太高，而另一些人则认为FPGA将永远无法完全实现专为人工智能设计的芯片性能。

　　在3月份的“现场可编程门阵列国际研讨会”(ISFPGA)上发表的一篇文章中，一组来自英特尔加速器架构实验室的研究人员评估了两代英特尔FPGA(Arria10和Stratix 10)与Nvidia Titan X Pascal Titan V)处理深度神经网络(DNN)算法。据英特尔研究人员称：“我们的研究结果显示，Stratix 10 FPGA的性能(TOP / sec)比Titan X Pascal图形处理器在[矩阵乘法](GEMM)操作上的性能提高了10%、50%甚至5.4倍。在Ternary-ResNet上，Stratix 10 FPGA可以比Titan X Pascal GPU提供60%的性能提升，性能功耗比提高2.3倍。我们的结果表明，FPGA可能成为加速下一代DNN的首选平台。”

　　谁将戴上皇冠?

　　在这个特定的时间点，就整体性能而言，很难不争论这些硬件在人工智能领域的表现，也很难不比较巨头们之间的表现。但是，就小编的粗浅认识来看，很多硬件并不是单纯的谁取代谁的角色，可能面对不同的用户、不同的细分领域就会有不同的选择，

　　就落地的应用来说，自动驾驶汽车正在成为将人工智能应用于更广泛的公众意识中，这可能是机器人、制造业、甚至娱乐领域的进步，真正推动人工智能的发展，但这并不是为了阻断新兴应用的诞生之路。

　　当发展步入正轨时，它可能不是一家企业主宰人工智能领域，未来可能会看到硬件领域的争斗越来越激烈，也或许是别的，时间会证明一切。

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

在系统之家下载的xp系	雨林木风xp系统gho安装
小白一键重装系统方法	如何装系统,教您硬盘怎