在人工智能芯片战场追逐GPU背影的英特尔

时间:2020-02-11 21:12:05
浏览:177
来源:世界杯买球盘口网址app

环视历史名将如拿破仑、古德林、隆美尔，以致波斯湾战争的美国陆军将领，一谈到“攻势”，险些无不强调“追击”的重要，让敌军毫无站稳脚跟牢固和重组的时机而一泻千里。

反过来说，当这简朴原理套用到商业竞争，意义就不外乎“产物如果无法准时到位（Time To Market）”，特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域，或像半导体这种成本和售价会随技术演进快速滑落的工业，很可能一下子就被竞争对手一举冲垮，让产物开发事情左右支绌，无法建立一条稳固的市场占有率防线，接着陷入恶性循环，难以翻身。

2016年3月5日：nVidia公布“总算挣脱黏了4年的台积电28纳米制程”、推进到台积电16纳米和三星14纳米Pascal，支持FP16半准确度浮点、8进制整数与相对应的内积矢量指令（Vector Dot Product），也具备NVLink毗连8颗GPU的延展性，踏出nVidia GPU进入人工智能应用的第一步。

2016年5月Google I/O：Google公布第一代推论用的第一代TPU。

2016年夏天：英特尔购并“声称产物性能将比GPU高至少10倍”的Nervana，就为了跟nVidia GPU竞争。

2016年11月17日：英特尔公然Nervana代号Lake Crest的开端结果，但制程仍停留在台积电28纳米，且过没多久就因nVidia推出Volta而失去意义。

2017年3月29日：nVidia公布接纳Tegra X2的“嵌入式人工智能运算设备”Jetson TX2，严格说来也算是nVidia GPU应用的延伸，但早从2014年4月底就泛起的Jetson产物线，怎么看都有一股“几年来替进攻手机平板都以失败收场的Tegra系统单芯片找出路”的味道。

2017年5月Google I/O：Google继续“按表操课”公布支持浮点运算（Bfloat16浮点花样）、可同时用于训练和推论的第二代TPU。

2017年6月21日：nVidia公然台积电12纳米制程“原本产物历程表并没有”的Volta，内置640个Tensor Core（张量焦点），可执行4×4 16进制浮点乘积和，应用于特征识此外卷积运算（Convolutional Neural Network，CNN），这让Volta成为nVidia史上首款针对人工智能量身订做、兼顾“学习／训练”与“推论／预测”的GPU微架构。

Volta的训练效率高达Pascal的12倍，推论性能也达6倍之谱，这让Nervana的“Lake Crest至少有GPU十倍”变得毫无意义，nVidia也借由NVswitch打造出16颗GPU、数量为DGX-1两倍的DGX-2，英特尔只能重新设计产物，也一再延误开发历程，直到答应2019年底推出新芯片，届时距离购并案已凌驾3年。

2017年8月14日：AMD公布“早就演示文稿讲良久”的Vega（Global Foundry 14纳米制程），支持FP16 / INT16 / INT8包裹式（Packed）盘算，并锁定FP16与INT8精度，添加约40个新指令，也为图片匹配此类应用，提供SAD（Sum of Absolute Differences，绝对误差和算法）指令。AMD固然也会宣称“拥有完整的Software Stack”，至于成效如何，就请列位自由心证，笔者不给评论。

2017年11月8日：来自AMD的Raja Koduri空降英特尔并担任资深副总裁，宣示计划“砍掉重练”整个绘图技术，扬弃对x86指令集兼容性的执念，重新到尾打造货真价实GPGPU，2019年3月宣布GPU架构的称谓“Xe”和一个让人摸不着头绪、看起来很像“在所有硬件平台包罗FPGA都能跑的OpenCL”的“软件客栈”OneAPI，就是最后的解答。

2018年5月Google I/O：Google再接再厉，公布整体性能和设置是前代两倍的第三代TPU，不外依然还是Google自研自用就是了。

2018年7月23日：从Larrabee开始挣扎凌驾十年，英特尔总算完全放弃“超级多焦点x86处置惩罚器绝对无所不能”的南柯大梦，宣布放弃Xeon Phi产物线。有趣的是，停产通知提到“市场对产物的需求已转移到其他英特尔产物”，但这些产物并不存在于英特尔产物线，没有任何产物提供类似Xeon Phi的性能和功效，这些需求“转移”到nVidia的几率可能还高一点。

笔者2017年底就预期Xeon Phi的处境很是危险，“x86义和团”的最后碉堡即将失守，不幸一语成谶，早知就去买乐透。

2018年7月26日：Google公布适用物联网、“可以在消耗少少资源和能源的情况下提供绝佳性能，因此能够在边缘部署高准确度AI”的边缘推论用TPU，这也让Google TPU踏出自家数据中心，与一群盘据半导体市场已久的虎豹虎豹捉对厮杀。

2018年8月：nVidia公布接纳Xavier系统单芯片的Jetson Xavier，同时应用于边缘AI运算及自动驾驶系统。

2018年9月20日：接纳台积电12纳米制程的Turing，融合两者之长，竣事了短暂的“消费型”（Pascal）和“专业型”（Volta）分立局势，Tensor Core增加了新INT8和INT4精度模式，FP16半精度能完整支持经常用到的矩阵融合乘加（FMA）运算。

此外，Tensor Core也不再只是“限定专业应用”，可用来执行消除混叠的深度学习法式（深度学习超级采样，DLSS），使用先前向执行Neural Graphics Framework的超级盘算机，喂食游戏画面举行训练神经网络的学习结果，渲染出靠近64倍采样的画面滤镜，再套用回玩家的游戏画面，柔化画面锯齿边缘。

2019年1月7日：AMD公布接纳台积电7纳米制程的Vega，芯片大幅缩小，性能大幅提升，然后我们现在也知道为何AMD初代7纳米制程APU的绘图焦点还是Vega，不是更新一代的Navi了。

2019年3月19日：nVidia再次公布“边缘AI超级盘算机”Jetson Nano，也开始有开发者比力与Google Edge TPU的优劣胜负。

2019年5月21日：nVidia使用Anandtech的报道，倒打英特尔一耙，在官方博客狂吃英特尔某篇官方文章《Intel CPU在推论胜过nVidia GPU》的豆腐。预计2020年第二季推出的英特尔下一代Xeon平台Whitley，首款CPU Cooper Lake（还是继续挤14纳米制程牙膏）会支持Bfloat16浮点花样，届时列位可以期待nVidia会不会再如法炮制一番。

2019年7月7日：AMD“扩大制程领先优势”公布台积电7纳米制程的Navi，重点集中在竣事漫长GCN时代的全新RDNA（Radeon DNA）SIMT执行单元结构，在人工智能相关并无着墨，但业界盛传第二代RDNA将支持Google Tensor Flow的Bfloat16浮点花样，也有人在担忧搞欠好这又会让AMD显卡再被一大票数字钱币矿工抢得一干二净，再度上演有钱也买不到显卡之戏码。

2019年8月：nVidia“持之以恒”继续在HotChips谈论自家多芯片可扩展式推论芯片研究案，意思就是nVidia居心宣示除商品外，另有“余地”举行分外前瞻性技术研发事情就对了。

2019年夏天，英特尔看似开心的跟百度宣布互助，购并Nervana满3年的人工智能芯片，看似前程似锦，连潜在客户都谈好了。

2019年11月8日：NVIDIA宣布推出“全球尺寸最小的边缘AI超级盘算机”Jetson Xavier NX，不知不觉中，在这几年内，nVidia的Jetson家族已枝繁叶茂。

2019年11月13日：英特尔总算“使命必达”准时在2019年底推出Nervana NNP产物线，包罗深度学习导向的NNP-T1000（Spring Crest，性能号称是Lake Crest的3~4倍）与推论专用的NNP-I1000（Spring Hill），宣称样品已经送到客户（百度、Facebook）手上，不只现场实际较量NNP-I1000和nVidia T4，可用不到2倍数量完成3.68倍的性能，也同时宣布2020年推出“20倍边缘推论性能”、源自2016年某金额不明购并案的Movidius体系产物。

但短短一个月后，2019年12月16日，英特尔宣布以20亿美元收购以色列AI芯片创业公司Habana Labs，瞬间风云变色，2020年2月就传出英特尔将“部门放弃Nervana”、停止NNP-T1000开发的消息，但有鉴于NNP-I1000本质上基础就是“纯正英特尔血统”的产物，这也意味着Nervana并购案完全失败了。

“刚恰好”整件命案的所有到场演员：命案现场的英特尔、Habana Labs、坐在板凳一旁看戏的AMD与nVidia，都是2019年IEEE Hotchips 31的台上贵宾（或许因家大业大格式大，运动的餐点饮料包罗酒类听说都由英特尔赞助买单），我们就来看看，英特尔泯灭三年多做出来的结果，以及瞧瞧NNP-T1000为何被闪电腰斩的可能原因。

究竟现在这票所谓人工智能深度学习等的新兴应用，无论从硬件架构到数据处置惩罚花样到框架到应用法式函数库等等，许多部门都是高度定制化，少有业界公用的公然比力基准，单纯比力数字“赛猪公”的意义并不大，笔者也不会在这里仔细先容英特尔两颗芯片的技术细节。

但通过设置比力，可清楚看到两件事实：

Spring Crest和Spring Hill基础是两个完全差别的技术体系，前者完全继续Nervana，后者则是根正苗红的“英特尔本家”，大量引用现有Ice Lake技术。

Nervana的默认对手就是nVidia的旗舰级GPU，连芯片代工企业都是台积电。

Nervana NNP-T1000惨遭杀害，究竟有哪些可能的凶手？

总之，只有英特尔和时间才会告诉我们谁是真正的凶手，也很有可能真相永远不会明白。

到头来，从Nervana到Hanaba Labs，岂论训练还是推论，头号假想敌依旧是nVidia的GPU，依然还是Volta和Turing，连比力图的颜色都刻意挑“nVidia绿”。

但说到英特尔购并公司这件事，半导体制程优势开始瓦解，恰好就是宣布要“从PC公司转型为驱动云盘算和数以亿计智慧互联盘算设备”，也差不多是“最后的英特尔x86微架构”Skylake上市时，接着一直花大钱“生气乱买公司”才开始的。

这样一路看下来，似乎瞬间明确了什么。

（首图泉源：英特尔）