萬字解析:「AI晶元」通識 | 人人都是產品經理

本文作者團員書博 ,從事過晶元、硬體、嵌入式等相關工作,最近希望成為「AI晶元」領域的產品經理,所以專門深度研究這個領域,輸出了這篇文章。本文,是用產品經理能夠看得懂的語言和角度,講述AI晶元相關乾貨;可以說,對於AI晶元這個相對偏技術的領域來說,沒有他這樣的技術背景,即使input了很多文章報道,也很難有這種高質量的產出的。


目錄

一、AI晶元概述

二、AI晶元的分類和市場劃分(雲端/終端,訓練/推理)

三、AI晶元技術路線(GPU/FPGA/ASIC,現狀/短期/長期方向)

四、AI晶元市場分析(四大場景:數據中心、自動駕駛、安防、手機終端)

五、AI晶元主要廠商介紹(國外,國內)

六、AI晶元展望

附:未來兩種可能的通用AI晶元技術路線介紹(類腦晶元、可重構通用AI晶元)

一、AI晶元概述

1. AI晶元產生的背景

AI的三大關鍵基礎要素是數據、演算法和算力。隨著雲計算的廣泛應用,特別是深度學習成為當前AI研究和運用的主流方式,AI對於算力的要求不斷快速提升。

AI的許多數據處理涉及矩陣乘法和加法。AI演算法,在圖像識別等領域,常用的是CNN;語音識別、自然語言處理等領域,主要是RNN,這是兩類有區別的演算法。但是,他們本質上,都是矩陣或vector的乘法、加法,然後配合一些除法、指數等演算法。

CPU可以拿來執行AI演算法,但因為內部有大量其他邏輯,而這些邏輯對於目前的AI演算法來說是完全用不上的,所以,自然造成CPU並不能達到最優的性價比。因此,具有海量并行計算能力、能夠加速AI計算的AI晶元應運而生。

2. 什麼是AI晶元

一般的說,AI晶元被稱為AI加速器或計算卡,即專門用於加速AI應用中的大量計算任務的模塊(其他非計算任務仍由CPU負責)。

而從廣義範疇上講,面向AI計算應用的晶元都可以稱為AI晶元。除了以GPU、FPGA、ASIC為代表的AI加速晶元(基於傳統晶元架構,對某類特定演算法或者場景進行AI計算加速),還有比較前沿性的研究,例如:類腦晶元可重構通用AI晶元等(但距離大規模商用還有較長距離)。

以GPU、FPGA、ASIC為代表的AI晶元,是目前可大規模商用的技術路線,是AI晶元的主戰場,本文以下主要討論的就是這類AI晶元。

二、AI晶元的分類和市場劃分

1. 從兩個維度對AI晶元進行分類

維度1:部署位置(雲端、終端)

AI晶元部署的位置有兩種:雲端、終端。所以根據部署的位置不同,AI晶元可以分為:雲AI晶元端AI晶元

  • 雲端,即數據中心,在深度學習的訓練階段需要極大的數據量和大運算量,單一處理器無法獨立完成,因此訓練環節只能在雲端實現。
  • 終端,即手機、安防攝像頭、汽車、智能家居設備、各種IoT設備等執行邊緣計算的智能設備。終端的數量龐大,而且需求差異較大。

雲AI晶元的特點是性能強大、能夠同時支持大量運算、並且能夠靈活地支持圖片、語音、視頻等不同AI應用。基於雲AI晶元的技術,能夠讓各種智能設備和雲端伺服器進行快速的連接,並且連接能夠保持最大的穩定。

端AI晶元的特點是體積小、耗電少,而且性能不需要特彆強大,通常只需要支持一兩種AI能力。

相比於雲AI晶元來說,端AI晶元是需要嵌入進設備內部的,當在設備內部中嵌入了端AI晶元之後,能夠讓設備的AI能力進一步提升,並且讓設備在沒有聯網的情況之下也能夠使用相應的AI能力,這樣AI的覆蓋變得更為全面。

維度2:承擔任務(訓練、推理)

AI的實現包括兩個環節:訓練、推理。所以根據承擔任務的不同,AI晶元可以分為:用於構建神經網路模型的訓練晶元,利用神經網路模型進行推理預測的推理晶元

  • 訓練,是指通過大數據訓練出一個複雜的神經網路模型,即用大量標記過的數據來「訓練」相應的系統,使之可以適應特定的功能。訓練需要極高的計算性能,需要較高的精度,需要能處理海量的數據,需要有一定的通用性,以便完成各種各樣的學習任務。
  • 推理,是指利用訓練好的模型,使用新數據推理出各種結論。即藉助現有神經網路模型進行運算, 利用新的輸入數據來一次性獲得正確結論的過程。也有叫做預測或推斷。

訓練晶元,注重絕對的計算能力,而推斷晶元更注重綜合指標, 單位能耗算力、時延、成本等都要考慮

訓練將在很長一段時間裡集中在雲端,推理的完成目前也主要集中在雲端,但隨著越來越多廠商的努力,很多的應用將逐漸轉移到終端。

推理相對來說對性能的要求並不高,對精度要求也要更低,在特定的場景下,對通用性要求也低,能完成特定任務即可,但因為推理的結果直接提供給終端用戶,所以更關注用戶體驗方面的優化

2. AI晶元市場劃分

以部署位置(雲端、終端)和承擔任務(訓練、推理)為橫縱坐標,可以清晰的劃分出AI晶元的市場領域,上表,列出了適用於各個市場的技術路線及相應廠商。

1)雲端訓練

訓練晶元受算力約束,一般只在雲端部署

CPU由於計算單元少,并行計算能力較弱,不適合直接執行訓練任務,因此訓練一般採用「CPU+加速晶元」的異構計算模式。目前NVIDIA的GPU+CUDA計算平台是最成熟的AI訓練方案,除此還有兩種方案:

  • 第三方異構計算平台OpenCL + AMD GPU或OpenCL + Intel/Xilinx FPGA
  • 雲計算服務商自研加速晶元(如Google的TPU)

訓練市場目前能與NVIDIA競爭的就是Google,傳統CPU/GPU廠家Intel和AMD也在努力進入訓練市場。

2)雲端推理

如果說雲端訓練晶元是NVIDIA一家獨大,那雲端推理晶元則是百家爭鳴,各有千秋。

相比訓練晶元,推理晶元考慮的因素更加綜合:單位功耗算力,時延,成本等等。AI發展初期推理也採用GPU進行加速,目前來看,競爭態勢中英偉達依然佔大頭,但由於應用場景的特殊性,依據具體神經網路演算法優化會帶來更高的效率,FPGA/ASIC的表現可能更突出。

除了Nvidia、Google、Xilinx、Altera(Intel)等傳統晶元大廠涉足雲端推理晶元以外,Wave computing、Groq 等初創公司也加入競爭。中國公司里,寒武紀、比特大陸等同樣積極布局雲端晶元業務。

3)終端推理

在面向智能手機、智能攝像頭、機器人/無人機、自動駕駛、VR、智能家居設備、各種IoT設備等設備的終端推理AI晶元方面,目前多採用ASIC,還未形成一家獨大的態勢。

終端的數量龐大,而且需求差異較大。AI晶元廠商可發揮市場作用,面向各個細分市場,研究應用場景,以應用帶動晶元。

傳統晶元大廠如NVIDIA、Intel、ARM、高通等都積極布局,中國晶元創業企業,如寒武紀、地平線等,也有不俗表現,在一些細分市場領域頗有建樹。

三、AI晶元技術路線

1. AI晶元主要技術路線

目前,作為加速應用的AI晶元,主要的技術路線有三種:GPU、FPGA、ASIC

(可點擊查看大圖)

1)GPU

GPU(Graphics Processing Unit),即圖形處理器,是一種由大量核心組成的大規模并行計算架構,專為同時處理多重任務而設計。GPU是專門處理圖像計算的,包括各種特效的顯示,更加針對圖像的渲染等計算演算法。這些演算法與深度學習的演算法還是有比較大的區別。當然,GPU非常適合做并行計算,也可以用來給AI加速。

GPU因良好的矩陣計算能力和并行計算優勢,最早被用於AI計算,在數據中心中獲得大量應用。GPU採用并行架構,超過80%部分為運算單元,具備較高性能運算速度。相比較下,CPU僅有20%為運算單元,更多的是邏輯單元,因此CPU擅長邏輯控制與串列運算,而GPU擅長大規模并行運算。

GPU最早作為深度學習演算法的晶元被引入人工智慧領域,因其良好的浮點計算能力適用於矩陣計算,且相比CPU具有明顯的數據吞吐量和并行計算優勢。

2011年穀歌大腦率先應用GPU晶元,當時12顆英偉達的GPU可以提供約等於2000顆CPU的深度學習性能,展示了其驚人的運算能力。目前GPU已經成為人工智慧領域最普遍最成熟的智能晶元,應用於數據中心加速和部分智能終端領域,在深度學習的訓練階段其性能更是無所匹敵。

在深度學習上游訓練端(主要用在雲計算數據中心裡),GPU是當仁不讓的第一選擇。目前GPU的市場格局以英偉達為主(超過70%),AMD為輔,預計未來幾年內GPU仍然是深度學習訓練市場的第一選擇。

另外,GPU無法單獨工作,必須由CPU進行控制調用才能工作。CPU可單獨作用,處理複雜的邏輯運算和不同的數據類型,當需要大量的處理類型統一的數據時,則可調用GPU進行并行計算。

2)FPGA

FPGA(Field-Programmable Gate Array),即現場可編程門陣列,作為專用集成電路領域中的一種半定製電路出現。FPGA利用門電路直接運算,速度快,而用戶可以自由定義這些門電路和存儲器之間的布線,改變執行方案,以期得到最佳效果。

FPGA可以採用OpenCL等更高效的編程語言,降低了硬體編程的難度,還可以集成重要的控制功能,整合系統模塊,提高了應用的靈活性,與GPU相比,FPGA具備更強的平均計算能力和更低的功耗。

FPGA適用於多指令,單數據流的分析,與GPU相反,因此常用於推理階段。FPGA是用硬體實現軟體演算法,因此在實現複雜演算法方面有一定的難度,缺點是價格比較高。

FPGA因其在靈活性和效率上的優勢,適用於虛擬化雲平台和推理階段,在2015年後異軍突起。2015年Intel收購FPGA市場第二大企業Altera,開始了FPGA在人工智慧領域的應用熱潮。

因為FPGA靈活性較好、處理簡單指令重複計算比較強,用在雲計算架構形成CPU+FPGA的混合異構中相比GPU更加的低功效和高性能,適用於高密度計算,在深度學習的推理階段有著更高的效率和更低的成本,使得全球科技巨頭紛紛布局雲端FPGA生態。

國外包括亞馬遜、微軟都推出了基於FPGA的雲計算服務,而國內包括騰訊雲、阿里雲均在2017年推出了基於FPGA的服務,百度大腦也使用了FPGA晶元。中國剛剛被Xilinx收購的深鑒科技也是基於FPGA來設計深度學習的加速器架構,可以靈活擴展用於伺服器端和嵌入式端。

3)ASIC

ASIC(Application Specific Integrated Circuits),即專用集成電路,是一種為專用目的設計的,面向特定用戶需求的定製晶元,在大規模量產的情況下具備性能更強、體積更小、功耗更低、成本更低、可靠性更髙等優點。

ASIC與GPU和FPGA不同,GPU和FPGA除了是一種技術路線之外,還是實實在在的確定的產品,而ASIC就是一種技術路線或者方案,其呈現出的最終形態與功能也是多種多樣的。

近年來越來越多的公司開始採用ASIC晶元進行深度學習演算法加速,其中表現最為突出的是Google的TPU。TPU比同時期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。相比FPGA,ASIC晶元具備更低的能耗與更高的計算效率。但是ASIC研發周期較長、商業應用風險較大等不足也使得只有大企業或背靠大企業的團隊願意投入到它的完整開發中。

AlphaGo就使用TPU,同時TPU也支持著Google的Cloud TPU平台和基於此的機器學習超級計算機。此外,國內企業寒武紀開發的Cambricon系列晶元受到廣泛關注。華為的麒麟980處理器所搭載的NPU就是寒武紀的處理器。

2. AI晶元技術路線走向

1)短期:GPU仍延續AI晶元的領導地位,FPGA增長較快

GPU短期將延續AI晶元的領導地位。目前GPU是市場上用於AI計算最成熟應用最廣泛的通用型晶元,在演算法技術和應用層次尚淺時期,GPU由於其強大的計算能力、較低的研發成本和通用性將繼續佔領AI晶元的主要市場份額。

GPU的領軍廠商英偉達仍在不斷探尋GPU的技術突破,新推出的Volta架構使得GPU一定程度上克服了在深度學習推理階段的短板,在效率要求和場景應用進一步深入之前,作為數據中心和大型計算力支撐的主力軍,GPU仍具有很大的優勢。

FPGA是目前增長點,FPGA的最大優勢在於可編程帶來的配置靈活性,在目前技術與運用都在快速更迭的時期具有巨大的實用性,而且FPGA還具有比GPU更高的功效能耗比。企業通過FPGA可以有效降低研發調試成本,提高市場響應能力,推出差異化產品。在專業晶元發展得足夠重要之前,FPGA是最好的過渡產品,所以科技巨頭紛紛布局雲計算+FPGA的平台。

隨著FPGA的開發者生態逐漸豐富,適用的編程語言增加,FPGA運用會更加廣泛。因此短期內,FPGA作為兼顧效率和靈活性的硬體選擇仍將是熱點所在。

2)長期:三大類技術路線各有優劣,會長期並存

GPU主攻高級複雜演算法和通用型人工智慧平台

GPU未來的進化路線可能會逐漸發展為兩條路,一條主攻高端複雜演算法的實現,由於GPU相比FPGA和ASIC高性能計算能力較強,同時對於指令的邏輯控制上也更複雜一些,在面臨需求通用型AI計算的應用方面具有較大優勢。第二條路則是通型人工智慧平台,GPU由於設計方面,通用性強,性能較高,應用於大型人工智慧平台夠高效地完成不同種類的調用需求。

FPGA適用變化多的垂直細分行業

FPGA具有獨一無二的靈活性優勢,對於部分市場變化迅速的行業非常適用。同時,FPGA的高端器件中也可以逐漸增加DSP、ARM核等高級模塊,以實現較為複雜的演算法。FPGA以及新一代ACAP晶元,具備了高度的靈活性,可以根據需求定義計算架構,開發周期遠遠小於設計一款專用晶元,更適用於各種細分的行業。

ACAP的出現,引入了AI核的優點,勢必會進一步拉近與專用晶元的差距。隨著 FPGA 應用生態的逐步成熟,FPGA 的優勢也會逐漸為更多用戶所了解。

ASIC晶元是全定製晶元,長遠看適用於人工智慧

因為演算法複雜度越強,越需要一套專用的晶元架構與其進行對應,而ASIC基於人工智慧演算法進行定製,其發展前景看好。ASIC是AI領域未來潛力較大的晶元,AI演算法廠商有望通過演算法嵌入切入該領域。ASIC具有高性能低消耗的特點,可以基於多個人工智演算法進行定製,其定製化的特點使其能夠針對不同環境達到最佳適應,在深度學習的訓練和推理階段皆能佔據一定地位。

目前由於人工智慧產業仍處在發展的初期,較高的研發成本和變幻莫測的市場使得很多企業望而卻步。未來當人工智慧技術、平台和終端的發展達到足夠成熟度,人工智慧應用的普及程使得專用晶元能夠達到量產水平,此時ASIC晶元的發展將更上一層樓。

此外,AI演算法提供商也有望將已經優化設計好的演算法直接燒錄進晶元,從而實現演算法IP的晶元化,這將為AI晶元的發展注入新的動力。

四、AI晶元市場分析

1. AI晶元市場概覽

2018年全球AI晶元市場規模預計將超過20億美元,隨著包括谷歌、Facebook、微軟、亞馬遜以及百度、阿里、騰訊在內的互聯網巨頭相繼入局,預計到2020年全球市場規模將超過100億美元,其中中國的市場規模近25億美元,增長非常迅猛,發展空間巨大。

目前全球各大晶元公司都在積極進行AI晶元的布局。在雲端,Nvidia的GPU晶元被廣泛應用於深度神經網路的訓練和推理。Google TPU通過雲服務Cloud TPU的形式把TPU開放商用。老牌晶元巨頭Intel推出了Nervana Neural Network Processors(NNP)。而初創公司如Wave Computing、Groq、寒武紀、比特大陸等也加入了競爭的行列,陸續推出了針對AI的晶元和硬體系統。

智能手機是目前應用最為廣泛的邊緣計算終端設備,包括三星、蘋果、華為、高通、聯發科在內的手機晶元廠商紛紛推出或者正在研發專門適應AI應用的晶元產品。另外,也有很多初創公司加入這個領域,為包括智能手機在內的眾多類型邊緣計算設備提供晶元和系統方案,比如寒武紀、地平線等。

傳統的IP廠商,包括ARM、Synopsys、Cadence等公司也都為手機、平板電腦、智能攝像頭、無人機、工業和服務機器人、智能音箱等邊緣計算設備開發專用IP產品。此外在終端應用中還蘊藏著IoT這一金礦,AI晶元只有實現從雲端走向終端,才能真正賦予「萬物智能」。

2. 四大場景的晶元賽道

1)數據中心

在雲計算數據中心,上游訓練端GPU是當仁不讓的第一選擇。目前GPU的市場格局以英偉達為主(超過70%),AMD為輔,預計未來幾年GPU仍然是深度學習市場的第一選擇。

下游推理端更接近終端應用,更關注響應時間而不是吞吐率,需求更加細分,除了主流的GPU晶元之外,下游推理端可容納FPGA、ASIC等晶元。競爭態勢中英偉達依然佔大頭,但隨著AI的發展,FPGA的低延遲、低功耗、可編程性(適用於感測器數據預處理工作以及小型開發試錯升級迭代階段)和ASIC的特定優化和效能優勢(適用於在確定性執行模型)將凸顯出來。

2)自動駕駛

自動駕駛對晶元算力有很高的要求, 而受限於時延及可靠性,有關自動駕駛的計算不能在雲端進行,因此終端推理晶元升級勢在必行。根據豐田公司的統計數據,實現L5級完全自動駕駛,至少需要12TOPS的推理算力,按照Nvidia PX2自動駕駛平台測算,差不多需要15塊PX2車載計算機,才能滿足完全自動駕駛的需求。

目前,自動駕駛上游系統解決方案逐漸形成英偉達與英特爾-Mobileye聯盟兩大競爭者。

除了上述兩大主力汽車晶元競爭方,百度雖然與英偉達合作密切(Apollo開放平台從數據中心到自動駕駛都將使用英偉達技術,包括Tesla GPU和DRIVE PX 2,以及CUDA和TensorRT在內的英偉達軟體),卻也採用Xilinx的FPGA晶元加速機器學習,用於語音識別和汽車自動駕駛。

3)安防

AI正在以極其聲勢浩大的節奏全面「入侵」整個安防產業。作為這一波人工智慧浪潮最大落地領域——安防,是必爭之地。一大批AI晶元廠商扎堆湧入,其中既有AI晶元創業玩家,也有傳統安防晶元霸主海思的強勢入局。

總的來說,寒武紀、地平線等AI晶元公司提供的安防AI晶元屬於協處理器,需要搭配其他公司的攝像機SoC晶元使用。而海思的安防AI晶元本身就是安防攝像機SoC晶元,只是新加入了AI模塊——這也是海思安防AI晶元的最大競爭力。

也要看到,AI與AI晶元離大規模快速落地仍有距離,其中一大原因就是工程化困難——尤其是在安防這種產業鏈漫長而複雜的產業,新技術落地需要長時間的積累與打磨,以及人力資源的不斷投入,這些都是擺在AI與AI晶元企業面前的難題。

4)手機終端AI

手機晶元市場的玩家定位包括:

  • 採用晶元+整機垂直商業模式的廠商:蘋果、三星、華為等;
  • 獨立晶元供應商:高通、聯發科、展銳等;
  • 向晶元企業提供獨立IP授權的供應商:ARM、Synopsys、Cadence,寒武紀等。

採用垂直商業模式廠商的晶元不對外發售,只服務於自身品牌的整機,性能針對自身軟體做出了特殊優化,靠效率取勝。獨立晶元供應商以相對更強的性能指標,來獲得剩餘廠商的市場份額。

從2017年開始,蘋果、華為海思、高通、聯發科等主要晶元廠商相繼發布支持AI加速功能的新一代晶元,AI晶元逐漸向中端產品滲透。由於手機空間有限,獨立的AI晶元很難被手機廠商採用。在AI加速晶元設計能力上有先發優勢的企業(如寒武紀)一般通過IP授權的方式切入。

高通很有可能在手機AI賽道延續優勢地位,近日發布的驍龍855被稱為當前最強AI晶元,比起蘋果A12、華為麒麟980,性能提升1倍,並將成為全球第一款商用5G晶元。

五、AI晶元主要廠商介紹

在AI晶元領域,國外晶元巨頭佔據了絕大部分市場份額,不論是在人才聚集還是公司合併等方面,都具有領先優勢。尤其是美國巨頭企業,憑藉晶元領域多年的領先地位,迅速切入AI領域,積極布局,四處開花,目前處於引領產業發展的地位,並且在GPU和FPGA方面是完全壟斷地位。國內AI晶元公司多為中小型初創公司,在一些細分市場也有建樹,誕生了多個獨角獸企業。

1. 國外主要廠商


(可點擊查看大圖)

1)NVIDIA 英偉達

目前AI晶元領域主要的供應商仍然是英偉達,佔全球AI晶元50%以上市場份額。英偉達保持了極大的投入力度,快速提高GPU的核心性能,增加新型功能,保持了在AI訓練市場的霸主地位,並積極拓展終端嵌入式產品形態,推出Xavier系列。

英偉達旗下產品線遍布自動駕駛汽車、高性能計算、機器人、醫療保健、雲計算、遊戲視頻等眾多領域。

英偉達擁有目前最為成熟的開發生態環境——CUDA ,因其統一而完整的開發套件,豐富的庫以及對英偉達GPU的原生支持而成為開發主流,目前已開發至第9代,開發者人數超過51萬。

英偉達還將聯合晶元巨頭ARM打造IoT設備的AI晶元專用IP,這款機器學習IP集成到ARM的Project Trillium平台上,以實現機器學習,其技術源於英偉達Xavier晶元以及去年開源的DLA深度學習加速器項目。

2)Intel 英特爾

英特爾作為傳統PC晶元的老大,也在積極向PC以外的市場轉型。

為了加強在AI晶元領域的實力,英特爾收購FPGA生產商Altera,收購自動駕駛技術公司Mobileye,以及機器視覺公司 Movidius和為自動駕駛汽車晶元提供安全工具的公司Yogitech,收購人工智慧軟硬體創業公司Nervana。在數據中心、自動駕駛等重要領域布局紮實。

3)Google 谷歌

Google在2016年宣布獨立開發一種名為TPU的全新處理系統。在2016年3月打敗了李世石和2017年5月打敗了柯傑的的AlphaGo,就是採用了谷歌的TPU系列晶元。

TPU是專門為機器學習應用而設計的專用晶元。通過降低晶元的計算精度,減少實現每個計算操作所需的晶體管數量,從而能讓晶元的每秒運行的操作個數更高,這樣經過精細調優的機器學習模型就能在晶元上運行得更快,加深了人工智慧在訓練和推理方面的能力,進而更快地讓用戶得到更智能的結果。

2018年3月Google I/O大會推出TPU3.0。據官方數據,TPU3.0的性能是TPU2.0的八倍,高達 100 petaflops。

Cloud TPU是谷歌設計的硬體加速器,為加速、拓展特定tensorflow機器學習workload而優化。每個TPU里內置了四個定製ASIC,單塊板卡的計算能力達每秒180 teraflops,高帶寬內存有64GB。這些板卡既能單獨使用,也可通過超高速專用網路連接從而形成「TPU pod」。谷歌已在谷歌雲(GCP)開放Cloud TPU的計算能力,幫助機器學習專家更快速訓練和運行模型。

Edge TPU的尺寸約為1美分硬幣的1/8大小,它可以在較小的物理尺寸以及功耗範圍內提供不錯的性能,支持PCIe以及USB介面。Edge TPU優勢在於可以加速設備上的機器學習推理,或者也可以與Google Cloud配對以創建完整的雲端到邊緣機器學習堆棧。

4)Xilinx 賽靈思

2018年3月,賽靈思宣布推出一款超越FPGA功能的新產品——ACAP(自適應計算加速平台),其核心是新一代的FPGA架構。10月,發布最新基於7nm工藝的ACAP平台的第一款處理器——Versal。其使用多種計算加速技術,可以為任何應用程序提供強大的異構加速。Versal Prime系列和Versal AI Core系列產品也將於 2019 年推出。

Xilinx和Intel兩家不約而同把FPGA未來市場重心放到數據中心市場。

2. 國內主要廠商

國內AI晶元廠商以中小公司為主,沒有巨頭,多集中於設備端AI ASIC的開發,並已有所建樹,如寒武紀成為全球AI晶元領域第一個獨角獸初創公司,其NPU IP已被應用於全球首款手機AI晶元——麒麟970。

但是,中國在FPGA、GPU領域缺乏有競爭力的原創產品,只是基於FPGA/GPU做進一步開發,這主要與我國在晶元領域一直缺乏關鍵核心自主技術有關,FPGA/GPU的技術壁壘已很高,很難有所突破。


(可點擊查看大圖)

1)寒武紀 Cambricon

寒武紀創立於2016年3月,是中科院孵化的高科技企業。

2018年5月,寒武紀推出第一款智能處理板卡,搭載了寒武紀 MLU100 晶元,為雲端推理提供強大的運算能力支撐。等效理論計算能力高達128 TOPS,支持4通道64 bit ECCDDR4內存,並支持多種容量。

1M是寒武紀第三代機器學習專用晶元,使用TSMC 7nm工藝生產,其8位運算效能比達 5Tops/watt(每瓦 5 萬億次運算)。寒武紀1M處理器延續了前兩代IP產品(1H/1A)的完備性,可支持CNN、RNN、SOM等多種深度學習模型,又進一步支持了SVM、K-NN、K-Means、決策樹等經典機器學習演算法的加速。這款晶元支持幫助終端設備進行本地訓練,可為視覺、語音、自然語言處理等任務提供高效計算平台。

寒武紀也推出了面向開發者的寒武紀人工智慧軟體平台Cambricon NeuWare,這是在終端和雲端的AI晶元共享的軟體介面和生態,包含開發、調試和調優三大部分,體現了創始人陳天石提出的「端雲一體」的思路。

2)華為海思 Hisilicon

海思半導體成立於2004年10月,是華為集團的全資子公司。

麒麟970集成NPU神經處理單元,是全球第一款手機AI晶元,它在處理靜態神經網路模型方面有得天獨厚的優勢;新一代的麒麟980用於最新的Mate20系列和榮耀Magic 2。二者均採用寒武紀的AI IP。

安防是一眾AI晶元公司紛紛瞄準的重要落地場景,作為傳統安防晶元霸主,海思表示以後的所有IPC晶元新品,都將搭載專用AI模塊。

華為近期提出了全棧全場景AI解決方案,發布了兩款AI晶元,昇騰910和昇騰310。昇騰910是目前單晶元計算密度最大的晶元,計算力遠超谷歌及英偉達,而昇騰310晶元的最大功耗僅8W,是極致高效計算低功耗AI晶元。

3)地平線 Horizon Robotics

地平線成立於2015年7月,是一家注重軟硬體結合的AI初創公司,由Intel、嘉實資本、高瓴資本領投。

2017年12月,地平線自主設計研發了中國首款嵌入式人工智慧視覺晶元——旭日1.0和征程1.0。

旭日1.0是面向智能攝像頭的處理器,具備在前端實現大規模人臉檢測跟蹤、視頻結構化的處理能力,可廣泛用於智能城市、智能商業等場景。

征程1.0是面向自動駕駛的處理器,可同時對行人、機動車、非機動車、車道線交通標識等多類目標進行精準的實時監測和識別,實現FCW/LDW/JACC等高級別輔助駕駛功能。

地平線今年又推出了基於旭日(Sunrise)2.0的架構(BPU2.0,伯努利架構)的XForce邊緣AI計算平台,其主晶元為Intel A10 FPGA,典型功耗35W,可用於視頻人臉識別、人體分割、肢體檢測等功能。

4)比特大陸 Bitmain

比特大陸成立於2013年10月,是全球第一大比特幣礦機公司,目前佔領了全球比特幣礦機 70%以上的市場。並已將業務拓展至AI領域,於2017年推出雲端AI晶元BM1680,支持訓練和推斷。目前已推出第二代產品BM1682,相較上一代性能提升5倍以上。

BM1880是比特大陸首款面向邊緣端計算的低功耗AI協處理器,採用28nm工藝,ARM A53雙核架構,RISC-V CPU,其典型功耗2W,int 8精度算力能夠達到1Tops。

比特大陸提供端雲一體化的AI解決方案,與終端AI晶元不同,比特大陸的雲端AI晶元將不會單獨發售,只搭載在板卡、雲伺服器中提供給合作夥伴。

比特大陸將其AI晶元落地產業拓展到了四大類,分別是:安防、園區、智慧城市、互聯網。

3. 互聯網巨頭入局與新模式

1)互聯網巨頭入局

全球互聯網巨頭紛紛高調宣布進入半導體行業,阿里、微軟、Google、Facebook、亞馬遜等都宣布在晶元領域的動作。當互聯網巨頭開始進入晶元市場時,會對晶元行業產生巨大的影響。

首先,互聯網巨頭追求硬體能實現極致化的性能以實現差異化用戶體驗用來吸引用戶。在摩爾定律即將遇到瓶頸之際,想要追求極致體驗需要走異構計算,自己定製化晶元的道路,光靠採購傳統半導體廠商的晶元,已經沒法滿足互聯網巨頭對於硬體的需求,至少在核心晶元部分是這樣。

因此,Facebook、Google、阿里等互聯網巨頭都是異構計算的積極擁護者,為了自己的硬體布局或計劃設計晶元,或已經開始設計晶元。這麼一來,原來是半導體公司下遊客戶的互聯網公司現在不需要從半導體公司採購晶元了,這樣的產業分工變化會引起行業巨變。

其次,互聯網巨頭製造硬體的目的只是為了吸引用戶進入自己的生態,使用自己的服務,其最終盈利點並不在販賣硬體上而是在增值服務上。因此,互聯網巨頭在為了自己的硬體設計晶元時可以不計成本。

從另一個角度來說,一旦自己設計核心晶元的互聯網公司進入同一個領域,那些靠採購半導體公司標準晶元搭硬體系統的公司,就完全沒有競爭力了,無論是從售價還是性能,擁有自己核心晶元的互聯網巨頭都能實施降維打擊。一旦這些硬體公司失去競爭力,那麼依賴於這些客戶的半導體公司的生存空間又會進一步被壓縮。

總而言之,互聯網巨頭進入晶元領域,首先出於性能考慮不再從半導體公司採購核心晶元,這衝擊了傳統行業分工,使傳統晶元公司失去了一類大客戶;另一方面互聯網巨頭的生態式打法可以讓自研硬體晶元不考慮成本,這又衝擊了那些從半導體公司採購晶元的傳統硬體公司,從而進一步壓縮了半導體公司的市場。

在這兩個作用下,半導體晶元公司的傳統經營模式必須發生改變才能追上新的潮流。

2)Designless-Fabless模式

目前,半導體行業領域的分工,大概可以分為定義、設計、設計定案、製造等幾個環節。

今天的半導體行業,最為大家熟知的是Fabless模式,即晶元設計公司負責定義、設計和設計定案,而製造則是在提供代工的Fab完成,如高通,是Fabless的典型代表。

在互聯網巨頭入局半導體行業后,又出現了一種新的模式,即互聯網公司負責定義晶元、完成小部分設計、並花錢完成設計定案流片,設計服務公司負責大部分設計,而代工廠負責晶元製造。這種新模式可以稱為Designless-Fabless模式。

歷史上,半導體公司從傳統的IDM走到Fabless模式,主要是因為Fab開銷過高,成為了半導體公司發展的包袱,而代工廠則提供了一個非常靈活的選項。

今天,互聯網公司入局半導體後走Designless-Fabless模式,把大量設計外包,則主要是因為時間成本。互聯網巨頭做晶元,追求的除了極致性能之外,還有快速的上市時間。對於他們來說,如果要像傳統半導體公司一樣,需要從頭開始培養自己的前端+後端設計團隊,從頭開始積累模塊IP,恐怕第一塊晶元上市要到數年之後。這樣的節奏,是跟不上互聯網公司的快速迭代節奏的。

那麼如何實現高性能加快速上市呢?

最佳方案就是這些巨頭自己招募晶元架構設計團隊做晶元定義,用有豐富經驗的業界老兵來根據需求定製架構以滿足性能需求,而具體的實現,包括物理版圖設計甚至前端電路設計都可以交給設計服務公司去做。

半導體晶元的一個重要特點就是細節非常重要,ESD、散熱、IR Drop等一個小細節出錯就可能導致晶元性能大打折扣無法達到需求。因此,如果把具體設計工作交給有豐富經驗的設計服務公司,就可以大大減少細節出錯的風險,從而減小晶元需要重新設計延誤上市時間的風險。

隨著分工的進一步細化,原先起輔助作用的設計服務公司,將越來越重要,能夠與互聯網巨頭產生互補效應。不少半導體公司也注意到了設計服務的潮流,並開始向設計服務靠攏。聯發科前一陣高調公開設計服務業務,就是半導體公司轉向的重要標誌。

對於國內的AI晶元初創公司來說,善用這種Designless-Fabless模式,對於縮短產品研發周期,提升產品設計水平,都有很大幫助。

六、AI晶元展望

1. AI晶元發展面臨的問題

目前,AI晶元發展速度雖然很快,但是現在的人工智慧新演算法也是層出不窮的,這樣一來就沒有一個具體的標準,也沒有對相應的規格進行固定。其次,現在的人工智慧演算法都僅僅只是針對於單個應用進行研發的,並沒有能夠覆蓋全方位,所以鮮有殺手級別的AI應用。

在發展過程中,AI晶元首要解決的問題就是要適應現在人工智慧演算法的演進速度,並且要進行適應,這樣才能夠保證匹配發展。

此外,AI晶元也要適當的對架構進行創新兼容,讓其能夠兼容適應更多的應用,這樣能夠開發出更好的包容性應用。

目前全球人工智慧產業還處在高速變化發展中,廣泛的行業分佈為人工智慧的應用提供了廣闊的市場前景,快速迭代的演算法推動人工智慧技術快速走向商用,AI晶元是演算法實現的硬體基礎,也是未來人工智慧時代的戰略制高點,但由於目前的 AI演算法往往都各具優劣,只有給它們設定一個合適的場景才能最好地發揮其作用,因此,確定應用領域就成為發展AI晶元的重要前提。

從晶元發展的大趨勢來看,現在還是AI晶元的初級階段。無論是科研還是產業應用都有巨大的創新空間。從確定演算法、應用場景的AI加速晶元向具備更高靈活性、適應性的通用智能晶元發展是技術發展的必然方向。未來幾年AI晶元產業將持續火熱,公司扎堆進入,但也很可能會出現一批出局者,行業洗牌,最終的成功與否則將取決於各家公司技術路徑的選擇和產品落地的速度。

2. 半導體行業周期:下一個黃金十年

分析半導體市場的歷史(如下圖),我們會看到典型的周期性現象,即每個周期都會有一個明星應用作為引擎驅動半導體市場快速上升,而在該明星應用的驅動力不足時半導體市場就會陷入原地踏步甚至衰退,直到下一個明星應用出現再次引領增長。

這些明星應用包括90年代的PC,21世紀第一個十年的手機移動通信,以及2010年前後開始的智能手機。在兩個明星應用之間則可以看到明顯的半導體市場回調,例如1996-1999年之間那段時間處於PC和手機之間的青黃不接,而2008-2009年則是傳統移動通信和智能手機之間的調整。

半導體過去的十年,是以iPhone為首的智能手機帶動的黃金十年。現在的半導體行業,即將進入兩個明星應用出現之間的調整期。

誰將成為引領半導體下一個黃金十年的明星應用?

一個應用對於整個半導體行業的驅動作用可以分為兩部分,即應用的晶元出貨量以及技術驅動力

半導體行業是一個十分看重出貨量的領域,只有應用的晶元出貨量足夠大時,這個市場才能容下足夠多的競爭公司,從而驅動半導體行業。有些應用市場總額很大,但是其走的是高售價高利潤率的模式,晶元出貨量反而不大,這樣的話其對於半導體行業的驅動作用就有限。

除了出貨量之外,另一個重要因素是應用的技術驅動力,即該應用是否對於半導體技術的更新有著強烈而持續的要求,因為只有當半導體技術一直在快速更新迭代時,半導體行業才能是一個高附加值的朝陽行業,才能吸引最好的人才以及資本進入,否則一旦半導體技術更新緩慢,整個行業就會陷入僵化的局面。

PC時代的PC機就是對半導體有強烈技術驅動力的典型,PC上的多媒體應用對於處理器速度有著永不滿足的需求,而這又轉化成了對於處理器相關半導體技術強烈而持續的更新需求,直接推動了摩爾定律和半導體行業在90年代的黃金時期。

反之,有一些應用的出貨量很大但是其對於半導體的技術驅動力並不大,例如傳統家電中的主控MCU晶元,這些MCU晶元出貨量很大,但是在技術上並沒有強烈的進步需求,不少傳統家電多年如一日一直在用成熟半導體工藝實現的8位MCU,那麼這樣的應用對於半導體來說實質上引領作用也比較有限。

應用出貨量決定了半導體行業的橫向市場規模,而技術驅動力則決定了半導體技術的縱向進化動能。回顧之前幾個成為半導體行業引擎的明星應用,無不是出貨量和技術驅動力雙雙領先。

PC出貨量(在當時)很大,且是當年摩爾定律黃金時代的主推者。移動手機在出貨量很大的同時,還推動了CMOS/III-V族工藝射頻相關電路設計技術的大幅進展。

智能手機則更是驅動了多項半導體晶元相關技術的發展,例如2.5D高級封裝,用於3D識別的激光模組,觸摸屏和指紋相關晶元等,而一個智能手機中包含的半導體晶元數量從射頻前端、存儲器到慣性感測器數量也極多,因此其能撐起半導體的上一個黃金十年。

所以,能撐起下一個半導體黃金十年的應用,必然在晶元出貨量和技術驅動力,這兩個維度上都有強勁的動力。

從這個觀點出發,可以發現:

  • 只存在於雲端的雲AI晶元,是作為一種基礎設施出現的,歸根到底是服務2B客戶,因此雲AI晶元的出貨量相比智能手機這樣的智能設備要小很多。技術驅動力很強,但是出貨量相對較小。
  • IoT的出貨量很大,但是對於半導體技術發展的驅動力就比較有限。
  • 汽車電子的增長點主要還是汽車的智能化,包括自動駕駛,車聯網等等,但是汽車電子的出貨量比起智能手機設備少很多。

以上三種應用雖然有巨大的空間,但還不能成為支撐力量。

能夠起到支撐作用的,推測應該是在當前智能手機基礎上發展起來的下一代個人智能設備,可能是以AI手機的形勢呈現。手機首先出貨量很大,幾乎人手一個;此外AI手機上運行的應用程序的不斷更新迭代對於手機中的晶元技術提出了強烈而持續的技術進化需求,因此其對於半導體行業的技術驅動力極強。

附1、未來兩種可能的通用AI晶元技術路線介紹

(1)類腦晶元

這類AI晶元屬於神經擬態晶元,從結構層面去模擬大腦,參考人腦神經元結構和人腦感知認知方式來設計晶元,俗稱「類腦晶元」。

類腦晶元在架構上直接通過模仿大腦結構進行神經擬態計算,完全開闢了另一條實現人工智慧的道路,而不是作為人工神經網路或深度學習的加速器存在。類腦晶元可以將內存、CPU和通信部件完全集成在一起,實現極高的通信效率和極低的能耗。

目前該類晶元還只是小規模研究與應用,低能耗的優勢也帶來預測精度不高等問題,沒有高效的學習演算法支持使得類腦晶元的進化較慢,還不能真正實現商用。

目前神經擬態晶元的設計方法主要分為非硅和硅技術。非硅主要指採用憶阻器等新型材料和器件搭建的神經形態晶元,還處於研究階段。硅技術包括模擬和數字兩種。模擬集成電路的代表是瑞士蘇黎世聯邦理工學院的ROLLS晶元和海德堡大學的BrainScales晶元。數字集成電路又分為:非同步同步混合和純同步兩種。

其中非同步(無全局時鐘)數字電路的代表是IBM的TrueNorth,純同步的數字電路代表是清華大學的「天機」系列晶元。

另外,對於片上自學習能力,最近Intel推出了Loihi晶元,帶有自主片上學習能力,通過脈衝或尖峰傳遞信息,並自動調節突觸強度,能夠通過環境中的各種反饋信息進行自主學習。中國研究類腦晶元的企業還有:西井科技,靈汐科技,深思創芯等。

(2)可重構通用AI晶元

這類AI晶元遵循軟體定義晶元思想,是基於可重構計算架構的晶元,兼具處理器的通用性和ASIC的高性能與低功耗,是未來通用AI晶元的方向之一。

可重構計算技術允許硬體架構和功能隨軟體變化而變化,兼具處理器的通用性和ASIC的高性能和低功耗,是實現軟體定義晶元的核心,被公認為是突破性的下一代集成電路技術。清華大學微電子學研究所設計的AI晶元Thinker,採用可重構計算架構,能夠支持卷積神經網路、全連接神經網路和遞歸神經網路等多種AI演算法。

值得一提的是,DARPA在電子振興計劃(ERI)中提出了三個支柱:材料、架構、設計,用於支撐美國2025 – 2030年之間的國家電子設計能力。這其中每一個方向都設置了一個課題,其中一個課題在架構中提出了軟體定義硬體的概念,也就是 Software defines Hardware。

ERI中講道:所謂要建立運行時可以實時重新配置的硬體和軟體,他們具備像ASIC一樣的性能,而沒有犧牲數據密集型計算的可編程性。

現今的AI晶元在某些具體任務上可以大幅超越人的能力,但究其通用性與適應性,與人類智能相比差距甚遠,大多處於對特定演算法的加速階段。而AI晶元的最終成果將是通用AI晶元,並且最好是淡化人工干預的自學習、自適應晶元。

因此未來通用 AI晶元應包含以下特徵:

  1. 可編程性:適應演算法的演進和應用的多樣性。
  2. 架構的動態可變性:能適應不同的演算法,實現高效計算。
  3. 高效的架構重構能力或自學習能力。
  4. 高計算效率:避免使用指令這類低效率的架構。
  5. 高能量效率:能耗比大於5 Tops/W(即每瓦特進行5×10^12次運算)。
  6. 低成本低功耗:能夠進入物聯網設備及消費類電子中。
  7. 體積小:能夠載入在移動終端上。
  8. 應用開發簡便:不需要用戶具備晶元設計方面的知識。

對於可重構架構,大家可能覺得FPGA早就可以這樣做了,但實際上FPGA有很多局限性,包括以下這些:

  • 細粒度:由於要實現比特級運算,運算顆粒度必須為細粒度;
  • 配置信息量大:通常為幾兆到十幾兆位元組;
  • 配置時間長:通常需要十幾毫秒到幾十毫秒;
  • 靜態編程:一旦配置完成,不可更改。如果要改變 FPGA 的功能,只能下電或在線重新載入配置信息;
  • 邏輯不可復用:所有電路必須全部裝入FPGA ,復用性為零;
  • 面積效率低:每個LUT只能實現一位運算,面積效率只有5%。一個千萬級的FPGA只能實現幾十萬門的邏輯電路;
  • 能量效率低:由於邏輯利用率低,引發無效功耗巨大;
  • 需要特種工藝:FPGA 往往需要最先進的製造工藝,且需對工藝進行特別調整;
  • 電路設計技術:應用者必須具備電路設計知識和經驗;
  • 成本高昂:目前的FPGA價格為幾千到幾萬美元一片。

目前尚沒有真正意義上的通用AI晶元誕生,而基於可重構計算架構的軟體定義晶元(software defined chip)或許是通用AI晶元的出路。

附2:參考文章

[1] AI晶元和傳統晶元有何區別?,EETOP,2018-7-20

[2] AI晶元的「戰國時代」:計算力將會駛向何方?,AI科技大本營,2018-11-6

[3] 16位AI晶元玩家瘋狂湧入!安博會成AI晶元閱兵場,智東西,2018-10-24

[4] 五大趨勢看透2018安博會!AI晶元扎堆湧入,人臉識別成小兒科,智東西,2018-10-23

[5] 比特大陸推首款低功耗邊緣AI晶元 主攻安防場景,智東西,2018-10-17

[6] 半導體下一個黃金十年,誰主沉浮?,矽說,2018-11-15

[7] 互聯網巨頭入局晶元,將給半導體產業帶來深遠變化,矽說,2018-6-24

[8] 人工智慧晶元發展的現狀及趨勢,科技導報,2018-9-29

[9] 中美AI晶元發展現狀與趨勢,微言創新,2017-11-02

[10] 一文看懂所有類型的AI晶元!(附全球最頂尖AI晶元的企業名錄),IT大佬,2018-6-11

[11] AI晶元:一塊價值146億美元的蛋糕,被三大門派四大場景瓜分,IT大佬,2017-12-06

[12] 250多位專家對AI晶元未來發展的預測,半導體行業觀察,2018-9-30

[13] 【世經研究】AI晶元行業發展正當時,世經未來,2018-7-11

[14] AI晶元最新格局分析,半導體行業觀察,2018-9-9

[15] AI晶元屆巨震!英偉達ARM聯手打造數十億AI晶元 | GTC 2018,智東西,2018-3-28

[16] 華為大轉型!AI戰略重磅發布,兩顆AI晶元問世,算力超谷歌英偉達!,新智元,2018-10-10

[17] 華為秘密「達芬奇計劃」首曝光!自研AI晶元或重創英偉達,新智元,2018-7-13

[18] 獨角獸寒武紀已生變數,中國AI晶元搶跑者前路未明,DeepTech深科技,2018-10-11

[19] 甲小姐對話陳天石:AI晶元市場廣闊,寒武紀朋友遍天下,甲子光年,2018-10-12

[20] 清華魏少軍:大部分AI晶元創業者將成為這場變革中的先烈,AI科技大本營,2018-3-25

[21] 人工智慧晶元行業深度研究,天風證券,2017-11-29

[22] 碾壓華為蘋果的AI晶元問世!高通發布全球首款5G晶元驍龍855,新智元,2018-12-5

#專欄作家#

hanniman,人人都是產品經理專欄作家,前騰訊、現創業公司PM;專註於人工智慧領域的產品化研究,關注人機交互(特別是語音交互)在手機、機器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產品體驗;擅長對創業團隊管理、個人成長提出實戰型的建議方案;知乎/簡書/微博帳號,均為hanniman。

本文原創發佈於人人都是產品經理,未經許可,不得轉載。

題圖來自Unsplash,基於CC0協議

給作者打賞,鼓勵TA抓緊創作!