1. <label id="xw3od"><meter id="xw3od"><bdo id="xw3od"></bdo></meter></label>

      <label id="xw3od"><meter id="xw3od"></meter></label>
       加入收藏
       免費注冊
       用戶登陸
      首頁 展示 供求 職場 技術 智造 職業 活動 視點 品牌 鐠社區
      今天是:2025年5月10日 星期六   您現在位于: 首頁 →  技術 → 半導體器件(應用信息)
      機器學習硬件芯片之AI加速器(ai-accelerator)
      2023/2/8 10:21:16    
      機器學習是通過使用算法和統計模型從數據模式中分析和得出推論,使計算機系統在沒有顯式指令的情況下進行學習的過程。AI和機器學習的主要限制之一一直是計算能力,這一直是研究人員關注的原因。幾十年前,在為機器學習運行大型計算時,CPU還沒有這么強大和高效。硬件制造商努力創造一個能夠執行任何AI操作的處理單元。

      雖然CPU不再是計算能力的可行來源,但它們是先驅。如今,這些CPU理所當然地被專門為大型計算設計的GPU和AI加速器所取代。購買AI加速器時考慮的主要特征是成本、能耗和處理速度。

      AI加速器作為一種強大的機器學習硬件芯片,專門設計用于平穩快速地運行AI和機器學習應用程序。AI加速器的例子包括圖形處理單元(GPU)、視覺處理單元(VPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)和張量處理單元(TPU)。


      1. 用于機器學習的視覺處理單元(VPU)

      除了顯卡,英偉達和AMD還生產獨立的微處理器,專門用于機器學習。這些專門的處理器或視覺處理單元(VPU)是專門為深度神經網絡設計的,如CNN和RNN的;與執行各種其他計算操作的GPU相比,它們可以相對輕松地處理圖像識別和分類任務所需的視覺處理計算。這就是為什么它們通常比傳統GPU擁有更多的內核和更高的時鐘速度。

      視覺處理單元適用于卷積神經網絡(CNN),如圖像識別、對象檢測和分類。第一臺VPU是Nvidia在2004年推出的Cuda-2000。最近,AMD發布了Baffin,可用于大多數DL任務(TensorFlow、PyTorch、Caffe2)以及計算機視覺算法,如視覺顯著性檢測、圖像分割和識別等。

      英特爾CPU上的深度學習推理速度大約比同等功率的帕斯卡GPU/VPU慢20倍。例如,如果您要在幾乎相同的基準和數據集上比較兩個CPU,差異將是顯著的。推理時間與VPU內核的數量成線性比例關系,而與CPU內核的數量成平方比例關系。在一定數量的VPU內核上,花同樣的錢買更高端的CPU會更好。

      視覺處理單元被許多需要大量圖像處理的公司使用,如臉書& Pinterest用于對象識別,谷歌使用張量處理單元(TPU)用于各種服務,包括搜索相關功能。據英偉達首席執行官黃仁勛稱,vpu在執行視頻分析、計算機視覺或機器學習算法等需要“成千上萬”內核來訓練模型的任務方面非常有效。

      VPU的一個例子是英特爾的Movidius Myriad X,該公司使用它來驅動各種產品,如他們的RealSense計算機視覺開發套件、云平臺(亞馬遜AWS和微軟Azure)、智能手機(Galaxy S8、iPhone XS Max)和平板電腦。VPU還被用于機器人導航和自動駕駛系統。此外,在Hololens & Magic Leap中,還為增強現實部署了圖像識別、分類和對象檢測。英特爾表示,他們的VPU能夠在2304 x 1152分辨率下實現60 FPS,準確率為93%。

      視覺處理單元最適合用于圖像識別和對象檢測任務。CNN由幾個相連的層組成,當輸入模式通過時,這些層逐漸增加輸入模式的復雜性或維度。第一層檢測邊緣,隨后是檢測特征的卷積,等等,直到實現端到端分類。

      因為CNN執行像最大池、子采樣等操作。它們需要密集的數字處理能力,因此非常適合擁有更多內核/更高時鐘速度的VPU。
      視覺處理單元(vpu)的其他使用案例包括:
      自動駕駛- VPUs可用于在自動駕駛汽車中運行高分辨率的深度學習模型進行圖像處理。例如,英偉達使用其帶有板載VPU的Drive PX平臺為其自動駕駛汽車系統提供動力。
      視覺顯著性檢測-檢測場景中最顯著的物體,并引起對這些物體的注意。
      圖像分割和識別-可用于基于像素的圖像標記,并根據對象類型以及準確的分類結果進行分類。例子包括百度的深度圖像,它是使用谷歌的TensorFlow框架開發的,或者臉書的Canvas圖像識別系統,它執行諸如語義分割、創建細粒度圖像識別模型等任務。
      虛擬現實和增強現實-虛擬現實被認為是一種可視化技術,可以通過使用VPU進行對象檢測和場景分析來提供實時3d模擬。增強現實也是如此,它們可以用來在用戶的物理世界中構建數字對象。
      安全-由于深度學習算法通常使用標記數據進行訓練,因此人臉識別和面部行為分析等安全平臺使用這些類型的處理器。

      視覺處理單元主要由Nvidia (Tensor)生產,該產品基于其當前的Volta架構。AMD最近還宣布,將于2019年開始出貨其名為Navi的第三代圖形處理單元;這款芯片預計將提供高達512 GB/秒的內存帶寬,同時與英偉達的Volta架構競爭。這種GPU芯片的優勢是它將與GPGPU算法兼容,不像英偉達的V100。


      2. 現場可編程門陣列(FPGA)


      現場可編程門陣列是可編程集成電路,可由客戶在制造后針對特定任務進行配置。FPGAs因其在硬件加速和并行計算方面的多功能性而廣受歡迎。它們可以用于幾乎所有傳統上使用數字處理器的任務,包括圖像/視頻處理、信號處理、數據加密/解密以及許多其他與計算相關的任務。

      用FPGA配置不同計算單元的靈活性使得構建從傳統GPU到具有大量vpu的系統的任何類型的系統成為可能,而不會導致任何存儲器瓶頸,因為PCIe總線比PCI總線具有更大的帶寬。這些限制已經在Nvidia最新版本的Tesla V100中得到解決,該版本擁有2304位內存總線,但仍不足以跟上FPGAs。

      FPGAs主要用于3d圖形處理、并行計算和圖像識別/重建算法,如使用來自安裝在車輛或機器人上的攝像頭的圖像數據的自動駕駛應用等領域中的深度學習網絡。

      FPGA的三個基本元素是什么?

      三個組件可在FPGA上編程,即靜態RAM、反熔絲和閃存可擦除可編程只讀存儲器(EPROM)。這些元素被鏈接在一起,形成一個龐大的邏輯塊排列。這些模塊通過可編程突觸(互連)進一步連接。由于配置程序(編程)是由硬件工程師執行的,而不是像ASIC和GPU那樣由軟件開發人員執行,因此與定制ASIC芯片相比,FPGAs大大降低了制造成本。

      FPGA芯片的應用

      2016年,汽車行業是FPGA硬件和軟件的消費大戶。市場研究公司VDC預測,從2016年到2021年,全球收入將增長8%以上,到2021年達到40億美元。下面是一些如何使用它們的例子:

      包括用于避免碰撞或自動制動的傳感器的駕駛員輔助系統可以使用FPG編碼算法來部署,用于實時分析由工業過程中的移動車輛或機器人上的攝像機捕獲的數據,例如焊接應用,其中物體可能以高速彼此接觸,從而導致對人類工人的損害/傷害以及設備故障。
      通用計算語言可以部署在FPGA硬件上,使用主機和操作系統(如Linux)來構建汽車或機器人的圖像識別模型,以及可以在3D圖形、并行計算等中使用的軟件算法。
      網絡安全、數據包加密/解密和在線游戲平臺等網絡應用最適合FPGA實施,因為網絡流量利用其靈活的并行計算能力會產生較小的延遲問題。一個主要的例子包括Atlas平臺,該平臺由臉書工程師開發,使用FPGA架構來改進他們的深度學習(ML)系統,同時讓GPU驅動的機器執行其他任務,而不僅僅是訓練模型和服務最終用戶。
      FPGAs的使用允許谷歌或臉書等基于云的機器學習提供商使用它們來實施其數據中心基礎設施,并以更快的速度訓練模型,同時為最終用戶保持相同的延遲水平。
      圖像處理軟件可以移植到FPGAss上運行,FPGA用于PIxel和Arrow等相機公司使用的工業相機。他們聲稱,與使用GPU硬件的競爭對手相比,使用FPGA架構可以讓他們創造更高的性價比。

      FPGA與GPU

      靈活性
      FPGAs在開發過程中提供了配置硬件模塊的高度靈活性。此外,與為算術邏輯單元(ALU)預先確定內核的GPU不同,FPGA的ALU可以配置為處理一系列并行任務,從而可以構建具有多個vpu或兩種功能任意組合的系統。

      硬件加速/并行計算:FPGAs建立在現場可編程門陣列上,因此與GPU和CPU相比,它們提供了更大的靈活性,可以在需要時輕松添加額外的處理單元,而不必擔心內存總線不平衡。因此,這使它們成為需要密集數字處理的深度學習網絡的理想選擇,因為它們可以輕松添加額外的alu,而不必對現有的alu重新編程。

      時鐘速度:與GPU相比,FPGAs的時鐘速度更快,從而提高了性能。對于數量相當的內核,對于I/O密集型應用,如使用深度學習算法進行模式識別的通信網絡,FPGAs的性能明顯優于GPU。

      云計算:FPGAs使得構建定制的硬件變得更加容易,這些硬件可以根據客戶端和用戶的要求輕松配置。這使得它們適用于云計算平臺,在這種平臺上,拓撲可以在任何給定的時間根據需求進行更改,而不會產生額外的成本或繁瑣的開發時間表。

      像任何其他技術轉變一樣,總會有一些缺點:成本與靈活性。由于FPGA是可編程的,它們需要更通用的開發環境,因此通常比GPU更昂貴。此外,FPGAs不允許在生產中進行重新配置,而這可以通過GPU輕松完成。

      FPGAs受到其計算能力和存儲器帶寬的限制,因此由于需要使用大量權重的深度學習網絡所需的大容量SRAMs(靜態隨機存取存儲器),因此具有較慢的時鐘速度。這意味著FPGA通常用于較小的集群,有限的用于高端應用,如自動駕駛汽車和無人機等。然而,這種限制也有一個優點,因為當不使用FPGAs進行DNN計算時,它比GPU/CPU更便宜。

      速度不夠——由于它們依賴外部存儲器,因此在每個時鐘周期進行比較時,它們比傳統的微處理器或GPU慢,因此不適合需要實時結果的計算密集型模擬,例如汽車應用中使用的高分辨率相機處理算法。

      上述例子讓我們深入了解了這些新架構的敏捷性,這些新架構旨在滿足自動駕駛汽車、無人機和機器人對深度學習網絡不斷增長的需求——它們還突出了GPGPUs在加速網絡計算方面的使用。GPU比CPU具有巨大的優勢,特別是在執行并行計算任務時,而FPGAs與GPU相比具有許多優勢,主要是因為它們可以在制造后重新配置,因此在設計任何類型的系統時都具有很大的靈活性。

      然而,就像任何其他技術進步一樣;隨著每個架構中內置更多功能,未來幾代產品將會有更大的進步,實現更快的時鐘速度和更大的存儲器總線,從而使其競爭對手難以趕上

      有哪些公司在提供FPGAs?

      市場領導者包括Xilinx和Altera,它們都是FPGA編程工具的主要供應商,工程師使用這些工具根據自己的要求配置器件。

      Xilinx和Altera是兩家最大的FPGA供應商,IBM聲稱他們將使用他們的SoftLayer云來提供GPU和FPGA。微軟Azure和亞馬遜網絡服務也允許他們的用戶在其云計算平臺中選擇GPU和FPGAs。

      汽車車道偏離警告系統的主要供應商Mobileye正在使用英特爾的至強處理器和Altera現場可編程門陣列(FPGA)協處理器為其攝像頭供電。英特爾在2017年以153億美元收購了Mobileye目前尚不清楚這些加速器在自動駕駛項目中發揮的作用有多大,但它暗示了自動化在發達和新興汽車市場都將發揮重要作用的未來。

      Mobileye的協處理器被編程為處理高級駕駛輔助系統(ADAS)所需的數據處理——它可以處理來自Mobileye的EyeQ3傳感器的高維輸入信息,同時還可以降低處理器負載,從而直接降低功耗。這種組合解決方案將延遲降低到240毫秒左右,這被認為是一項重大改進,因為大多數攝像機的平均延遲為1秒。


      3. 專用集成電路


      ASICs通常是為單一應用或目的而設計的,不能像FPGA或GPU那樣重新編程。與FPGAs和GPU相比,這使它們成為一個更高效的平臺,因為它們可以輕松地針對特定任務進行構建——這些平臺是交易、游戲甚至加密貨幣挖掘等用例的理想選擇。

      近年來,隨著英特爾和IBM等主要技術公司使用基于ASIC的系統來驅動他們的云計算平臺,ASIC越來越受歡迎。

      與設計用于處理計算和圖形計算的FPGAs和GPU不同,ASICs專門用于要求高性能的計算,如加密貨幣礦工所要求的計算。ASICs比FPGAs具有更好的電氣特性,因此可以提供更高的計算速度,同時生產成本也更低,這使它們成為資金不是問題的情況下的首選——它們通常需要很少的外部存儲器,因此它們依賴于在小封裝中存儲大量數據的區塊鏈。

      Nervana是由英特爾構建的ASIC,它基于一種稱為深度學習三重內容可尋址存儲器(TCAM)的新型架構,通過其每時鐘三次的提升為神經網絡層提供了非常高的吞吐量。這使得Nervana能夠以低得多的價格提供比GPU更高的性能,這可能使日常消費者以可承受的成本獲得人工智能加速器。

      英特爾于2016年8月收購了Nervana Systems,為該公司提供了大量培訓和推理算法方面的專業知識,這些技術現在正被用于其行業領先的Movidius視覺處理單元(vpu)中。此后,他們發布了面向工業和消費者用例的VPU產品——這使得Nervana的技術被集成到英特爾的RealSense深度攝像頭、至強和酷睿處理器以及他們新發布的Movidius神經計算棒中。

      ASICs的優勢

      ASIC在性能方面可能優于FPGAs,因為它們具有更低的延遲和更好的電氣特性,這就是比特幣ASIC如此強大的原因。與GPU和FPGAs相比,它們還提供了最高級別的安全性、能效和靈活性,因為它們可以執行符合其設計規格的任何任務。

      ASICs的缺點

      ASICs的主要缺點是,它們的制造需要巨額資本投資——這導致許多公司依賴GPU或FPGAs,它們需要較少的初始資金,只要在開發更有效的數字貨幣方面沒有重大進展,仍然可以提供足夠的區塊鏈采礦率,因此它依賴比特幣等加密貨幣來實現財務收益。

      然而,目前還不清楚ASICs的使用是否僅用于采礦,或者是否用于其他應用,例如提供相對于GPU和FPGAs的競爭優勢。雖然云計算提供商可以向那些根據執行區塊鏈采礦的投資回報預期選擇平臺的用戶提供激勵,但如果沒有需要這種專用硬件來實現最大效率的加密貨幣,投資開發專用集成電路就沒有什么意義。

      這使得使用GPU和FPGAs的加密貨幣礦商很難理解哪些因素將推動未來的盈利能力,因為大多數加密貨幣仍然無法預測它們對技術創新的反應速度。


      4. 什么是張量處理單元(TPU)?


      張量處理單元(TPU)是由谷歌制造的,用于加速機器學習應用。它被設計為在TensorFlow上運行,由稱為tensors的多個處理原語構成。張量是向量和矩陣向潛在的更高維度的推廣。

      谷歌TPU技術的特點

      谷歌聲稱,其第二代Maxwell架構的64位80萬億次浮點運算變體的能效比通用CPU高出9倍。該架構還包括對深度學習推理的特定支持,數據吞吐量比谷歌數據中心使用的第一代TPU高2到3倍。

      每個時鐘周期能夠執行八次混合精度操作,每次操作以16位浮點精度執行,某些情況下以24位整數或32位浮點粒度執行。谷歌支持的這種混合精度類似于半(16位)高斯舍入,但不同于英特爾至強融核協處理器支持的全(24位)舍入到最近位模式。

      TPU的計算能力來自神經網絡,該網絡用于提供最準確的語言和圖像識別,以及實時解析結構化數據。它是為推理而設計的,這是一個涉及激活預先訓練的ML模型的步驟,通常比訓練計算量更大。

      張量處理單元(TPU)的容量是多少?

      谷歌表示,其第二代TPU每秒可以執行4500張圖像的推理(對于ResNet-50),這需要16個高端英偉達K80 GPUs才能達到一臺谷歌TPU的性能。谷歌進一步聲稱,其新TPU架構的32萬億次浮點運算變體提供了比第一代TPU高6倍的性能。

      有哪些公司在使用張量處理單元?

      一些公司已經在其數據中心部署了張量處理單元,包括電子商務巨頭阿里巴巴以及搜索引擎巨頭百度和谷歌(Alphabet)。

      英特爾還宣布了其首個名為Lake Crest的TPU設計,用于為制造、醫療保健、金融和服務行業的深度學習工作負載提供動力。

      現在,正如我所承諾的,我要提到一種不同的處理器,它在功能上模仿人腦。這被稱為“神經形態處理器”。

      可以買張量處理單元嗎?不要!你不能。TPU是谷歌唯一尚未出售的資產。盡管你可以以每小時每臺機器1.35美元的價格租用谷歌TPU作為谷歌云服務。


      5. 神經形態處理器


      什么是神經形態處理器?

      神經形態處理器被設計成在結構和操作上盡可能接近人腦。這可以通過使用模擬電路來實現,模擬電路進行的計算類似于人腦中神經元進行的計算,這使它們可以用大量內存執行一組復雜的操作,盡管操作速度較低。

      在過去的幾年里,這些電路被設計成運行深度學習算法,這些算法最初是為ASICs和其他形式的傳統處理硬件開發的。這使得神經形態處理器在運行人工智能應用程序時能夠提供比其前輩更高的效率,同時還提供更低的功耗,從而使其成為比GPU和FPGAs更具成本效益的選擇。

      誰發明了神經形態處理器?

      神經形態處理器的概念是由加州理工學院教授卡弗·米德首創的,他自1979年以來一直致力于開發模擬人腦的電路。
      神經形態處理器的優缺點

      神經形態處理器的主要優勢是,它們能夠以傳統處理器所需的一小部分能源成本為人工智能應用提供高水平的性能。它們還具有高度的可擴展性,可以集成到多種計算設備中,包括移動電話和其他手持設備,以及能夠以最小的努力提供高水平性能的現場計算機。

      然而,在執行標準金融和數學運算時,神經形態處理器在效率和性能方面仍然不如GPU和FPGAs。此外,它們有限的可擴展性要求它們被結合到其他設備中以有效運行,這也增加了啟動成本。
      神經形態處理器的處理能力如何?

      一個神經形態處理器比谷歌的TPU更快,每秒處理100倍的幀,而使用的能量少1萬倍。兩款處理器都在雅達利游戲Q*bert上進行了測試,Neuromorphic以100萬比1.4萬的成績勝出。

      IBM TrueNorth

      IBM TrueNorth目前是最強大的神經形態處理器,容量為1.02萬億次浮點運算,功耗僅為10瓦,比英特爾酷睿i7-7700K實現類似性能所需的功耗低約7200倍。

      隨著最新的人工智能加速器的推出,可能會降低成本,能耗和數據處理時間,對處理能力有限的擔憂正在消退。與神經形態計算機一樣,最高可行的計算處理模型可以從大腦功能中復制出來。為了獲得最佳處理能力,智能設計的電路、高效的軟件代碼和更簡單的算法是必不可少的。(剪報來源:http://thinkml.ai/ai-accelerators-hardware-for-artificial-intelligence-cpu/
      → 『關閉窗口』
       -----
       [ → 我要發表 ]
      上篇文章:在物聯網控制應用中使用8位MCU
      下篇文章:在計算機歷史博物館探索先鋒軟件和先驅科學家
      → 主題所屬分類:  半導體器件 → 應用信息
       熱門文章
       如何申請EtherCAT技術協會(ETG)會員資格 (184280)
       臺北國際計算機展(COMPUTEX 2015)參展商名… (106046)
       上海市集成電路行業協會(SICA) (94105)
       USB-IF Members Company List (84455)
       第十七屆中國專利優秀獎項目名單(507項) (76325)
       蘋果授權MFi制造商名單-Authorized MFi Lic… (70200)
       臺北國際計算機展(COMPUTEX 2015)參展商名… (69460)
       中國130家太陽能光伏組件企業介紹(3) (56592)
       PLC論壇 (53364)
       中國130家太陽能光伏組件企業介紹(2) (49918)
       最近更新
       一本面向設計工程師精心修訂和更新的《ESD應用手冊… (3月10日)
       表皮電子學的代表作:石墨烯紋身 (2月26日)
       在晶圓級大規模生產中引入脈沖激光沉積(PLD)技術 (1月21日)
       你聽說過PiezoMEMS技術嗎? (1月21日)
       旨在挑戰EUV的納米壓印光刻技術(Nanoimprint L… (1月3日)
       新UV光刻機專利顯著提高能效并降低半導體制造成本 (11月6日)
       將GaN極性半導體晶圓的兩面用于功能器件 (9月30日)
       驅動增強終端側生成式AI體驗的技術:LoRA (6月11日)
       AI TOPS和NPU性能指標指南 (6月11日)
       驅動增強終端側生成式AI體驗的技術:多模態生成式AI (6月11日)
       文章搜索
      搜索選項:            
        → 評論內容 (點擊查看)
      您是否還沒有 注冊 或還沒有 登陸 本站?!
      關于我們 ┋ 免責聲明 ┋ 產品與服務 ┋ 聯系我們 ┋ About 365PR ┋ Join 365PR
      Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市產通互聯網有限公司 版權所有
      E-mail:postmaster@365pr.net 不良信息舉報 備案號:粵ICP備06070889號
      主站蜘蛛池模板: 又粗又硬又黄又爽的免费视频| 日韩一级视频免费观看| 亚洲精品无码av人在线观看| 又粗又长又爽又长黄免费视频 | 国产av无码专区亚洲国产精品| 美女视频黄频a免费观看| 亚洲国产精品尤物YW在线观看| 日日躁狠狠躁狠狠爱免费视频| 亚洲中文字幕视频国产| 香蕉免费在线视频| 亚洲一二成人精品区| 中文字幕在线观看免费视频| 亚洲中文无码av永久| 永久免费毛片手机版在线看| 无人视频免费观看免费视频| 国产成人综合亚洲AV第一页 | 成人A毛片免费观看网站| 亚洲大尺度无码无码专区| 最近中文字幕高清免费中文字幕mv| 亚洲国产精品白丝在线观看| 青青青国产免费一夜七次郎| 一级毛片大全免费播放下载| 亚洲国产综合91精品麻豆| 免费av欧美国产在钱| 九九九精品视频免费| 亚洲成AV人片在线观看无| 三年片在线观看免费大全 | 亚洲已满18点击进入在线观看| 最好免费观看韩国+日本| 国产vA免费精品高清在线观看| 亚洲国产综合专区电影在线| 24小时日本在线www免费的| 日韩在线观看视频免费| 亚洲精品国产免费| 免费a级毛片大学生免费观看| 久久国产免费一区| 精品国产日韩亚洲一区在线| 亚洲好看的理论片电影| 国产又黄又爽又猛的免费视频播放| 美女视频黄a视频全免费网站色窝| 亚洲人av高清无码|