国产AV无码专区亚洲AV麻豆丫,亚洲av无码一区二区三区观看,亚洲综合国产成人丁香五月激情

【產通社，1月22日訊】英偉達等公司在高端圖形處理單元（GPU）芯片方面的創新為AI訓練提供了堅固基石。在應用過程中，經過訓練的ChatGPT等生成式AI工具會吸納新信息進行推理并生成回應，如撰寫文檔、生成圖像等。這類AI工具可應用于醫療診斷、自動駕駛、自然語言理解等領域。

隨著AI模型的廣泛應用，需要進行推理計算的硬件日益增多，對推理芯片的需求也將“水漲船高”。國際數據公司（IDC）的報告顯示，未來幾年，推理端的AI服務器占比將持續攀升。預計到2027年，用于推理的工作負載將占據七成以上。

Cerebras、Groq和d-Matrix等初創公司，以及老牌計算機芯片公司（AMD）和英特爾紛紛推出了AI推理芯片。這些公司敏銳捕捉到了AI推理芯片“大顯身手”的契機。

Cerebras公司晶圓芯片

Cerebras公司2024年8月28日推出的AI推理芯片在Llama 3.1-8B模型上實現了1800token/秒的推理速度；在Llama 3.1 70B上實現了450token/秒的推理速度，約是英偉達GPU推理速度的20倍。Token指AI處理文本的最小單元或基本元素，如一個單詞、一個字符等。

Cerebras公司擁有創新的AI芯片設計方案，其晶圓級引擎（WSE）宛如一座龐大的“計算工廠”，最大特點是尺寸驚人——單個芯片幾乎占據了一整塊晶圓的面積。在這個超大芯片上，計算單元和內存單元高度集成，形成一個密集的網格結構。這樣的設計，讓數據能在極短距離內，于計算單元和存儲單元之間傳輸，從根本上降低了數據移動成本，解決了GPU推理無法避免的內存帶寬瓶頸。此類大芯片能更快處理信息，從而在更短時間內給出答案。

GroqCloud速度比GPU快一個量級

2024年2月，Groq公司就發布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上實現了250token/秒的推理服務，速度比GPU幾乎提升了一個量級。

d-Matrix聊天機器人芯片

2024年11月19日，硅谷初創公司d-Matrix首款AI推理芯片Corsair已開始出貨，旨在提供聊天機器人和視頻生成等服務。

Corsair在單服務器環境下，能讓Llama3 8B模型實現60000token/秒的處理能力，且每個token的延遲僅為1毫秒，充分彰顯了其在高速處理大規模數據方面的卓越性能。更值得一提的是，與GPU及其他方案相比，Corsair能在提供同等性能的同時，大幅降低能耗和成本。

AI推理芯片將目光瞄準了更廣泛的客戶群體，旨在優化推理計算的速度與效率，尤其擅長智能建議、語音識別、自然語言處理等領域。一旦推理速度提升至每秒數千token，AI模型將能在眨眼之間完成復雜問題的思考與回答過程。這不僅能讓現有應用的交互效率實現質的飛躍，還將帶來一系列令人耳目一新的人機交互場景。例如，在語音對話領域，延時將被壓縮至毫秒級，能實現近乎自然的對話體驗；在虛擬現實/增強現實領域，AI將能實時生成和調整虛擬環境、角色對話以及交互邏輯，給用戶帶來個性化、沉浸式體驗。（鐠元素）