亚洲最大的成人网,亚洲成A∨人片天堂网无码,亚洲特级aaaaaa毛片

加入收藏

今天是：2025年5月10日星期六您現在位于：首頁 → 技術 → 辦公電子（技術聚焦）

訓練大型語言模型：模型驅動內容，內容驅動模型

2022/12/2 12:16:29

訓練大型語言模型和推薦系統的成本已經變得越來越清楚，這可以說是推動人工智能（AI）進入企業的兩個最重要的工作負載。但由于機器學習系統制造商Cerebras Systems和云計算合作伙伴Cirrascale提供了一種新的系統租賃服務來訓練GPT模型，我們現在有了一些實際的定價，可以顯示在什么規模下運行什么GPT模型的成本。

這是我們第一次從剩余的人工智能培訓新貴中看到這樣的公開數據，其中包括Cerebras，SambaNova Systems，Graphcore和英特爾的Habana Labs也許我們對后者很慷慨，英特爾希望削減產品線和人員，因為它尋求從現在到2025年期間從其賬面上減少80億至100億美元的成本。

Cerebras和Cirrascale透露的在CS-2超級計算機上進行特定GPT AI訓練的定價信息是與Jasper的合作伙伴關系一起宣布的，Jasper是眾多AI應用程序提供商之一，他們正在幫助各種行業和規模的企業找出如何部署大型語言模型來驅動他們的應用程序。就像地球上的其他人一樣，Jasper一直在Nvidia GPUs上訓練其AI模型，它正在尋找一種更簡單、更快速的方法來訓練模型，這就是它謀生的方式。

據該公司的聯合創始人兼首席執行官Dave Rogenmoser稱，Jasper確實以此為生。該公司擁有近10萬名付費用戶，他們使用Jasper系統做各種事情，從寫博客到創建內容營銷再到生成技術手冊。這些大型語言模型還不能生成完美的內容，但是如果輸入正確，它們可以在相當短的時間內讓內容達到需要的70%左右，這大大加快了許多公司的內容創建過程。(信不信由你，大多數人不喜歡寫作，他們也常常寫得不是很快。)

總部位于奧斯汀的Jasper成立于2021年1月，在2021年6月籌集了600萬美元的種子資金，并在Insight Partners推動的1.25億美元首輪融資中獲得了最高估值，該公司的估值為15億美元。它是許多基于LLM提供服務的初創公司之一，現有的應用軟件提供商也在想辦法以各種方式利用LLM來擴充他們的模型。

“我們認為大型語言模型不夠高端，我們剛剛開始看到它們的影響，”Cerebras的聯合創始人兼首席執行官安Andrew Feldman解釋道，該公司是晶圓級處理的先驅，也是AI訓練硬件的新貴。“在生態系統的這三個層次中，無論是硬件層、基礎設施層和基礎模型，還是應用層，都會有贏家和新的出現。明年，你將看到大型語言模型在經濟各個領域的廣泛崛起和影響。”

Cerebras一直以其“Andromeda”AI超級計算機做文章，這是一組16個CS-2晶圓級系統捆綁在一起的單個系統，具有超過1350萬個核心，在16位浮點精度下提供120 petaflops的性能，密集矩陣是稀疏矩陣（sparse matrice）的8倍。該系統的成本不到3000萬美元，即使對于像Jasper這樣的硅谷獨角獸來說，這也是一大筆錢。

正如任何工作負載的情況一樣，在一定的規模和利用率水平下，購買CS-2群集將比租賃一個更有經濟意義，我們不會驚訝地看到像Jasper這樣的公司為此付出資金，原因很快就會顯而易見。

模型驅動內容，內容驅動模型

Jasper的業務有兩個驅動因素，這是它遠離分布式GPU AI訓練的耦合模型并行和數據并行世界的原因，當涉及到為跨越數千或數萬個GPU運行的AI訓練分割數據和任務時，會有一些痛苦的過程，并進入僅支持數據并行的大腦的可愛懷抱。

“首先，企業想要個性化的模型，而且非常想要，”Rogenmoser解釋道。“他們希望用自己的語言對他們進行培訓，希望他們接受知識庫和產品目錄方面的培訓。他們希望他們接受品牌聲音的培訓——他們希望他們真正成為品牌的延伸。他們希望他們的銷售團隊以同樣的方式說話，并立即跟上新發布的產品信息，他們希望他們都以一致的方式說話。當人們進入公司時，他們希望他們立即跟上速度，公司里的每個人都用某些詞說話，而不用某些詞。他們希望這種情況會越來越好。這是第二部分——他們希望這些模型變得更好，并希望它們根據過去的使用數據和性能進行自我優化。如果他們寫了一個臉書廣告標題，并最終成為贏家，他們希望模型能夠了解正在發生的事情，并能夠圍繞這些事情進行自我優化。”

Cerebras產品副總裁Andy Hock告訴Next Platform，情況甚至更復雜。

“我們在Jasper以外的市場上觀察到的一個更廣泛的現象是，許多公司希望能夠快速研究和開發這些用于特定商業應用的大規模模型，”Hock說。“但是，傳統云中存在的基礎設施并不能讓這種大規模的研發變得容易。所以能夠問這樣的問題——我應該從頭開始訓練嗎？還是應該微調一個開源的公共檢查點？最好的答案是什么？如何最有效地利用計算來降低商品成本，從而為我的客戶提供最佳服務？在許多情況下，使用傳統基礎架構來詢問這些問題不僅成本高昂，而且不切實際。”

這就是為什么Cerebras和Cirrascale將Cerebras AI模型工作室租賃模型整合在一起，該模型基于CS-2 iron集群，在兩家公司擁有的基礎設施上運行。也沒有說他們部署了多少CS-2鐵，但從理論上講，Cerebras架構允許它擴展到相當大的規模，正如我們過去在這里和那里討論過的那樣，到目前為止，單個系統映像中的192個CS-2節點總共有1.63億個內核。

在一個主要的云上爭奪GPU的可用性是一回事，將模型和數據分解到數百、數千或數萬個GPU上運行是另一回事。付錢是另一回事。

因此，來自Cerebras和Cirrascale的AI模型工作室的中心主題是可預測性，而不僅僅是模糊地聲稱AI模型可以比在亞馬遜網絡服務上使用GPU快8倍，而且價格只有一半。

“我們有AI研究實驗室和一些金融機構作為客戶，他們都想訓練自己的模型，并使用自己的數據來提高這些模型的準確性，”Cirrascale聯合創始人兼首席執行官PJ Go說。“他們希望以合理的價格快速完成這項工作。或許最重要的是，他們想要一個可預測的價格。他們不想給云服務提供商開一張無止境的空白支票來訓練一個模型。”

因此，在一個完美的例子中，計算能力就是金錢，這里是當從頭開始訓練GPT-3運行時，在四節點CS-2集群上的AI Model Studio服務的定價:

“Chinchilla Point”是數據層，用記號來度量，它是有效訓練模型和收斂到正確答案所需要的。(有了大的語言模型，看了或者聽了就知道了。)通過一個模型推動太多的數據會產生收益遞減，有時你可能會走得太遠，就像如果你太激進，你可能會過度擬合一條統計曲線。(你看到的時候也知道。)

模型越大，訓練時間就越長

顯然，模型在參數方面的大小和令牌的數量成比例，一般來說，我們可以說，模型越大，在設定的配置上訓練所需的時間就越長。同樣，這是有道理的，因為隨著AI訓練努力的擴大，你只是加載和處理越來越多的數據，以獲得越來越好的結果。

你知道我們，我們不能留下一個像Cerebras和Cirrascale單獨創建的表，所以我們對每個參數的成本以及每天處理的令牌和每天花費的美元做了一點計算。我們還嘗試計算了三種最大型號的價格和性能——GPT NeoX、GPT 70B和GPT 175B——它們運行在仙女座菌株級機器上，具有16個CS-2節點，而不是原始表格中顯示的4個CS-2節點。

我們放入的這些跳躍因子需要解釋。最終，我們都想知道訓練的天數和價格是如何隨著每一個GPT模型的擴展而上漲的，然后我們想知道我們如何擴展鐵，這樣我們就可以加快訓練的時間。跳躍因子計算從一個GPT模型到下一個模型的增量，我們跳過T-5 11B模型expect，因為它與GPT-3 6.7B的運行相比。

在四節點CS-2集群上的GPT-3參數范圍的低端，增加一些參數會引入比您預期的長得多的訓練時間。從13億個參數移動到60億個參數，數據增加了4.6倍，但訓練時間增加了20倍。從67億到130億個參數又增加了1.9倍，但訓練時間增加了3.5倍。在GPT NeoX運行中，參數增加了1.5倍，但訓練時間僅增加了1.2倍。因此，隨著模型大小的增加，這并不是精確的線性關系。

正如我們在本月早些時候討論的那樣，CS-2機器幾乎是線性擴展的。4個節點幾乎是兩個節點的兩倍，8個節點幾乎是4個節點的兩倍，16個節點幾乎是8個節點的兩倍。當我們問價格是否也線性增長時，Feldman說這似乎不公平，這對NUMA架構來說是正確的，隨著規模的擴大，它們會變得更貴。Feldman建議“4倍的性能5倍的價格”是一個很好的方式來思考如何比較16個CS-2節點與4個節點。

我們不知道該算法是否會縮減到兩個或一個節點設置，從而在縮減CS-2集群規模時削減20%的成本。但很可能會。但話說回來，當你可以在更短的時間內使用更大的系統時，你為什么要嘗試在更小的系統上訓練更長的時間呢？只有在預算緊張、時間不重要的情況下，你才會這么做。

因此，我們對上述成本的猜測。顯然，在一個四節點集群上，隨著模型變得越來越大，處理每組參數的成本也會增加。GPT-3XL型號的每100萬個參數只有1.92美元，但按照Cerebras和Cirrascale的定價，GPT 70B型號的價格是35.71美元。每100萬個參數的價格上漲了18.6倍，因為參數數量增加了53.8倍。

我們的猜測是，在一個四節點CS-2集群上運行一個5000億參數的GPT模型需要大約一年的時間，而在一個16節點集群上，您可能一年就能處理2萬億個參數。或者，根據我們的估計，這將讓你從零開始訓練GPT 175B超過13次——每個月調用一次，并有備用的。這就是你花3000萬美元擁有自己的仙女座CS-2超級計算機的結果。但是，如果我們對AI模型工作室服務規模的定價和性能的估計是正確的，那么租用13次GPT 175B訓練可能會花費你1.42億美元。

因此，一些人會租用來訓練，然后當他們需要更多的訓練和更大的模型時，經濟狀況會迫使他們購買。查詢進一步信息，請訪問官方網站