Groq 是一家技術公司,由 Jonathan Ross 在 2016 年創立。颠覆达Ross 曾是英伟 Google 第一個張量處理單元(TPU)的創造者,他的成本創立理念源於一個觀點:芯片設計應從軟件定義網絡(SDN)中吸取靈感。
2024 年 2 月 13 日,Groq 在 ArtificialAnalysis.ai 最新的黑马 LLM 基準測試中明顯獲勝,Groq 在延遲與吞吐量等關鍵性能指標上擊敗了八名參與者,颠覆达 Groq 處理吞吐量達到其他推理服務的英伟 4 倍,同時收費還不到 Mistral 自己的成本 1/3。
ArtificialAnalysis.ai 聯合創始人 M icah Hill-Smith 表示, Groq 代表了可用速度的黑马 一步變化,為 LLM 提供了新的颠覆达用例。
Groq 創始人&CEO Jonathan Ross 表示,英伟Groq 的成本存在是為了消除“貧富差距”,並幫助 AI 社區中的解读每個人蓬勃發展。此外,他還表示,推理對於實現這一目標至關重要,因為速度是將開發人員的想法轉化為業務解決方案和改變生活的應用程序的關鍵。
PS:關於 LLM,有新 Newin近期同步分享了 以及 歡迎訂閱。
關於 Groq 的核心團隊、合作夥伴以及投資方如下:
核心團隊
合作夥伴
投資方
Groq 最新一輪 3 億美元 C 輪融資追溯至 2021 年 4 月,而不是 ChatGPT 發布後的一年多,這一輪投資者包括老虎、D1 以及 Alumni Ventures。
關於 AI 早期市場融資,有新 Newin近期同步分享了歡迎訂閱。
關於 Groq 的 LPU
Groq 創新的核心在於其 LPU,旨在以前所未有的速度加速 AI 模型,包括 ChatGPT 等語言模型。
LPU 推理引擎(LPU 代表語言處理單元™)是一種新型的端到端處理單元係統,可為 具有順序組件的計算密集型應用程序提供最快的推理,例如 AI 語言應用程序 (LLM) )。
LPU 旨在克服 LLM 的兩個瓶頸:計算密度和內存帶寬。就 LLM 而言,LPU 比 GPU 和 CPU 具有更大的計算能力。這減少了每個單詞的計算時間,從而可以更快地生成文本序列。此外,消除外部內存瓶頸使 LPU 推理引擎能夠在 LLM 上提供比 GPU 好幾個數量級的性能。
與利用高帶寬內存 (HBM) 的 GPU 不同,Groq 的 LPU 利用 SRAM 進行數據處理,從而顯著降低能耗並提高效率。GroqChip 的獨特架構與其時間指令集相結合,可實現自然語言和其他順序數據的理想順序處理。
根據 Groq,開發者使用起來的最快方法如下:
GroqCloud: 請求 API 訪問權限 以在基於令牌的定價模型中運行 LLM 應用程序
Groq 編譯器:編譯當前應用程序以查看詳細的性能、延遲和功耗指標。通過我們的客戶門戶請求訪問權限。
此外,開發者也可向 Groq 直接購買硬件。根據合作夥伴 Bittware 介紹,GroqChip 獨立芯片是一款從頭開始的可擴展處理器,以加速AI、ML和HPC工作負載,該架構比GPU簡單得多,而且是以軟件為先的設計,使其更容易編程,並以較低的延遲提供可預測的性能。
在軟件定義網絡中,通用硬件配合軟件層來處理路由的複雜性,避免了使用專門的硬件。 這一理念也體現在 Groq 的技術和其論文《用於大規模機器學習的軟件定義張量流多處理器》中。
Groq 采用了一種從編譯器開始的方法,編譯器將代碼轉換為芯片能理解的機器語言。 其目標是將機器學習算法簡化,使之能在極其簡單的處理器上運行,同時運行速度快且不會引發現代處理器中常見的昂貴內存調用和預測失誤。
Groq 的芯片區別於傳統使用高帶寬內存(HBM)或動態隨機存取內存(DRAM)的設計。這些內存類型需要定期刷新,引入了延遲和數據位置的不確定性。
相反,Groq 使用靜態隨機存取存儲器(SRAM),這種存儲方式在雙穩態鎖存電路中穩定存儲數據,避免了DRAM 和 HBM 所依賴的晶體管/電容器結構,這一設計使得 Groq 能夠準確知道任何特定時刻數據的位置,允許其編譯器預先定義內存調用,通過相對簡單的架構實現快速計算。
Groq 的技術在運行基於 Transformer 的模型(如 GPT-4)上表現出色,因為這類計算具有高度確定性。Groq 的係統特別適合序列操作,如基於 Token 的生成,每個新 Token 的生成依賴於前一個,這樣的串行操作使得計算速度成為優勢。
Groq 的創新不僅提高了計算效率,還可能改變與 AI 的互動方式。如其創始人所言,隨著 AI 變得越來越類似於人類,與之交互的微小不便會變得更加明顯和限製性。Groq 提供了一種通過高效、確定性的計算來保持交互幻覺的方法,這在實時交互和可能的實時視頻生成方麵開辟了新的可能性。
Groq 的芯片采用完全確定性的 VLIW(非常長指令字)架構,沒有緩衝區,並且在 Global Foundries 的 14nm 工藝節點上達到了約 725mm^2 的芯片尺寸。它沒有外部內存,並且在處理過程中將權重、KVCache 和激活等全部保留在芯片上。因為每個芯片隻有 230 MB 的 SRAM,實際上沒有有用的模型能夠完全適應單個芯片。相反,它們必須使用許多芯片來適應模型,並將它們網絡化連接起來。
關於 Groq 的性能與成本
Groq 在單個序列上擁有真正驚人的性能優勢。這可能使得如思維鏈這樣的技術在現實世界中更加可用。此外,隨著 AI 係統變得自主,LLMs 的輸出速度需要更高,以適應如代理程序之類的應用。
同樣,代碼生成也需要顯著降低個 token 輸出延遲。實時 Sora 風格模型可能是娛樂領域的一個驚人途徑。如果延遲過高,這些服務甚至可能對最終市場客戶來說既不可行也不可用。
這導致了關於 Groq 的硬件和推理服務將為AI行業帶來革命性影響的巨大炒作。雖然對於某些市場和應用來說,它確實是一個遊戲規則改變者,但速度隻是方程的一部分。供應鏈多元化是另一個對 Groq 有利的因素。他們的芯片完全在美國製造和封裝。
相比之下, Nvidia 、Google、AMD 和其他 AI 芯片需要從韓國進口內存,以及從台灣進口芯片/先進封裝。
這些對 Groq 來說都是正麵因素,但評估硬件是否具有革命性的主要公式是性能/總擁有成本。這是穀歌深刻理解的東西。
AI 時代的黎明已經到來,至關重要的是要理解,由AI驅動的軟件的成本結構與傳統軟件大相徑庭。芯片微架構和係統架構在開發和可擴展性這些創新新形式的軟件中扮演著至關重要的角色。
AI 軟件運行的硬件 Infra 對 Capex(資本性支出)和Opex(運營性支出)以及隨後的毛利潤有著明顯更大的影響,與之前開發者成本相對較大的軟件世代相比,這種影響更為顯著。
因此,將相當大的注意力投入到優化你的 AI Infra 上,以能夠部署 AI 軟件,變得更加關鍵。在 Infra 上具有優勢的公司,也將在部署和擴展 AI App 方麵具有優勢。
對於開發人員和 IT 團隊來說,Groq 的 LPU 和軟件架構帶來了三個主要優勢:
快速洞察: Groq 產品的高性能和低延遲可幫助數據科學家更快地構建和迭代機器學習模型。
更快的生產時間:Groq 的編譯器和軟件環境簡化了部署,從而可以更快地進行實驗。與生產模型交互的能力加快了開發周期。
麵向未來的基礎設施:Groq 的軟件定義架構、先進網絡和可擴展平台為 AI 增長提供了經濟高效的基礎。隨著需求的變化,開發人員可以避免鎖定或瓶頸。
創始人 Ross 還表示,Groq LPU 推理引擎已經證明,它比 GPU 更好、更快、更實惠,可用於通用 AI 語言推理。
在 Mixtral 模型的情況下, Groq 不得不連接 8 個機架,每個機架有 9 台服務器,每台服務器有 8 個芯片。這總共 576 個芯片組成了推理單元,用以服務 Mixtral 模型。相比之下, Nvidia 的單個 H100 就能在低批量大小下適配模型,並且兩個芯片就有足夠的內存支持大批量大小。
Groq 芯片的晶圓成本可能低於每晶圓 6000 美元。與此相比, Nvidia 的 H100 在 TSMC 的 5nm 定製變體 4N 上的芯片尺寸為 814mm^2,這些晶圓的成本接近每晶圓 16000 美元。另一方麵, Groq 的架構對於實施產量收割似乎不那麽可行,相比之下, Nvidia 由於在大多數 H100 SKU 中禁用了約 15% 的芯片麵積,擁有極高的參數產量。
此外, Nvidia 為每顆 H100 芯片從 SK Hynix 購買 80 GB 的 HBM,成本約為 1150 美元。Nvidia 還必須支付TSMC 的 CoWoS 成本並承擔產量損失,而 Groq 沒有任何芯片外內存。
Groq 的芯片原材料成本明顯更低。Groq 還是一家初創公司,因此它們對芯片的低批量/相對固定成本較高,這包括必須支付 Marvell 一大筆定製 ASIC 服務的利潤。
這張表格展示了三種部署,表格中展示了 Groq 輸出每個 token 的矽材料成本方麵相對於 Nvidia 係統有一個芯片架構上的優勢。
8xA100 可以服務 Mixtral 並實現每用戶約 220 個 token 每秒的吞吐量,而 8xH100 可以在沒有推測性解碼的情況下達到每用戶約 280個 token 每秒。
通過推測性解碼,8xH100 推理單元可以實現接近每用戶 420 個 token 每秒的吞吐量。雖然吞吐量可能超過這個數字,但在 MoE(專家混合)模型上實施推測性解碼是具有挑戰性的。
由於經濟性非常差,目前還不存在以延遲優化的 API 服務。API 提供商目前看不到為更低的延遲收取 10 倍以上費用的市場。一旦代理和其他極低延遲任務變得更受歡迎,基於 GPU 的 API 提供商可能會啟動延遲優化的 API ,與他們當前的吞吐量優化的 API 並行。
一旦 Groq 下周實施他們的批處理係統,即使是采用推測性解碼的延遲優化 Nvidia 係統在吞吐量和成本上也遠遠落後於沒有推測性解碼的 Groq 。
此外, Groq 使用的是較舊的 14nm 工藝技術,並向 Marvell 支付了可觀的芯片利潤。如果 Groq 獲得更多資金並且能夠提升他們下一代 4nm 芯片的生產,預計在 2025 年下半年推出,經濟情況可能開始發生顯著變化。值得注意的是, Nvidia 遠非坐以待斃,我們認為他們將在不到一個月的時間內宣布他們的下一代 B100。
在吞吐量優化係統中,經濟情況顯著改變。Nvidia 係統在BOM基礎上每美元性能獲得一個數量級的提升,但每用戶吞吐量較低。對於吞吐量優化場景, Groq 在架構上完全不具備競爭力。
此外,創始人 Ross 還強調了 Groq 在美國製造的承諾,並指出 Groq 的芯片由 Global Foundries 在美國製造。在加拿大封裝,並在加利福尼亞州組裝,在地緣政治壓力下的技術供應鏈中,擁有國內產能具有戰略優勢。對於國防和受監管行業,本地製造還可以簡化合規性。
“Tokenomics”(代幣經濟學)看起來非常不同。Nvidia 的 GPU 基板擁有巨大的毛利潤。此外,對服務器收取的 350,000 美元價格,遠高於超大規模計算提供商的 H100 服務器成本,還包括了顯著的內存成本、8 個 InfiniBand NICs 的總帶寬為 3.2 Tbps 以及在 Nvidia 利潤之上疊加的不錯的 OEM 利潤。
對於 Groq ,正在估算係統成本,並考慮到芯片、封裝、網絡、 CPU 、內存的細節,同時假設較低的整體 ODM 利潤。沒有包括 Groq 銷售硬件所收取的利潤,但這也是 Groq 的成本與推理 API 提供商的成本的公平比較,因為兩者都在提供相同的產品/模型。
值得注意的是,8 個 Nvidia GPU 隻需要 2 個 CPU ,但 Groq 的 576 芯片係統目前有 144 個 CPU 和 144 TB 的 RAM。
Reference:
https://groq.com/
https://wow.groq.com/news_press/groq-lpu-inference-engine-leads-in-first-independent-llm-benchmark/
https://dzone.com/articles/ai-real-how-groq-simplifies-machine-learning
On the business, strategy, and impact of technology. Sora, Groq, and Virtual Reality,Stratechery;
Groq Inference Tokenomics,Semianalysis;
P S:來自 Meta Llama、OpenAI、Nvidia 以及 Mistral 的 AI 研究專家以及初創公司創始人 & CXO 們也將在 5 月 29 日~ 31 日,參加由 GPTDao 主辦,位於舊金山的 “GenAI Summit 2024” 峰會,作為本次活動的合作夥伴,有新Newin為本號讀者爭取了早鳥福利:
GenAI Summit 2024 將在 Palace of Fine Arts 舉行,場地規模超 200,000 平方英尺的沉浸式體驗,包括 300+ AI 展商、300+ VC投資人、200+ 行業專家,以及來自 30,000+ 的參會者。
本次活動嘉賓陣容強大,不限於矽穀大廠科學家,還有知名 AI 初創公司創始人&CXO:
OpenAI 將在峰會上有核心展區,你將有機會近距離握手 OpenAI 明星團隊。 此外,峰會上 有很多講中文的華裔嘉賓,以及名校同學做誌願者和翻譯,能夠深入 和長期溝通,不同與以往老外峰會中 走馬觀花的體驗。
此外,VIP 還將有機會與頂尖科學家、投資人麵對麵交流,給馬斯克直接匯報工作的年輕大牛嘉賓 Dr Wu 也將在峰會上首次對外亮相,微軟冠名很快要官宣,票價很快要上漲了。有新Newin聯合主辦方GPTDAO為大家爭取到早鳥優惠:
三日早鳥價 $399
下方掃碼並輸入專屬優惠碼NEWIN50減 $50 使用:
單日早鳥價 $149(任一天)
下方掃碼並輸入專屬優惠碼NEWIN20減 $20 使用:
大展台(3mx3m)早鳥價 $9999
小展台(2mx2m)早鳥價 $6999
Newin 行業交流群
最新資訊
創業手冊
出海活動
& &