Groq AI 主要提供基於其自研 LPU 晶片的人工智慧推論雲服務,旨在為開發者提供快速、低延遲的大型語言模型推論能力。
LPU 是專為 AI 推論設計的晶片,採用單核、大容量片上 SRAM 架構,旨在實現低延遲與高能效的資料處理,特別適合大型語言模型的符元生成階段。
開發者可以透過 GroqCloud 平台提供的 API 進行存取,該 API 設計為與 OpenAI API 兼容,也可透過其官方 Playground 控制台進行線上體驗。
其平臺支援多種主流開源大型語言模型,例如 Meta 的 Llama 系列、Mistral 的 Mixtral 模型以及 Google 的 Gemma 模型等。
特別適合需要實時、低延遲回應的 AI 應用場景,例如互動式對話機器人、智能助手、程式碼自動補全工具與邏輯推論任務。
目前其 GroqCloud 平台提供可透過 API 訪問的服務,並設有免費使用層級(通常附帶速率限制),具體的長期定價策略建議查閱其官方最新公告。
其 LPU 架構旨在實現微秒級穩定延遲與高符元生成速度,在特定的大型語言模型推論基準測試中,展現了較低的首詞延遲與較高的能效比。
免費版本可能不支援多模態、聯網搜尋或檔案上傳等功能。運行參數量極大的模型通常需要多晶片集群支援,這可能增加系統複雜性。