中國新創 DeepSeek 模型成本引發熱議,並且造成股市震盪。研究機構 SemiAnalysis 今天報告指出,至今硬體繪圖處理器(GPU)支出遠超過 5 億美元(約新台幣 160 億元)。
SemiAnalysis指中國對沖基金幻方量化(High-Flyer)2023年5月成立「深度求索」(DeepSeek)以推動AI研發,之前幻方量化2021年,也就是任何出口管制生效前,投資買了一萬顆輝達(Nvidia)A100 GPU。
故DeepSeek的GPU投資花費超過5億美元。
輝達根據法規要求,生產多款H100變化版如H800、H20。目前僅H20可銷售至中國。輝達過去九個月生產超過百萬顆專供中國市場的H20 GPU。報告分析,DeepSeek伺服器總資本支出(CapEx)約16億美元。
DeepSeek從中國本土招募人才,目前約有150名員工,急速擴張中。DeepSeek價格和效能這週因出現模型訓練成本低於600萬美元的說法引起討論。但報告強調預訓練成本僅佔總成本小部分,不代表完整支出。
DeepSeek論文提到的600萬美元成本指的是預訓練運行(pre-training run)的GPU成本,只占模型總成本部分,未計入的重要支出還包括研發(R&D)、硬體總擁有成本(Total Cost of Ownership)等關鍵因素。報告也提到DeepSeek獲大量算力資源與出口管制與時間滯後(lag)有關。
美國智庫蘭德公司(RAND)研究員海姆(Lennart Heim)近期分析,硬體出口管制有時間滯後,尚未完全發揮影響力。真正考驗將出現在資料中心需升級或擴展時,這對美國企業較容易,但對受出口管制的中國企業而言就是挑戰。
SemiAnalysis也評價,DeepSeek開放權重模型表現出色,超越Meta Llama、法國人工智慧新創Mistral AI及其他競爭者。
(作者:張欣瑜;首圖來源:DeepSeek)