中國初創企業深度求索(DeepSeek)在研發大模型時繞過了輝達的軟硬體整合技術「統一計算架構」(CUDA)這道AI技術護城河,這種用新的演算法高效利用硬體層面加速,能提高模型效果。據中國媒體《快科技》和《騰訊網》報導,只要有足夠擅長寫PTX(Parallel Thread Execution)語言的內部開發者,就能讓中國開發的AI模型更容易適配中國國產GPU晶片,這讓美國AI巨頭們感受到極大的威脅。
據中國媒體《快科技》報導,DeepSeek繞過了輝達的計算架構CUDA,北京航空航太大學黃雷副教授受訪表示,繞過CUDA意味著DeepSeek可以直接根據GPU的驅動函數做一些新的開發,從而實現更加細微性的操作。
黃雷指出,DeepSeek在多節點通信時繞過了CUDA,直接使用「平行線程執行代碼」(Parallel Thread Excution, PTX),其最多只能實現以演算法的方式來高效利用硬體層面的加速,一旦速度變得更快,這就意味著別人的模型要訓練10天,而DeepSeek只需要訓練5天,那麼就能給模型喂更多的資料,即能讓模型在同等時間內看到更多的資料,間接提高模型的效果。
因此,透過PTX雖然可以進行更多專門的最佳化調整,但缺點是很難維持穩定,需要人力大量除錯,因此也顯示出Deepseek工程師的設計功力。
報導說,Deepseek的出現,打破了矽谷巨頭在人工智慧競爭中的軍備競賽局面,AI 開發或許不一定非要追求最強晶片和龐大晶片數量,透過精細的程式設計也能讓低規設備跑出高效結果,這可能也是前日美國科技股市震盪的主要原因。 (相關報導: 王毅用「這4字」開嗆盧比歐 如何翻譯讓西方媒體傷透腦筋 | 更多文章 )
報導指出,DeepSeek擁有一些擅長寫PTX語言的內部開發者,假如它之後使用中國國產GPU,其在硬體適配方面將會更得心應手,其只要瞭解這些硬體驅動提供的一些基本函數介面,就可以仿照輝達GPU硬體的程式設計介面去寫相關的代碼,從而讓自家大模型更加容易適配國產硬體。