「做量化交易的公司,做起AI更加腳踏實地」中國AI專家看DeepSeek

(Powered by SD3.5 Large)

德國之聲:DeepSeek被不少人稱為「神秘的東方力量」。其原因之一在於性能比肩GPT-4o的DeepSeek-V3,據其自稱訓練成本不到GPT-4o的1/20。也有人質疑其真實成本是否更多?您認為用如此低的成本訓練出頂級的模型有可能嗎?

肖涵博士:我認為完全有可能。首先這並不包含試錯成本的,也就是「炮灰成本」。只計算這一次成功花了五百多萬。其次大模型本身的訓練技巧,隨著時間變化,發生了很多演進和升級。像OpenAI這種頂尖公司,發布一項產品需要打磨很久,成品出來可以從發布日期向前倒退3、4個月,而DeepSeek本身不需要做太多PR相關的宣傳,準備大概一個月左右,所以這兩個模型之間差了有小半年,在這個時間差裡,模型的發展是非常迅速的。不管從數學上還是深度學習上會出現很多新知識使得模型訓練更有效。而且就我所知,DeepSeek在2023年就開始做一些非常底層的技術優化,再加上整個開源社區,在過去兩三年之內,會有很多新的一些技巧,使得成本會降得非常低。

德國之聲:您剛才提到開源社區, DeepSeek便宜又好用,有人認為它的成功不僅是技術層面,更是對開源精神的徹底踐行,您認為就開源與閉源而言,開源會是未來趨勢所在嗎?

我覺得就AI模型而言,未來價格肯定是越來越便宜,這在未來會象是水電煤氣一樣,成為通用的基礎設施。好比我們現在不會在每個月為上網花多少錢糾結一樣。但便宜是有代價的。因為就很多新創公司而言,它無法支付這麼高的運營成本。DeepSee之前積攢了非常多的GPU,它現在把這部分算力一下釋放出來,肯定會對市場造成衝擊。而開源本身,和價格以及商業化之間是一個非常復雜的關係。有人非常討厭開源——比如早期的比爾蓋茲。他曾經非常討厭Linux,因為他覺得Linux開源免費,沒有人願意用Windows了。所以這兩天我們看到Altman(OpenAI CEO)和Amodei(Anthropic CEO)反應非常激烈,因為覺得DeepSeek這種低價策略加上開源,導致他們的客戶流失非常嚴重。 (相關報導: 「川普2.0」全球貿易戰揭開序幕!美國正式對中國、加拿大、墨西哥開徵關稅,歐盟剉咧等 更多文章

德國之聲:所以主要還是商業利益上的衝突,從DeepSeek來說,這可能是個很好的戰略?

從DeepSeek角度來說,把模型開源確實是一個非常好的戰略,但得看它之後是不是堅持開源,如果堅持開源就是戰略,假如只開源這一次,就是一個戰術。為什麼說是很好的戰略呢?因為西方對中國模型本身並不放心,他覺得模型內部訓練時就有了價值觀偏見。因為生成類AI的輸出風格和他的訓練樣本非常相關。大家都知道中國互聯網基本處於一個封閉狀態,西方人會對「模型自帶的意識形態」產生害怕心理。而選擇開源的話,就相當你把我模型的數據(不是訓練模型的數據)下載下來放到自己的GPU上去跑,包括我們今天看到Amazon和輝達的雲伺服器都支持了DeepSeek模型,就是因為它選擇開源模式。部署到本機內部,西方也無所謂什麼顧慮,不管什麼價值觀輸出,至少不存在信息傳回中國政府這種。