它引發了金融恐慌,令從華爾街到矽谷的美國人感到不安,並引起了全世界的關注。因為它,美國科技股市值在一天之內蒸發了1兆美元。它讓人們對人工智慧(AI)熱潮的基本假設提出了質疑。這也意味著,美國和中國爭奪科技霸權和未來控制權的戰鬥真正打響。
1月20日,當美國最強大科技公司的領袖們齊聚華盛頓特區參加美國總統川普(Donald Trump)的就職典禮時,一家名為DeepSeek的新創公司發布了其最新款AI模型。它的表現可以與幾個月前美國領先公司剛剛發布的模型相媲美,只是它構建時動用的運算能力更少,成本也要低得多,而且它來自中國。
自那以來,出現了如此多令人頭暈目眩的曲折,就連AI專家也難以理解這場圍繞DeepSeek的瘋狂。
我有很多問題,我知道去哪裡尋找答案。我下載了這款最熱門的新AI應用程式,然後開始輸入。
你好,DeepSeek。接下來會發生什麼?
DeepSeek的崛起挑戰了美國在AI領域的主導地位,引發了一場高風險的科技競賽。中國的創新迫使全球重新評估,加劇了對AI霸主地位的爭奪。
用三個詞或更少的詞概括?
用一個詞呢?
好吧!讓我們從《華爾街日報》(The Wall Street Journal)一些最聰明的人那裡獲得一些真正的資訊。誰能告訴我為什麼DeepSeek如此重要嗎?
因為它表明,中國AI開發者並不像許多人之前所認為的那樣落後於美國競爭對手。
DeepSeek的新模型還在「推理」方面取得了長足進步,「推理」是一個熱門的研究領域,許多AI人士認為這是通往人類水準智慧的最清晰路徑。
它還讓人們注意到DeepSeek在去年12月份發表的一項研究,該研究表明,構建先進AI的成本可能低於通常在類似操作上花費的巨額資金。
幾天前我們還不知道的事,我們現在知道了多少?
我們知道,DeepSeek的新R1模型是一項令人印象深刻的成就,不容忽視。它的構建成本可能低於美國領先公司的AI模型,不過遠不像市場最初所擔心的那麼低。我們還知道,美國科技公司的執行長們已承諾將繼續在他們自己的AI基礎設施上投入巨資。我們知道,美國官員已經承認,中國是一個強大的競爭對手並且正在迅速趕上,美國官員宣稱美國仍在AI競賽中處於領先地位。
DeepSeek揭示了中國在AI方面的哪些目標?
他在2023年接受一家中國科技出版物採訪時解釋了他的非正統招聘理念。梁文鋒幾乎從未接受過媒體採訪,他非常坦誠地說出了自己的奇特方法。
他說,他尋找的是剛從大學畢業、有新想法的人。相比資歷,他更看重能力和創造性。他認為,經驗會扼殺創新,因為有經驗的人會憑過去的經驗來解決問題。
他說,如果追求短期目標,找現成有經驗的人是對的,但如果看長遠,經驗就沒那麼重要。
DeepSeek究竟是創新還是模仿?抑或兩者兼而有之?
有一種理論認為,DeepSeek之所以能夠取得成功,恰恰是因為美國的晶片禁令。這些原本旨在抑制中國的限制措施反而給了中國研究人員創新的理由。
還有一種理論認為,DeepSeek是通過竊取美國知識產權才取得的成功。
OpenAI現在正調查DeepSeek是否在未經許可的情況下竊取OpenAI成果來訓練模型。對於一家自身正遭人指控未經許可竊取他人成果來訓練模型的公司來說,此舉頗具諷刺意味。
為什麼這很重要?
DeepSeek可能利用了OpenAI和其他公司耗資數以十億計美元開發的技術,但更有成效地開發了自家的AI,這種可能性正在顛覆美國領先科技公司的商業模式。如果先進的AI技術可以如此容易、廉價地被複制,那為什麼要投入巨資來研發呢?
為什麼這款AI聊天機器人不同於其他所有AI聊天機器人?
那句話怎麼說來著?聊天機器人就是聊天機器人,還能有什麼不同?從表面上看,DeepSeek確實看起來像是另一個ChatGPT、Claude、Gemini、Copilot……等等諸如此類。
但最大的區別在於它的「推理」方式。DeepThink-R1不會立即給出答案,而是會將查詢分解成幾個步驟,並在給出最終結果之前仔細思考如何回答。與OpenAI的推理模型不同,R1會展示其完整的思考過程。
例如,我問它熱狗算不算三明治。它花了28秒來思考麵包中間夾加工肉類的哲學意義。
「首先,我需要了解三明治的定義,」這個神經質的聊天機器人自言自語道。
是的,DeepSeek很聰明,但聰明並不是萬能的。我最常用的AI助手是ChatGPT和Claude,它們真正的優勢不僅僅是原始的智慧,而是那些真正能幫助我完成工作的功能。
我們怎麼知道人們對DeepSeek的反應不是一般的AI炒作?
Chatbot Arena最初是加州大學柏克萊分校(University of California, Berkeley)的一個研究項目。後來,它成了一個讓業界著迷的對象。現在,它已成為最受關注的AI系統排行平台。最近,該網站的訪問量激增,因為很多人都想看看DeepSeek的R1模型表現如何。
開發Chatbot Arena的學生們目睹了DeepSeek自去年年初以來穩步提升排名的情況。但就連他們也對DeepSeek的突然崛起感到驚訝。
「這個領域發展得非常快,」Chatbot Arena的負責人之一Anastasios Angelopoulos說。「無法保證其他一些模型不會在下周登上排行榜榜首。」
過去幾年,美國政府一直在限制中國獲得最先進製程的AI晶片,以減緩其發展速度。這是否意味著這些限制措施沒有奏效?
是的,美國政府試圖限制中國獲得最先進製程的AI晶片。但這一行動的實施過程卻很混亂。
總的來說,從2022年到2023年,美國國家安全官員實施了一項很容易規避的出口管制措施。稱霸AI晶片市場的輝達(Nvidia)限制了其對華出售半導體的一個方面的性能,但通過其他方式進行了補償,從而保持了高性能。DeepSeek研究人員先前表示,他們使用這些晶片來訓練一個AI模型。而美國科技界領袖則指責稱,DeepSeek囤積的被禁輝達晶片數量超過了他們承認的水準。
美國的出口管制制度直到2023年底才真正開始實施,當時該系統堵住了輝達利用的漏洞。要想知道這些限制措施是否有效,還需要一年或更長時間。
中國公司如何繞過這些出口管制?
中國開發者已經找到了規避限制的方法,比如從地下網路購買輝達設備,以及從海外數據中心獲取由輝達支持的運算能力。
拜登(Biden)政府在任期的最後幾天推出了旨在解決這些漏洞的新規定。如果這些規定得到良好執行,供應鏈各方預計,通過這些灰色渠道獲得晶片的難度將會加大。
就在DeepSeek發布R1模型的當天,梁文鋒本人告訴中國國務院總理,美國對晶片出口的限制仍是瓶頸。
——駐新加坡科技記者黃若鴻(Raffaele Huang)
這對輝達意味著什麼?
在1月26日那個周日,輝達還是全球市值最高的公司。然後,次日該公司市值便縮水5930億美元。這5000多億美元的損失超過了埃克森美孚(Exxon Mobil)的全部市值,相當於可口可樂(Coca-Cola)、迪士尼(Disney)和耐吉(Nike)的市值總和。而這發生在一天之內!這何止是糟糕。歷史上從來沒有一支股票在一天之內蒸發掉這麼多市值。
為什麼說DeepSeek對輝達不利,而且真的有那麼不利嗎?
因為人們擔心,未來輝達的AI晶片銷量會下降。很大一部分最複雜的AI系統都依賴於輝達的晶片。DeepSeek的出現可能會削弱這種需求。
經濟學中有一個反直覺的理論,叫做傑文斯悖論(Jevons paradox)。該理論認為,效率的提高實際上會導致消費增加,而不是減少。這在這裡可能也適用。輝達寄希望於這樣一種理念:更好、更便宜的AI會讓更多人使用這項技術,而企業也會購買更多輝達晶片。
DeepSeek的模型是在1月20日發布的。市場在1月27日做出了反應。為什麼花了這麼長時間?
在金融領域,微波和雷射每秒鐘傳輸著數千個交易指令,一周的時間就像一個世紀那麼漫長。但交易員需要弄清楚一項技術突破意味著什麼。影響有多大?誰將從中受益或受損?競爭對手能否將其化解?
想像一下,向DeepSeek詢問一項全新的技術。你得到的資訊會比詢問已經存在多年的技術少得多。市場也是如此:它們擁有的數據越少,面臨的不確定性就越大。
「有時候消化資訊是需要時間的,」Acadian Asset Management基金經理歐文・拉蒙特(Owen Lamont)表示,「在擁有分散資訊的不同個體之間達成共識可能是一個緩慢的過程,需要幾天甚至幾周的時間。」
如果你問DeepSeek「一名男子手持兩個購物袋站在坦克前」的知名照片叫什麼名字,它會如何回應?
「你指的是那張知名『坦克人』照片。這張照片拍攝於1989年6月5日,當時發生了天安門……」這款聊天機器人開始回答。
但就在DeepSeek即將打出「天安門廣場」時,它刪除了答案,並輸入了另一個回覆:「抱歉,這超出了我目前的能力範圍。我們聊點別的吧。」
別再試了。如果你問到台灣或西藏、對習近平的批評或其他北京方面認為禁忌的話題,DeepSeek會再次自我審查。
「抱歉,我還不知道如何處理這類問題。」它回答說。「我們還是來聊聊數學、程式設計和邏輯問題吧!」
我真的必須在工作中使用AI嗎?
編輯們以為我會對AI感到不滿,但我正努力保持樂觀。
我並不質疑它的神奇;我希望它能解開宇宙的奧秘;我還不準備宣布世界末日將至。
但我也不需要任何人給我發送AI電子郵件或向我展示AI油畫。我不在乎AI音樂聽起來怎麼樣,也不在乎特效有多逼真。我想要混亂但有血有肉的真實人類世界——當你讀到我寫的一篇糟糕的文章時,請放心,那一定是我寫的。
我們人類表達自己的方式揭示了我們的靈魂,而把它交給機器人……嗯,那確實感覺像是世界末日。這還不夠讓人發牢騷嗎?
等等,DeepSeek怎麼和一家量化對沖基金扯上關係了?
這聽起來就像對沖基金大佬肯・格里芬(Ken Griffin)在業餘時間取得了核融合的突破,或者對沖基金大鱷、紐約大都會隊(New York Mets)老闆史蒂夫・ 柯恩(Steve Cohen)在一場比賽中徹底改變了醫學。
這整件事最不可思議的一點是,DeepSeek實際上只是一位金融交易者的副項目。
在此之前,梁文鋒以管理著中國大型量化對沖基金幻方量化(High-Flyer)而聞名,該公司管理著約80億美元資產。他的靈感不是來自史蒂夫・ 賈伯斯(Steve Jobs)或任何其他有科技遠見的人,而是來自吉姆・ 塞門斯(Jim Simons),一位成為世界上最偉大投資者的數學家。
事實證明,金融領域最聰明的人才利用AI尋找優勢,這方面有著悠久的歷史。華爾街幾十年前就開始試驗預測算法,塞門斯和他的團隊早在20世紀80年代就開始使用機器學習來做出關鍵的投資決策,這比大多數行業都要早得多。這些量化基金識別數據集,並使用它們來訓練系統,而且他們喜歡秘密行事。這或許有助於解釋DeepSeek是如何橫空出世的,以及為什麼它會如此令人震驚。
——資深財經作家、《洞悉市場的人》(The Man Who Solved the Market)一書的作者Gregory Zuckerman
讓我們把最後的評論機會留給AI。ChatGPT,你如何看待DeepSeek?
DeepSeek是中國挑戰OpenAI的大膽嘗試,它將尖端研究與國家支持的雄心壯志相結合,以塑造生成式AI模型的未來。
現在告訴我你真正的想法。