華爾街日報》這兩個加大伯克利分校博士生寫的AI排名網站，為何成為全球矚目的焦點？

唱片公司有《告示牌》百大單曲榜（Billboard Hot 100）。大學橄欖球有季後賽排名。人工智慧（AI）則有由兩名研究生營運的網站Chatbot Arena。

彼此是室友的阿納斯塔西奧斯·安傑洛普洛斯（Anastasios Angelopoulos）和Wei-Lin Chiang從未想過，他們去年開發的這個研究生計畫會迅速成為最受關注的全球最佳AI系統排名。

本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱：風傳媒・華爾街日報VVIP，獨享全球最低優惠價，暢讀中英日文全版本之華爾街日報，洞悉國際政經最前沿。

一直以來，對AI技術的評估是通過高等數學、科學和法律測試進行的。Chatbot Arena讓用戶提出一個問題，從兩個匿名AI模型中獲得答案，並對哪個模型更好進行評分。

這些評分會被匯總到一個排行榜上，OpenAI、Google和Meta Platforms等矽谷巨頭與來自中國和歐洲的不太知名的新創公司在這個排行榜上爭奪霸主地位。

「每個公司都在努力成為這個排行榜上的佼佼者，」Meta Platforms的AI產品管理總監約瑟夫·斯皮薩克（Joseph Spisak）說。「幾個學生聚在一起就能產生如此大的影響力，這真是太棒了。」

Chatbot Arena開始走紅的背景是，科技公司投入數以十億美元計的資金，押注AI將是未來幾十年的決定性技術。任何被認為在競爭中取得的明顯優勢都可能在吸引客戶和人才方面產生巨大影響，這就是眾多科技高管和工程師像華爾街交易員關注市場一樣密切關注Chatbot Arena的原因。

加州大學伯克利分校（University of California, Berkeley）的研究人員於2023年4月推出了Chatbot Arena，旨在使用類似於專業國際象棋排名系統的評分系統，將他們開發的AI技術與其他開源聊天機器人進行比較。短短一周內，該網站就收到了4,700張投票。

Chatbot Arena項目團隊的成員由本科生和博士生組成，他們在加州大學伯克利分校Soda Hall的實驗室空間裡開完團隊會議後交談。圖片來源：LAURA MORTON FOR WSJ

該項目很快引起了大型AI公司的注意，這些公司開始要求Chatbot Arena的負責人將他們的技術納入排名。OpenAI一度躍居排行榜榜首，但在去年3月被競爭對手Anthropic趕超。

Chatbot Arena最初推出時只有九個AI模型，現在已經發展到對170多個模型進行排名，共獲得了200萬張投票。該網站已擴展到包括創意寫作、編寫程式和指令遵循等類別的單獨排名。

安傑洛普洛斯和Chiang仍在努力完成他們的電腦科學博士學位。不過，進展很慢，因為營運這個排行榜佔用了他們大部分時間，而且他們沒有報酬。

「我的女朋友整天整夜都在聽我談論Chatbot Arena，」安傑洛普洛斯說。

憑感覺打分

研究人員表示，隨著時間的推移，學術基準已經變得不那麼有用了，因為基準測試中的問題已經被納入支撐AI應用的大型語言模型（LLM），這實際上相當於讓模型提前知道了答案。（相關報導：華爾街日報》川普啟動「休克療法」，美國多個政府部門運轉停滯｜更多文章）

Google和OpenAI聲稱，它們在四年前發布的一個名為大規模多任務語言理解測評（Measuring Massive Multitask Language Understanding）的常用基準測試中，得分均高於90%。該測試的創建者之一丹·亨德里克斯（Dan Hendrycks）最近開始為一個最難新基準測試徵集問題，他將其命名為「人類終極考試」（Humanity’s Last Exam）。

Abacus.AI的研究主管科林·懷特（Colin White）表示：「一個基準測試在首次發布時可能對大型語言模型來說非常具有挑戰性，但下一代大型語言模型出現後，它們就能達到近乎完美的表現。」Abacus.AI開發了名為LiveBench的基準測試，每月發布新問題。

雖然Chatbot Arena的正面交鋒形式不能像考試那樣取得好成績，但它並不總是衡量客觀標準，也不衡量聊天機器人是否堅持已核實的事實。這就是為什麼一些研究人員將這種方法稱為「基於感覺的評估」。

Chatbot Arena的負責人表示，他們對該網站的局限性一直保持透明。他們允許訪問者從排名中剔除基於風格的變量，比如回覆長度和格式。

「人類的偏好是一個關鍵信號，」安傑洛普洛斯說。「這些問題有主觀性。」

神秘的AI模型

安傑洛普洛斯和Chiang已經為該項目招募了十幾名其他貢獻者，他們希望該項目能夠發展成為類似於AI維基百科的東西。他們表示，不考慮將其作為一項營利性項目。

安傑洛普洛斯說：「好的方面是，有多種可能性。」

隨著Chatbot Arena的發展，AI愛好者一直在仔細研究新進入者，希望能識別出尚未向公眾發布的技術。去年5月在Chatbot Arena上發布的一個名為im-also-a-good-gpt2-chatbot的神秘模型，結果就是GPT-4o。GPT-4o目前為ChatGPT提供支持。

據Chatbot Arena稱，Meta、Google和伊隆·馬斯克（Elon Musk）的xAI也曾在該網站上測試過技術，然後才向更廣泛的公眾發布。

Chiang表示：「我們每天都會收到公司的請求。」

去年10月，一家名為01.AI的中國公司的AI模型突然出現在這個排行榜的第六位，這引起了人們對中國在該領域所取得進展的關注。01.AI的執行長、前Google高管李開復在X上發帖宣傳了這一成就，指出該模型已經超過OpenAI發布的原始GPT-4o技術。

Justin Wong在Chatbot Arena實驗室空間裡把一個想法寫到白板上。圖片來源：LAURA MORTON FOR WSJ

Chatbot Arena收集的用戶反饋已成為開發者寶貴的數據來源。安傑洛普洛斯和Chiang表示，該網站會定期發布其收集數據的20%，這些數據足以發揮作用，同時又不會讓企業有可能操縱該系統。

GoogleAI產品經理凱特·奧爾謝夫斯卡（Kate Olszewska）表示，Google利用這些數據來尋找精通技術的用戶如何與聊天機器人互動方面的模式。

這家搜尋巨頭將其Gemini技術的實驗版本列入Chatbot Arena後，去年11月與OpenAI在該網站排名並列第一。幾天后，OpenAI憑藉更新後的GPT-4o版本超越了Google，但Google很快又憑藉另一個模型發布趕了上來。（相關報導：華爾街日報》川普啟動「休克療法」，美國多個政府部門運轉停滯｜更多文章）

負責監督Gemini開發的Google高管奧里奧爾·維尼亞爾斯（Oriol Vinyals）在X平台上發帖宣傳了這一消息，帖子中提到了排行榜結果，並配上了三個爆米花表情符號。