唱片公司有《告示牌》百大單曲榜(Billboard Hot 100)。大學橄欖球有季後賽排名。人工智慧(AI)則有由兩名研究生營運的網站Chatbot Arena。
彼此是室友的阿納斯塔西奧斯·安傑洛普洛斯(Anastasios Angelopoulos)和Wei-Lin Chiang從未想過,他們去年開發的這個研究生計畫會迅速成為最受關注的全球最佳AI系統排名。
本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱:風傳媒・華爾街日報VVIP,獨享全球最低優惠價,暢讀中英日文全版本之華爾街日報,洞悉國際政經最前沿。
一直以來,對AI技術的評估是通過高等數學、科學和法律測試進行的。Chatbot Arena讓用戶提出一個問題,從兩個匿名AI模型中獲得答案,並對哪個模型更好進行評分。
這些評分會被匯總到一個排行榜上,OpenAI、Google和Meta Platforms等矽谷巨頭與來自中國和歐洲的不太知名的新創公司在這個排行榜上爭奪霸主地位。
「每個公司都在努力成為這個排行榜上的佼佼者,」Meta Platforms的AI產品管理總監約瑟夫·斯皮薩克(Joseph Spisak)說。「幾個學生聚在一起就能產生如此大的影響力,這真是太棒了。」
Chatbot Arena開始走紅的背景是,科技公司投入數以十億美元計的資金,押注AI將是未來幾十年的決定性技術。任何被認為在競爭中取得的明顯優勢都可能在吸引客戶和人才方面產生巨大影響,這就是眾多科技高管和工程師像華爾街交易員關注市場一樣密切關注Chatbot Arena的原因。
加州大學伯克利分校(University of California, Berkeley)的研究人員於2023年4月推出了Chatbot Arena,旨在使用類似於專業國際象棋排名系統的評分系統,將他們開發的AI技術與其他開源聊天機器人進行比較。短短一周內,該網站就收到了4,700張投票。

該項目很快引起了大型AI公司的注意,這些公司開始要求Chatbot Arena的負責人將他們的技術納入排名。OpenAI一度躍居排行榜榜首,但在去年3月被競爭對手Anthropic趕超。
Chatbot Arena最初推出時只有九個AI模型,現在已經發展到對170多個模型進行排名,共獲得了200萬張投票。該網站已擴展到包括創意寫作、編寫程式和指令遵循等類別的單獨排名。
安傑洛普洛斯和Chiang仍在努力完成他們的電腦科學博士學位。不過,進展很慢,因為營運這個排行榜佔用了他們大部分時間,而且他們沒有報酬。
「我的女朋友整天整夜都在聽我談論Chatbot Arena,」安傑洛普洛斯說。
憑感覺打分
研究人員表示,隨著時間的推移,學術基準已經變得不那麼有用了,因為基準測試中的問題已經被納入支撐AI應用的大型語言模型(LLM),這實際上相當於讓模型提前知道了答案。 (相關報導: 華爾街日報》川普啟動「休克療法」,美國多個政府部門運轉停滯 | 更多文章 )
Google和OpenAI聲稱,它們在四年前發布的一個名為大規模多任務語言理解測評(Measuring Massive Multitask Language Understanding)的常用基準測試中,得分均高於90%。該測試的創建者之一丹·亨德里克斯(Dan Hendrycks)最近開始為一個最難新基準測試徵集問題,他將其命名為「人類終極考試」(Humanity’s Last Exam)。