台灣需要建立自己的主權AI嗎?輝達(nVIdia)創辦人黃仁勳登高一呼以後,國家加入競逐AI的發展情況成為全世界關注焦點。近兩年人工智慧技術大幅進步,以生成式AI為主軸,發展出各項顛覆性的產品,投資大型語言模型(LLM)及各項硬體也呈現前所未有的浪潮,全球產業掀起爭奪技術人才、算力的競賽;台商已展現優異的硬體設計、研發與製造能力,接下來的主權AI競賽,台灣該不該加入戰局?如何確立自身優勢地位?
什麼是大型語言模型?AI用國外開源模型還不夠嗎?
大型語言模型(LLM)是一種深度學習演算法。不同於過往指令型AI,只能用既定規則產生一種或多種答案,大型語言模型可識別不同規則,藉此生成多樣化的文本或其他內容。大型語言模型須使用巨量資料集訓練,藉由工程師微調,讓LLM吸收資料後,擴增知識能力,以符合用戶在特定情境下提出的不同需求。
例如在7月下旬,Meta公開其新的LLM模型Llama 3.1 -405b,這個模型耗費3,100萬機器小時訓練,以多達4,050億個參數的資料量,使用16,000顆輝達H100的GPU訓練。Meta執行長祖克柏(Mark Zuckerberg)認為,Llama 3.1將使開源AI成為新的行業標準,最終將成為產業轉捩點,所有的開發人員都會優先使用開源的AI模型。
這反映了祖克柏的野心,他想創造一個以Meta AI為基底的AI產業生態系,所有的AI應用都從Llama模型微調、延伸而成。在台灣,大部分號稱研發出自有AI的企業,都會使用如Llama系列的開源AI模型,再根據企業需求微調。但這麼做,可能會出問題。
直接採用國外的開源AI,有什麼風險?
首先,台灣的官方語言是繁體中文,在國際上屬於規模較小的語言,在Meta所使用的訓練資料量自然相對少,不免參雜許多簡體轉繁體的資料,並未經過在地化校正。我們使用的資料不只有語言是繁體中文,而是在文化、風俗、用語等方面要「接地氣」,才能符合台灣企業、教育等應用需求,因此使用歐美訓練完畢的AI模型,反而增加企業導入AI時的困難,提高其應用門檻。
參與Taiwan LLM開發研究的台大資工系博士生林彥廷,分享在Taiwan LLM使用不同資料進行訓練時的結果:當使用開放性的線上繁體中文語料進行訓練時,模型表現出偏好中國大陸的政治傾向;之後完全使用經驗證的台灣資料進行訓練,這樣的政治傾向才消失。
現狀是,全球各主要國家都正在積極研發屬於自己國家的人工智慧模型,以確保技術研發的自主性。輝達公司執行長黃仁勳更呼籲,各國都應投資發展自身的AI能力並稱之為「主權AI」,因為「數據資料就如同自然資源一樣寶貴,應將其轉化為AI實力。」
(相關報導:
AI加持!華碩伺服器5年成長5倍目標 今年可望提前達陣
|
更多文章
)
台灣人工智慧學校校務長蔡明順說明,大型語言模型(LLM)就是人類社會文化的一種映射(Mirror),必須與一個國家的文化、體制、品格、價值判斷對齊,否則會發生知識或是道德倫理的錯亂。他認為,運用本土材料建立與維護自身的LLM,確有其必要性。
台灣如何建立自己的人工智慧?我們有必要從零開始?
雖然建立主權AI的好處顯而易見,但台灣要實現這項目標,仍有好幾道障礙須克服。
首先,需要大量資源才能建造一套大型語言模型。論硬體,基礎建設方面就需要資料中心級的GPU,以支援AI的高速運算需求;論軟體,背後所需人力則是訓練模型的高端技術人才,至於所需數據量則是讓人工智慧「更聰明」的知識、材料。
「全民懂CoWoS」的科技之島,算力夠用嗎?
建構大型語言模型時,最重要的硬體設備就是具備高速運算能力的處理器和資料存放的伺服器。以Llama 3.1為例,它使用1.6萬片輝達H100 GPU進行訓練,使其性能可與OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet匹敵。
論硬體,台灣是世界首屈一指的半導體企業重鎮,完整的產業鏈讓我們推動AI研發時應可取得所需的硬體。甚至據記者採訪所知,許多企業早已預先「囤貨」買好大量GPU,生怕以後買不到。因此林彥廷認為,台灣並不缺乏算力,而是「效益評估」。
「我就覺得很奇怪,如果先花這麼多錢,有沒有考量到,之後可能蒐集不到足夠的資料來進行訓練?」林彥廷指出,當初中研院「TAIDE」自製AI計劃合計購置72張H100晶片,然而僅僅一個下午的時間,手上所有資料就被AI消化完畢。
林彥廷說明,資料量規模是決定要訓練多少算力的基礎,有一套公式可精準估算,藉此計算訓練成本。然而,企業現階段往往只知道指名要輝達GPU,卻沒有足夠資料滿足算力,以為買了GPU就等於導入AI,普遍不了解成本效益之下,往往無法發揮最佳效果。他舉例,如果企業只有在內部完善知識管理、加快內部流程效率等需求,根本不必自建硬體設施,向外租賃一些設備就很足夠了。
資料量不夠AI讀?
想發展一套強大的生成式AI模型,就必須提供高品質且多樣化的資料。所謂「多樣化」,指的是包括教科書、文獻、法律文件,甚至社交媒體上的對話紀錄。然而,台灣目前的法律架構仍追不上科技腳步,缺乏明確AI開發的資料使用指引,AI進展要符合法令規範自然困難重重。這使得開發團隊難以取得大型資料集,尤其是從出版社等來源取得資料,因為版權方在沒有明確法律保護下,自然不願意分享有價值的內容。
林彥廷分析,訓練AI就像教小孩讀書,讓小孩逐漸擁有成人的知識量。因此不只是讀教科書,也需要散文、小說這類文學作品。林彥廷心中最佳知識來源,就是典藏了全國所有出版品的國家圖書館。
然而,為大型語言模型訓練AI使用和取得資料,在世界各國都還是很新穎的事例。如何判定侵權、如何「合理使用」,各國幾乎都還在觀望。如今年年初,有美國大型報社控訴OpenAI侵害著作權,但卻因無法證明ChatGPT「重製」其報導,反被OpenAI發現,報社刻意誤導ChatGPT,涉嫌產出「誤導性內容」。截至目前,此訴訟仍在持續中。
(相關報導:
AI加持!華碩伺服器5年成長5倍目標 今年可望提前達陣
|
更多文章
)
類似案例也讓出版社、圖書館等藏書所有人,不敢輕易釋出資料使用權;開發團隊更怕被大量訴訟拖累,只能用最笨的方法、一一尋求授權,讓取得資料變得曠日廢時。
另一方面,法規制定者也很為難,擔憂設立過多限制,扼殺了產業的研發能量。行政院在7月下旬剛公布的《人工智慧法》草案中,針對資料取用並沒有提出太多的解釋或規範,在政府推動人工智慧研發與應用的原則中,寫了「應促進非敏感資料之開放及再利用」,也沒有指定負責監管的主管機關。
對此,專長於智慧財產權的德勤商務法律事務所合夥律師熊誦梅指出,政府初期不宜介入太多,這份草案以7大原則貫穿法條,已經展現出政府支持AI發展的意願。
「台灣人力夠,只是留不住」
在台灣,我們引以為傲的是優異的電腦及半導體設備製造能力,在全球佔有領先地位。然而在軟體方面,台灣企業的優勢是什麼?
《風傳媒》訪問一名參與過上市金融、科技業AI導入專案的軟體工程師,他說國際軟體巨頭搶人搶很兇,台灣開出的價碼根本留不了才;而軟體新創並不受創投青睞,軟體還沒設計出來,錢就先燒光。台灣惡劣的軟體研發環境,讓人才紛紛外移到美國矽谷等地追夢。
他認為,台灣不乏優秀的軟體人才,這點從Google、微軟等軟體科技業巨頭來台設立據點,和近期AMD、輝達等公司宣布來台設立分部等現象,便可見一斑。
然而這正是企業轉型的重要機會。AI人才的重要培育基地,台灣人工智慧學校的校務長蔡明順,接受《風傳媒》訪問時信誓旦旦地說:「台灣不會掉隊,但,怕認知跟不上。」
蔡明順觀察台灣人工智慧學校辦學7年來,開課對象遍及醫療、金融、製造,也推動以公協會、龍頭企業等對象的專班,讓企業把員工送來學校進修,即可結合自身產業知識,發展出企業獨特的AI應用。台灣人工智慧學校從企業人才出發,培養懂得使用AI、管理AI的新時代科技人才和管理者;接下來,他們辦理全民AI人才素養,希望全國人民都能擁有對AI的正確認知和基本素養。
台灣人工智慧學校的教室背版,牆上掛滿了學員完課感想。(攝/張薰云)
蔡明順估計,未來台灣擁有AI素養的人佔9成、技術工程人才8-9%,最後1-2%則是管理治理者。管理階層不用摸透AI技術,但他必須有概念、有邏輯,知道如何讓AI發揮最大效用。
他認為台灣的機會在於軟硬整合,以硬體為基礎,加入軟體服務,面向國際市場,才能長出穩健成長的軟體公司。這想法與資深AI工程師的觀點有異曲同工之妙,他也認為台灣的軟體創業團隊應該多尋求國際合作,取得足夠的資金和團隊合作的能量,才能擁有足夠的規模、穩定獲利。
然而,儘管中研院和台大先後投入台產AI模型的研發,對企業而言,我們有必要用到自製的AI模型嗎?日前,台灣知名AI新創iKala執行長程世嘉(Sega Cheng)接受電子時報採訪時指出,台灣不需要專屬AI模型;他認為在全球AI競爭中,語言霸權必然發生,人們應設法提高自己的英語水平,來使用國外現有的AI工具。