前言:預訓練的陷阱
在AI飛速發展的今日,「數據」彷彿成為另類的萬靈丹,這種情況也造成主流文明與傳統知識的資料被大規模蒐集、切割、再餵食給模型。
然而,正如油與水不能強行攪在一處,當不同認知的兩種知識體系直接透過「預訓練」混合時,自然出現包含語意混淆、邏輯衝突與文化挪用等的意外產出。原因便出在傳統知識系統具有高度文化語境、隱喻和轉喻等符號的功能特質,很容易與主流AI模型的向量化、形式化處理方式存在根本衝突(Lewis等,2020)。
導致AI可能產出一種鑲嵌主流科學的理性與原住民靈性的「四不像」知識,卻遺失兩方真正的精神核心。例如,在當今生物多樣性的議題中,非「知識論」型態的傳統知識(規範與禁忌)經常被主流文明學者混淆成一種偏重生態的另類「科學」,就是一種很典型例子,這種粗淺認知甚至也被不少年輕原住民所默認。
當模型胡亂融合,既無法守護原住民神聖觀念,也喪失主流科學的精確判斷而變得「不倫不類」時,將不只是技術性錯誤,更是對人類文明記憶與價值的粗暴踐踏!
許多原住民學者與主流學者都批評,過度「知識論」化傳統生態理解,只會將原住民宇宙觀變得片面化。例如Grim(2001)與Berkes(1999)都強調不能簡化為databank型的知識儲存,而必須聚焦其文化、倫理與口語傳承的意涵。
Cheong等(2021)也警告當大型語言模型可能無法真正理解其社會文化脈絡,此將導致在處理非主流、尤其是在傳統知識體系出現系統性錯誤(Bender等,2021)。
微調的迷宮:觀點差異如何引爆模型災難性失誤?
AI的「微調」常被視為跨文化資料融合的萬靈藥,然而,事實卻絕非如此。原住民認知與主流文明間不只語義不同,背後更暗藏不同「知識」的生成邏輯;AI在微調時必須靠「標註」導入「正確答案」,但要怎樣才算正確呢?
當前AI開發模式往往無意識地複製殖民時代的知識擷取模式,卻缺乏對應的權力與利益分享機制(Russo等,2023)。一旦標註者根據他所認定的「主流」點,便會強行消音少數文化。
反之,若濫用所謂「文化包容」而無原則性地增添多元觀點,模型又會出現相互矛盾的回應,甚至「自爆」不知所云的立場。更糟糕的是,這種混亂一旦落到醫療、教育或法律等關鍵領域,人命與社會正義都將成為「訓練數據」失誤的犧牲品(Ferryman與Winn,2018)!造成算法系統自視「客觀」,實則掩蓋其內建價值判斷與社會假設的情況,這對於喜歡將「多元文化」或「跨文化」混為一談、卻不知認知差異的人來說尤其危險(Siddique等,2024)。
監督的幻象:誰來決定什麼是正確答案?
更不可思議的是,現今常見的「客觀標註」方式根本是建築在主流價值的偏見之上,等於把千萬年來的文化差異硬生生碾碎為0與1。
殊不知「真正去殖民化的AI研究必須採用『由內而外』的方法論,而原住民社群不僅是受訪者或資料提供者,更應該是研究問題形成與方法設計的主導者(Tuhiwai Smith,2012)。
比如,當AI針對你的旅遊提問而單純生成北「大武山、玉山與塔山為著名的台灣中南部『休閒旅遊勝地』」,卻不強調這是排灣、布農與鄒族族人「祖靈棲息地」(聖山)。除將造成AI生成看似虛實不一,甚至還有可能存在「無心之過」的隱性歧視與錯誤的決策基因!
因此,對模型微調推理者而言,首先必須深刻瞭解文化語境感知的嵌入技術,以便重新思考向量空間設計概念,以確保對規範與禁忌的認知概念不被主流語言的統計特性所淹沒(Bird,2020)。
數據的黑洞:殖民史中另類的不平權
在數據集混合的過程中,原住民觀念極易被「主流」邏輯吞噬,而成為決策系統的思想黑洞。例如,當AI能自動生成政策建議,卻完全忽略傳統知識(規範與禁忌)的口傳遷徙史的細膩語感或集體共享的「過客觀」的土地精神。各種看似合理的工程指標,其實背後暗藏千瘡百孔的文化失真。
原住民資料主權不僅是技術問題,更是對殖民史中持續存在的不平權挑戰(Kukutai與Taylor,2016)。
AI雖能「自信地」推動灌溉工程、分配教育資源或進行土地規劃,依然有可能一步步地導向不義的邊緣化與社會撕裂。愈來愈多的政策、數據與判斷,都可能在錯誤的混合模式之下,將「偏見」不斷地放大,導致「失真的知識」逐漸蠶食人性,將AI未來悄悄地推向一個人類毀滅的黑洞深淵!
相較之下,由原住民主導的語言保存AI專案,例如Te Hiku Media卻能成功捕捉母語的語意世界觀與文化脈絡。Keegan也特別指出,Te Hiku Media透過Kaitiakitanga License(守護者授權)創新性地解決了數據主權與技術發展的平衡問題,確保毛利社群對語音數據的持續控制權(James等,2023)。
文化的消音:混合後的AI是否只剩下空殼?
當原住民觀念與主流文明在數據集裡被混合、壓縮與轉譯後,AI是否還剩下「真正的靈魂」?科技專家蓋棺論定地說,這是最完善的多元數據處理模式!
可是,我們萬萬沒想到,在每一個「融合」背後,其實都在消音文化本身的特殊性。等到我們真正需要AI給出「有靈魂的」選擇與建議時,只會得到面目模糊、缺乏深度與無責的冷冰冰空殼。
「預訓練模型」彷彿是一位從未走出繁華都市的翻譯員,卻必須被要求能精準地翻譯深山裡的古老語言。「他」或許能抓住個別詞彙,卻永遠無法捕捉隱藏超級瀕危的「文言文語彙」背後的規範與禁忌(例如,泰雅的gaga、鄒族的einu或賽夏的 kasabongen)。
融合與協作型AI:道路與挑戰
為因應混合資料可能引發的失控,現在的國際產官學界皆呼籲開發「協作型AI」設計思路,即促使AI不僅作為被動資料處理者,更需要主動與部落社群協作,共同參與資料的定義、標註與模型訓練過程(Lewis等,2020)。
這種模式強調真正的共識決、尊重傳統知識(規範與禁忌)自主權,避免資料的單向流動與主流文明價值觀的壓倒性主導,亦能正視知識權力結構(Kukutai與Taylor,2016)。
如今,全球各地已有越來越多部落社群積極主導AI項目設計,並以其文化語境為軸心來創立AI發展。例如,Aotearoa/New Zealand的Te Hiku Media計畫協助毛利社群發展以毛利語(Te Reo Māori)訓練的語音辨識AI並建構「數位主權」原則,嚴格管控資料責權流向,防止知識掠奪(Keegan等,2021)。
澳洲Indigenous Data Network也致力於原住民資料治理自決,建立資料集分類體系與標準,讓原住民族在資料存取、公開與模型再利用過程中保有最終話語權。
Indigenous Data Network透過結合法律保護與技術設計,建立可擴展的原住民數據治理模式,有效防止了知識被錯誤詮釋或商業化的風險(Walter與Suina,2019)。
加拿大Indigenous AI Lab與Aboriginal AI社群廣納部落族人參與對話式AI的詞彙與語義定義,以最大化反映當地文化價值(Lewis等,2020)。
以上案例皆顯示真正具文化敏感度且能發揮正面效應的AI 模型必須築基於弱主流、強地方,深度參與的合作實踐,以及根據母語語意分類的特殊過程,而非只偏向單向計畫,粗糙地經過主流科技邏輯與資料形式作直接移植(Iku-Silan等,2023)。
甚者,不僅資料治理與模型設計團隊需具備深度文化意識,相關研究人員與技術開發者也需接受「原住民傳統知識倫理」與「文化技術批判」培訓(Mager等,2023)。
針對模型預測錯誤進行文化層次溯源分析,以及資訊公開(透明度報告)與持續社群對話,也都是開放且負責任AI 研發不可或缺的一環(O'Neil,2016)。
聯合國《原住民人民權利宣言》(UNDRIP)更是明確提到原住民有權利對其知識、語言與文化資源表示同意與預期用途:「第31條明確規定原住民族有權維護、掌控、保護和發展其文化遺產、傳統知識和傳統文化表現形式,包括其科學、技術和文化表現形式。」(UN,2007)
歐盟、加拿大與紐澳等法規亦已逐步納入原住民資料主權,但在AI 應用情境落實方法、監管與爭議調停等執行細節方面仍待推進。歐盟AI法案雖提供一般性AI治理框架,但在原住民傳統知識與文化保護方面仍存在明顯不足,依然缺乏具體執行與賠償機制(Floridi與Cowls,2022)。
結語
綜觀上述,無論是預訓練、微調或監督,原住民與主流文明混合數據集的AI模型都難以避免陷入知識誤讀、文化偏見與倫理崩解的泥淖。最可怕的是,這些錯誤極難被主流監管機制與外行用戶察覺,恐需直到災難爆發才恍然大悟。
當我們以為創造一個「更包容」的AI時,其實只是製造了一個大得令人絕望的「諸神黃昏」陷阱。
融合原住民族概念與主流文明資料於 AI訓練確實具有重大潛力,不僅能讓科技更貼近多元語言、文化與世界觀,亦有可能扭轉知識權力結構,彰顯弱勢群體的數位話語權(Walter與Suina,2019)。然而,假使無視於文化細節、用力過猛地「標準化」原住民資訊,這種誤用風險與知識傷害反將弊大於利。
展望未來,AI設計者與使用者必須永遠以多元知識平權、共構相互理解為核心,不僅是科技創新,更是法律、倫理與教育層面轉型,以及不再靠人類數據訓練,而是依賴AI本身經驗學習的嶄新AI(David與Richard,2025)。
我們站在數位文明與多元文化的十字路口的當下,選擇權已然在我們手中: