理想的未來絕對不是機器取代人類,在智慧客服的領域中,人機協作才是真的達到為企業降低服務成本,且兼顧用戶滿意度的唯一方案。
1964年在MIT的人工智慧實驗室中,名為「ELIZA」的聊天機器人誕生,她是史上第一個能夠與人類對談的機器人,而她的名字來自於音樂劇《窈窕淑女》的女主角,自然是她的創造人希望她能夠在持續的學習中,成為教養良好的「淑女」。2010年蘋果推出Siri,以及2014年微軟推出Cortana,科技公司不斷地推動機器能與人對話,同時也希望將這項技術應用於產業中,因此智慧客服就成為了落地的首要之選。
屈指一算,從「ELIZA」問世至今55年,機器人與人類溝通的問題真的解決了嗎?其實,從「ELIZA」一直到近年來國內多數銀行都踩過坑的中國「小i機器人」,都是屬於「模式比對」的技術,也就是在資料庫裡存放多個對話範本,根據使用者輸入的內容去比對最接近者。這個技術橫跨數十年,只不過是從精確比對進化到模糊比對而已,本質上沒有出現在範本裡的就無法回答,因此出現了之前讓眾多導入智慧客服系統的銀行怨聲載道的「每個問題必須輸入50種問法」的災難。
AI仍無法處理中文斷句難題
如果是英文,窮舉法可以達到很好的效果,但不幸的是,我們在台灣所使用的,是全世界最複雜的語言中,較為複雜的那個版本──「繁體中文」。就不提英文世界中所有字母大小寫加上數字標點,只需要80個字元就能搞定;中文光是unicode中的中日韓統一表意文字就有20,928個,若再加上注音符號、英文數字與標點,數量就遠遠超過英文。更別提中文天生沒有斷字符號,因此中文斷字成為中文數據預處理的首要難題,別說是機器,就算是人類遇到「小明明明明白白白喜歡他」或是「無線電法國別研究」這樣的斷詞難題,恐怕也只能舉白旗投降。
中文更神奇的一點在於,可以透過虛字與位置調換,將一個句子產生出多種講法。〔圖1〕是我們之前使用了2億筆天貓、淘寶的買家評論數據中抽取出來關於「送貨很快」的說法。驚人的是,2016年1月份統計有1,700多種講法,不過半年時間,2016年7月份統計,卻有高達3,600種講法。這意味著什麼?這表示任何企圖使用窮舉法來解決人機對話問題的,終將失敗。
(相關報導:
軟銀孫正義預估:人工智慧2040將成為「超級天才」 機器人數目將超越全球人口
|
更多文章
)
作者使用了2億筆天貓、淘寶的買家評論數據中抽取出來關於「送貨很快」的說法,證明企圖使用窮舉法解決人機對話問題的,終將失敗。(台灣銀行家雜誌提供)
「意圖識別」成為AI客服技術基礎
人機對話、溝通只是個不切實際的夢想嗎?這波人工智慧浪潮的基礎技術「深度學習」為我們開了一扇窗。深度學習與之前機器學習最大的差別,在於機器學習透過分析人員或是產業知識專家來定義特徵,再交給機器找規則;而深度學習則是從產生特徵到產生規則統統由機器處理。機器可以經由讀取大量語料後,根據文字的上下文關係,無監督地找出其中規則,更能夠根據人類給予的標籤進行監督式的分類預測。也因此,文字分析的技術從過去強調將非結構數據轉換為結構化格式的「自然語言處理」(NLP),正式進化為「自然語言理解」(Nature Language Understanding, NLU),雖然還不甚完美,但是機器開始能夠理解我們人類的語言。以〔圖2〕為例,這是我使用了2.9億個中文句子訓練出來的詞向量,若是我們希望透過類比關係來找出「張惠妹之於阿妹,那周杰倫會之於什麼?」機器可以正確地回答「周董」,而我們詢問「雙子座之於花心,處女座會之於什麼?」機器也能正確地回答「潔癖」。
作者使用了2.9億個中文句子訓練出來的詞向量。(台灣銀行家雜誌提供)
基於自然語言理解的技術,衍生出「意圖識別」(intent recognition),開發者可以透過大量的對話語料訓練,讓機器能夠學習判斷對方的意圖(像是來掛失信用卡,或者想要申請提高額度),以及我們該回答他什麼樣的內容,而這個就成為真正智慧客服的技術基礎。但是,各位如果以為這樣就等於擁有了像是《鋼鐵人》的Jarvis這樣的人工智慧,之後所有的人工客服都要失業,那就大錯特錯了。
當我在機器學習與人工智慧領域學習得越久,就越讚嘆人類大腦的偉大。機器需要從成千上萬的數據(這也是最難獲得的)中學習,但它只能從人類事先定義好的輸入與輸出中學習,不會觸類旁通,也不會舉一反三,更不會有基本常識。就以意圖識別來說,如果客戶來電的意圖,不在原先預定義的範圍內,或者是客戶的對話中沒有意圖(就是所謂的說空話),那機器就會陷入無法識別的問題。甚至如果智慧客服是用純中文語料所訓練的,那麼日常生活中隨處可見的中英夾雜、注音文、表情符號,都有可能讓「人工智慧」突然變成「人工智障」的那根稻草。
目前仍無99.9%正確理解語意的機器人
那麼,究竟智慧客服這個技術真的靠得住嗎?我覺得這個要從人工智慧的本質來看,傳統的應用程式是人透過需求訪談把規則列出來,因此可以照著規則測試與驗收,不論什麼樣的輸入就能預期獲得什麼樣的輸出。但是,對於無法列出規則的需求,就束手無策了,智慧客服正是這樣的一個場景,而人工智慧可以把它想像成機器自動從數據中幫我們整理規則,也因此,它所學習到的東西會受訓練數據很大的影響。我們都聽說過80/20法則,這法則仍然適用於客服場景,那就是20%的問題就占了80%的來話量,意味著這20%的問題具有足夠多的語料可供訓練,機器可以幫我們處裡這一部分,也能夠獲得最大的人力資源紓解。
但是,當客戶問的不是這20%的問題該怎麼辦?很多人問我,什麼才是衡量一個智慧客服的最重要指標?我說絕對不是意圖識別正確率,甚至要他們小心,正確率過高,恐怕是廠商作假(我曾經看過在後台有工程師操作Pepper,以及有人在後台拿著麥克風,替號稱全世界第一個機器人公民蘇菲亞講話後,我才警覺假人工智慧無處不在)。根據最新的通用語言理解評估基準(GLUE)排行榜看來,大多數的系統都只獲得65%左右的正確率,而排名第一的微軟具有89%正確率,其實也輸給人類95%正確率一大截。更不要忘了這個評分基準全部是使用英文,而我們用的是「繁體中文」。所以,任何號稱自己可以99.9%正確理解語意、可以對話如流的機器人,請不用懷疑,一定是騙子,因為99.9%的正確率連人類都做不到。
AI讓人們有餘裕「做擅長的事」
既然意圖識別正確率不是最重要的指標,那什麼才是最重要的指標?答案就是「轉接人工客服的正確率」,雖然人工智慧在自然語言理解技術上仍在持續精進,但是現階段更重要的是如何讓機器與人類各自分工,做擅長的事,因為要求高意圖識別正確率只會逼迫廠商造假,因此在現階段技術上,更重要的是如何讓機器知道自己的能力邊界,而將自己無法判別的通話,甚至是能從文字中判斷客戶已經被搞毛了的通話(這裡涉及到另一個人工智慧技術:文字情緒識別)轉交給人工客服處理。當大部分的通話被智慧客服處理之後,人工客服當然會有更大的餘裕來處理剩下20%的各種疑難雜症,不需要擔心每通處理時長的KPI,人類特有的溫暖、專業與耐心,可以化解用戶焦躁不耐煩的心。
*作者為數據決策公司技術長,trubuzz ai人工智能科學家。本文經台灣金融研訓院授權刊載,精彩全文詳見《台灣銀行家雜誌》2019年7月號。