2024年的總統與立法委員選舉,民調相關議題特別為各方關注,即便是純市話、手機或兩者並用的調查方式所得結果之評估,都是各陣營與輿論的討論、爭議點;更遑論藉由網路調查、或以文字探勘、大數據技術分析所得之「聲量」、「好感度」、「看好度」、「仇恨值」等各式候選人或政黨的支持比率的衡量與測量。選舉民調封關前,林林總總的民調發布以及這些民調在品質上的差異,多少引發各方的困惑與爭辯;有些(甚至是虛假的)民調試圖扭曲、引導民眾的情緒,可能會影響選舉結果之預測。同時,自從「藍白合」議題發酵以來,「統計誤差範圍」、「正負三趴」更成為媒體、民眾議論或揶揄的名詞(例如「讓六趴」)。這些名詞源自於統計推論,然而各陣營討論時多各取所需,各自解讀,卻變成各說各話;部分媒體上也不乏謬誤解讀的報導。在許多問題的處理上,也許我們並不缺調查資料,缺乏的是足夠的知識來理解事物的根源。當一切塵埃早已落定,此時眾方應可平心靜氣看待。另誠如愛因斯坦所言:「如果你無法簡單說明,就代表你不夠透徹瞭解」;本文嘗試說明個人對這些名詞在統計專業的理解。
一般的意見調查或是選舉民調,都是基於統計科學原理設計,並且試圖保持這種方式執行;然而,這並不足以保障民調的成功。選舉民調除在隨機抽樣過程無可避免之抽樣誤差外,其潛在的誤差來源已眾所周知;許多系統性的誤差,諸如樣本涵蓋、拒訪、拒答、題目的設定、手機與市話、機構效應與分析結果之加權等(不當的加權,可能導致更大的誤差),皆已成為專家討論和學術檢視的議題。隨著時代演進,社會、生活形態的改變,執行實務上的各種挑戰使民調的可靠性長期以來遭受無數質疑。近年來,歐美民主國家在不同的選舉上也偶而發生民調在預測選舉結果的挫敗,引發關於民調機構所用方法可靠性或有效性的討論。同時,假民調如假新聞一樣的猖獗,總有人會檢討民調的式微;此也導致一個常見的錯誤的說法,民意調查本身並不是捕捉公眾意見的最佳方法。同時,在當今假新聞盛行的時代,無論民調製作得多麼精良和準確,其在媒體和社交媒體上的呈現方式是難以控制。
(相關報導:
風評:官僚又無理的處理金金併,金管會令人失望
|
更多文章
)
統計的核心精神,在於藉由對母體進行隨機抽樣,透過對所得之隨機樣本的特性(所謂樣本統計量)的理解,來說明、推論母體的特徵(所謂母體參數);目的是在面對不確定的現象能藉以做成決策。民意調查隨著時代的演進,調查方法與技術隨之精進;然其所利用的收集資料、觀察對象的調查方式與統計分析原理是一致的,都是希望以最大限度地減少收集樣本的數量,且能以最有效的方式獲得研究標的最大訊息量。自母體中隨機抽取樣本,是獲得代表性樣本的最佳方法,目的是為確保樣本能夠平均地模擬母體。如此偶然的、而非人為選擇的樣本,避免系統性的偏差及減低可能的變異產生,以節省時間、金錢成本,更有效率的對有興趣的樣本統計量進行全然的理解,即可推論母體特徵。實務上,母體特徵是固定、未知的常數;樣本的特性卻是隨著每次抽樣的不同而有變化,但是可計算而得。
利用樣本特性推論母體特徵的理論是架構於樣本統計量的抽樣分配,抽樣分配是統計推論的核心;傳統統計推論方法包括區間估計與假設檢定兩大類,兩者各有互補及相通之處。以候選人支持率為例,若某調查訪問1068人,其結果顯示候選人甲的支持率為0.40,是所謂的點估計;此值自然與候選人甲真正的支持率有所差異,即是所謂的偏誤。雖然不知真正的支持率,但因其為固定值,若對母體的所有可能樣本重複進行調查,可以得到估計比例(或誤差)的分配狀況;依此亦可評估偏誤,衡量錯誤決策的風險。理論上,如果從母體中隨機抽取n個觀測值,若重複此隨機抽樣,從總體中抽取的所有可能樣本,且每次皆抽取樣本大小為n的觀測值,則當n足夠大時,所有估計的樣本比例所形成的分佈具有近似常態分配的特性。藉由此抽樣分配可建構區間估計,信賴區間估計為樣本估計值加減邊際誤差;此邊際誤差由樣本數、母體資料本身的變異及信賴水準決定。當信賴水準設為0.95、樣本數為1068時,其邊際誤差約略為正負0.03;此設定經常為一般民調機構使用,也是正負三趴的由來。對候選人甲而言,其支持率的95%信賴區間估計為0.400.03=(0.37,0.43)。
然當大眾關注此邊際誤差值時,忽略了其真正的意義,是在於衡量統計推論的不確定性及評估可能的錯誤風險。由於真正的母體參數是未知的,我們無法確定它是否在所估計的區間內。如前所述從母體中,重複隨機抽取樣本大小為n的過程,每次可獲致一個95%信賴區間的估計;其意義在於所獲致的所有區間估計結果中,我們預期其中有95%的區間會包含真正的母體參數。再詳例而言,若可以重複相同的調查一百次,每次都隨機抽樣1068人,便可獲致一百個候選人甲支持率的估計結果,也會相對應得到一百個不同的區間估計結果;理論上預期其中會有九十五個區間範圍包含該候選人真正的母體支持率、但五次是沒有涵蓋到。
若在相同調查中,得到候選人乙的支持率為0.42,由點估計的角度,候選人乙的支持率是高於甲。但考慮因抽樣所產生的誤差,乙支持率的95%信賴區間估計為0.420.03= (0.39,0.45),甲、乙兩者的區間估計有部分重疊,此即說明兩候選人支持率不具統計顯著差異,或兩者是在統計誤差範圍之內。若再假設候選人乙之調查所得到的支持率為0.46,其95%信賴區間估計則為0.460.03= (0.43,0.49),此時甲、乙兩者的區間估計範圍完全無重疊,即說明兩候選人支持率具統計顯著差異;在95%信賴水準下,乙的支持率是顯著高於甲(但請注意,此結論有5%的可能性是錯誤的)。所謂「讓六趴」是否因此(0.46-0.40=0.06)而來,則不予討論。但±0.03是需依樣本數及信賴水準而調整,透過使用更大的樣本,可以將邊際誤差幅度縮小,有助於評估調查結果的準確性,但需要更高的調查費用與調查時間。
(相關報導:
風評:官僚又無理的處理金金併,金管會令人失望
|
更多文章
)
科學的首要是需提出正確的問題敘述,然後再蒐集資料並釐清問題;解決問題的關鍵步驟在於良好的定義問題。以「藍白合」議題而言,其調查應該包含柯正侯副、侯正柯副、柯正侯正皆可、皆不支持等選項,再執行與其它組候選人進行比較之資料收集。但因時效與避免民眾守候電話等政黨動員,利用已完成的多份民調進行「事後比較」,在一般研究分析亦多有所見。雖這些已完成的調查之問題敘述不盡相符,仍可為資料收集的變通之道,但其統計推論及藉以決策的限制是明確存在的。集合多家調查結果,只要沒有故意做假,參用「統合分析」是有可能觀察出某個程度的趨勢。先不論六份民因個別執行內容的差異(樣本數、調查方法等)所引發之議題,在此僅就統計誤差的決策風險討論。前述95%信賴區間代表單份調查有0.05之推論錯誤的機率風險,當六份民調同時比較時,整體之錯誤決策風險將膨脹為1-(1-0.05)6=0.2649。此為統計進行「多重比較」分析議題,這是各方在討論「藍白合」時最嚴重的忽略,當然此統計誤差範圍所涉及之分析與討論需更為細緻之統計技術。
統計的目的在於發掘事物與事物間的關連,協助瞭解事物的本質,幫助人們洞悉在不確定狀況下的真相;關於事物本質的理解仍應是回到其領域的研究,且統計數據不是為了證明其預設的合理性。民意調查極具社會科學研究及實務應用的意義,其目的是呈現實況、發掘問題,任何問題的解決仍需回到決策者。而一般民眾對民調存疑,若能繼續運用正確概念聯想、關心生活周遭的事物,反應整個社會在統計及數據分析素養的提昇,正是民調的反餽。知識、經驗和持續學習對於民調機構及其表現至關重要,我們期待民調機構必須確保對其方法之開放和透明,並清楚說明民調的局限性。當前選舉民調的一個核心挑戰是如何在民調方法中運用正確的元素來預測投票率;整體投票率並不總是在各次(式)選舉間維持穩定、一致。若欲細究、準確識別某些群體(譬如年輕人、老年人)的投票率變化,尋求更為多樣的解決方案來評估民眾的投票傾向、投票率以及最終的實際投票結果,是民意調查極為不易的工作。
這世界上存在著一種天真的科學主義思維,其導致某些人認為憑藉任何以數字為依據所提出的論點,皆自動比使用文字的論點更加客觀、準確及安全。部分政治人物或媒體一面不斷誤解或誤用數據,然後一面地指責、抱怨數據。當選擇性地使用統計數據來為爭議話題的某一方面提供證據,則誠如蘇格蘭著名詩人、文學評論家安德魯·朗格所言,許多人使用統計數據,正如路燈對一位喝醉酒的人來說,其作用是支撐多於照明。因為無法或沒信心可以做出更好的決策,數據及其分析始終存在著被刻意或錯誤使用的誘惑。我們期待利用正確資料與方法做為決策的依據,也必須理解,所有統計方法與模型背後都存在其應用的限制,但也提供錯誤決策風險的衡量;且涉及的資料量越大時,錯誤的風險可能性就相對越大。如果任何統計分析結果之解讀是用來捍衛錯誤的決策,而不是做出更好的決策;一葉也可以知秋,但一葉也可蔽目,難以認清全局或忽視根本的問題,就更容易讓這個社會誤入歧途。
(相關報導:
風評:官僚又無理的處理金金併,金管會令人失望
|
更多文章
)