前些日子翻閱《精準預測》時(我必須說很不喜歡書名的譯法,原因容後述),一旁負責行銷數據分析的單位組長饒富興致告訴我,他也買了這本書,但直說要看的書太多了,於是問我究竟這本書內容如何?
當下我完全不知該怎麼回答,畢竟這本書像是隨筆,結構上比較鬆散,但大體上讀者可以一窺專業數據分析者看世界的方法。
本書作者對於預測有以下這樣的見解:「像狐狸般的靈活預測,而不是刺蝟一樣的固執與確認偏誤」。試問,如果今天以擲出硬幣的正或反面為賭注,而先前已經連續多次翻出正面,那麼當你在預測下次硬幣是正是反時,還會堅持機率仍然是約莫五十比五十嗎?
如果你仍然這麼認為,也許會跟一部非常糟糕的漫畫《賭國神童》裡玩百家樂的反派角色一樣輸到脫褲。當然賭博的結局是什麼,完全要看最終預測與實際結果的差異而定,不過差異恐怕只是輸給詐賭或是輸給主角威能就是了。
賭徒與賽事預測
作者奈特.席佛(Nate Silver)年輕時靠德州撲克發跡,他謙稱當時不過是趁著網路博奕興起帶來的大量「雜魚玩家」充當冤大頭,牌技不用那麼出色也可以撈到一筆,但真正令人注意的是他後來的事業──棒球記錄統計分析(Sabermetrics)。
因長年對棒球與數據的興趣,席佛在閒暇時建立了PECOTA這樣一個分析預測球員表現的系統,主要的構思是「比較歷史上既有的球員成績,找尋目標球員未來可能的模版與數據」,所以這並不是一個關起門來胡猜一通的象牙塔機制,而是仰賴資料庫並妥善利用。
這樣的預測法現今已被廣為利用,舉例來說,當林書豪尚未在紐約一戰成名時,一位快遞員兼業餘籃球數據愛好者艾得‧偉蘭德(Ed Weiland)已經將他列為該年度前三最佳控球後衛,這也使偉蘭德一度連帶受到媒體矚目。
要知道,林書豪當年選秀並未獲得任何球隊青睞,所以偉蘭德究竟是怎麼思考的?他列出幾個關鍵的指標,對後衛來說重要的除了助攻之外,偉蘭德同樣甚至更注重RSB(籃板、抄截與火鍋總合),有趣的是這幾項數據一般而言你不會期望一位後衛表現優異,就整場比賽而言似乎也並不那麼重要──起碼相對於助攻與得分而言是如此;我仔細想了許久,發覺RSB的意義在於除了本分外,一個球員能額外貢獻的維度。
偉蘭德所看到的,是一個被低估的年輕人,他能有效的得分,雖然失誤有點多,但精英級的RSB與幾場面對強敵的傑出表現,讓他把林書豪放到預測的bracket裡,就這麼簡單!!
在這裡我們談論的並不是做為一個「籃球圈內人」的見解,許多人並不那麼認可抄截數字的意義──因為這有可能意味著球員以賭博式防守傷害團隊換取個人績效。但,如同席佛的模板預測,我們尋找的是「成功球員的共通點」,而列出了幾項指標,這有點像是中醫裡的臟器全然不是解剖學意義上的東西一般。
棋王與深藍最後之戰
席佛特別用一個章節談到西洋棋中劃時代的事件──卡斯帕洛夫對決超級電腦深藍的歷史公案,刻劃得引人入勝;卡斯帕洛夫是史上最優秀的棋士之一,他並不畏懼機器的挑戰,甚至可以說帶著幾分人類(而且是特別優秀的人才帶有)的傲慢。卡斯帕洛夫知道過往對戰過機器的路術,他也明白機器總是有著固定的套路,某種僵化的運算型式,用相對人類思考下顯得單純的方式尋求最佳的解法,而這也讓一代棋王有機可乘。
但棋王最終輸了。
就當深藍在一場即將敗北的對奕中,卡斯帕洛夫查覺到情況有異,雖然深藍若無意外注定敗退,但令卡斯帕洛夫不安的是,深藍沒有選擇拖延戰線,一如過往機械式尋求最佳解般苟延殘喘,指望對手出錯;而是用近乎投降的步數快速的結束這一場棋賽。
「難道機器真的擁有了智慧?」
棋王害怕了,他思考著深藍盡可能在敗北的對奕中減少揭露自身步術的可能性,這狡捷的思維是機器能做到的嗎?若深藍已經能考慮到單一棋賽對決後的決策,那豈不意謂著不能再用好整以暇的態度應戰?
於是陷入過度思考泥沼的卡斯帕洛夫,百般猶豫下選擇了用較不習慣的路術應戰,而結果便是深藍的勝利。
事實究竟為何?深藍提早結束的自殺行為是否真是有意為之?這都不可知了,眾所皆知,IBM沒有同意卡斯帕洛夫再次對奕的要求,反而將深藍給拆解了,有些人認為這一切只是IBM行銷公關的手段,而目的既然達成,已沒有理由再繼續。
但我想,這有更深刻的意涵,牽涉到智慧的認定,以及預測的態度。
訊息與雜訊
本書的原書名並非「精準預測」,而是「訊息與雜訊」(the Signal and the Noise),奧卡姆剃刀理論告訴我們,理論要盡可能的免除贅餘,以避免過度適配(overfitting)的發生,那些異常事件(outlier)並非全無意義,但在預測的過程當中,可能不是需要被注意的部分,也就是,可以稱之為「雜訊」。
但是卡斯帕洛夫把深藍的舉措想得高深莫測,如果他只當成是偶發事件、一個雜訊,也許結果將會不同。
大家都需要預測,但諷刺的是,「大眾需要預測,但卻不需要準確的那一個」,所以會有不受事實檢驗、不負預測責任的名嘴存在。唯一讓預測變更精確的可能,是大家真的對未來的事件下賭注,而不只是建立模型後不斷確認偏誤。在本書中,席佛提倡對任何事件給予(先驗)機率表述,而不只是判斷「可能」與「不可能」,但這也讓事情變得複雜,先驗機率到底應該是多少?
在最後一章裡,談到了「自知已知」與「自知未知」還有,最重要的「不自知的未知」之間的差異。911這類重大恐怖攻擊,被誤認為是「不可能」,但事後被發現恐怖攻擊的等級與數量與地震規模和次數有類似的關係,所以不自知的未知、沒有對訊號進行分析的能力(訊號舉例而言就像是:激進宗教組織成員意圖在還沒真正實機飛行前,就學習駕駛747客機)以及想像力的缺乏,非常有可能會傷害你。
所以究竟雜訊是什麼?金融市場若沒有雜訊,就不會有預測的需要──反正所有變動都已經反映在行情上,還有什麼套利空間嗎?雜訊或許使訊號難以被確認,卻更加深了訊號的意義與價值,使人為行動成為可能。扯遠一點來說,雜訊是真實(感)的構成要素,我們可以從感官的認知來思考:沒有雜訊的影像,完美得不吸引人,於是電影裡就算是毫無瑕疵的成像,也會加入鹽與胡椒(salt and pepper noise),使其可信。而加入些許噪聲(dither),在音效上可以達成更逼真的效果。
所以某種程度上人類「的確」知道雜訊在一個系統裡,是不可或缺的一部分:世界本來就是如此,充滿訊號,只不過有些我們稱之為雜訊,而它們的存在雖然不能像其它訊號一樣被完整理解,但它讓我們也有行為的動力。這又讓人想起約翰‧凱吉(John Milton Cage Jr.)的寂靜論:寂靜是聲音的遊樂園,不存在無(噪)聲的世界,那不過只是人類卓越思維能力的想像產物,有寂靜就有聲音,而有些聲音我們喚作噪聲,如此而已。
最後,引述本書第十章結語:
「最接近決解之道的方法,是對訊號與雜訊達到一種泰然處之的狀態,體認到兩者都是我們宇宙中無法去除的部分,然後盡力去體察這兩者各自的本來樣貌。」
席佛說,當雜訊很多的時候,要超越以結果為導向的預測,而更專注在過程上。這似乎像是饒富禪意的說道,儘管他做了這麼多努力,企求更好的預測,但到最後仍然要放下。
不由得想到趙州吃茶的故事:
「師問新到:『曾到此間否?』曰:『曾到。』師曰:『吃茶去。』又問僧,僧曰:『不曾到。』師曰:『吃茶去。』後院主問曰:『為甚麼曾到也云吃茶去,不曾到也云吃茶去?』師召院主,主應諾,師曰:『吃茶去。』」
這樣的心態,與預測的思維定勢(mindset),我想是最能詮釋本書精神的吧。
書籍資訊
書名:《精準預測:如何從巨量雜訊中,看出重要的訊息?》 The Signal and the Noise
作者:奈特.席佛(Nate Silver)
出版:三采
日期:2013
圖片credit:wikimedia、EPA