工作人都該懂的大數據實務運用:《大數據的關鍵思考》選摘(2)

數據是有生命週期的。例如:某網站的婦幼類別,在主動收集使用者的寶寶資訊,包含寶寶生日、性別、小名、身高、體重。我們就必須清楚這幾個數據的用途和生命週期。(資料照,取自mariagarzon@pixabay/CC0)

「養數據」有一個重要含義,就是要決定收集哪些數據。是基於深入業務理解的更高層次商業決策,數據養得時間愈早,累積的數據也愈多。一旦養成,則會產生非常大的商業價值。

過去,有一些問題一直困擾著我:「現在的企業獲取數據如此容易,數據的增長速度如此之快,那麼對於企業來說,到底要收集什麼樣的數據?收集多少數據?收集數據的邊界在哪裡?」後來,我在美國遇到一位高人,他認為,過去收集數據很難,而現在獲取數據資源變得愈來愈容易,但是如果收集數據的出發點不是為了解決問題,那麼收集再多的數據也沒有意義。

同時,許多企業還有一個疑問:「現在收集數據不難,成本也不高,為什麼不先收集了數據再說呢?等以後需要數據解決問題時,再拿出來用不是也可以嗎?」這位高人同樣也給出了答案,他否定此觀點,並指出用這樣的理念設計數據應用注定會失敗。

數據收集沒有邊界,我為此也痛苦了好一段日子。比如收集一個人的生日,雖然可以精確到幾分幾秒,但這麼精確的數據又能用在什麼領域,產生什麼價值?

事實上,數據是有生命週期的。例如:某網站的婦幼類別,在主動收集使用者的寶寶資訊,包含寶寶生日、性別、小名、身高、體重。我們就必須清楚這幾個數據的用途和生命週期,如:寶寶的身高和體重。但是,媽媽填寫的是寶寶當前的數據,然而寶寶的身高、體重變化非常快,這兩個數據的生命週期很短,在當時的推薦中可能有用,但過了一段時間後,這兩個數據就失效(data broken)了;而寶寶生日和性別這兩個數據的生命週期就很長,可以從生日的年分推算出寶寶的年齡,而性別基本上是終生穩定的。

數據收集應背景而變

IMG_6566-04478787389-生育率專題,奶粉-王彥喬攝
適合不同年齡層的奶粉和尿布型號等,知道寶寶大概所處的年齡,以推算寶寶目前的年齡。(資料照,王彥喬攝)

保存數據及其收集時的背景(context),也是一件不容易的事情。仍以收集寶寶的年齡作為例子,我們可以透過使用者購買特定的商品集合,如:適合不同年齡層的奶粉和尿布型號等,知道寶寶大概所處的年齡,以推算寶寶目前的年齡。但如果僅僅是保存寶寶年齡這個數據,此數據很快也會失效,因為人的年齡不斷變化。同時,你還需要保存寶寶年齡數據的獲得時間,即在哪年哪月計算得知這個寶寶的年齡,這個資訊就是背景數據。另一種更加聰明的做法,即透過寶寶現在的年齡,反過來推算寶寶是什麼時候出生。

所以,在收集數據時,我們必須知道這些數據未來可以用來做什麼,如果今天想像不出來,日後就更不可能了。

舉例來說,很多電商高階主管會詢問數據分析師,商品的重複購買率是多少。於是,工作人員收集數據計算重複購買率,卻很少想到高階主管需要重複購買率是為了做什麼決定,這就如同刻舟求劍的故事。事實上,在變化多端的大數據時代,我們不能只是機械的套用方法或指標。重複購買率有不同的定義,而做不同的決策,需要考慮不同定義的重複購買率。 (相關報導: 將消費行為轉為大數據,不在第一線也能精準決策:《工業3.5》選摘(3) 更多文章

如果一家投資公司想收購A公司,就會從重複購買率看A公司整體營運優劣或用戶品質等;如果從A公司營運的角度來看重複購買率,那麼它更應該關注的是日、週級別的重複購買率變化趨勢,或者當月新增客戶,有多少人在三個月後重複購買,從而衡量出每個月新增及原有客戶的忠誠度和品質,進而找出改善的空間。在知道了以上的背景之後,再去選擇使用什麼數據,不是更加準確嗎?