蝙蝠可以在昏暗的叢林中快速飛行及獵食,靠的是對情報的理解與運用,而不是靠有限的視野或過往的記憶。具備數據思維與能力的組織,可以透過對數據的收集、分析、探索與運用,在數據的維度中找到全新的藍海,有效掌握產業趨勢,並打造優勢的立基。
自從離開媒體與網路產業之後,我便以企業顧問、職業講師和專欄作者的身分行走江湖,儘管工作忙碌,卻不以為忤。因為工作的緣故,每天接觸的資訊龐雜而眾多,要看的報告更動輒超過二位數,但我卻安之如飴,也已經習慣了與數據為伍的生活。
曾有寫作班的學生說我是「念理工科的寫作大神」,其實,自己雖然一開始在專科時代讀的是電子工程,在碩士階段讀的是工業工程,但我也喜歡嘗試跨領域學習,所以包括傳播、文創和商管,都在涉獵的範疇之中。這些歷練不但讓我增廣見聞,也培養了宏觀的視野,在面對大數據的時候能夠更有系統和章法。
讓我們把焦點回到這本書《大數據的關鍵思考(增訂版)》。還記得不久前,大數據還是一個熱門的關鍵字,如今卻已經百花齊放。大家都知道大數據可能很重要,卻很少有人弄得清楚要如何運用數據的力量,來解決人們在工作與生活面向的各種問題。
作者車品覺告訴我們,大數據雖然聽起來酷炫,但並非萬能。想知道問題能否憑藉數據的解讀來解決,首先必須思考五件事以定義需要解決的問題,包括:這是什麼問題?誰的問題?這個問題是由我們來解決嗎?需要現在解決嗎?資料能夠解決嗎?唯有當這五個問題的答案都是肯定的時候,或許就是當下可以靠資料解決的問題了。
如果未能事先定義問題的範疇,就不知道各種騰空出世的應用該如何衡量其成效。所以,想讓大數據發揮效用的話,首先必須清楚地定義問題,換句話說,就是追尋從知道到不知道的過程。
他認為,企業界能夠運用數據解決的問題,基本上都是圍繞著商業公式與商業價值打轉。好比新近在成長駭客領域相當受到大眾關注的議題,像是:如何用更低廉的成本攬客?如何留住客戶?如何擬定價格策略?看起來雖然千頭萬緒,但其實都能夠透過大數據的演繹來找到答案。
一如他在書中所提到的重點,大數據的本質,首重還原用戶的真實需求。在這個數位科技日新月異的年代,從事數據分析仍需以人為本,講求使用者體驗。大數據的應用開始變得多元,我們更應該審時度勢,用更開闊的胸襟與視野去迎接大數據的年代。話說回來,既不能讓當前的技術限制未來產品的發展,也不可只看重數據的力量,而忽略了人的溫度與本質。
我永遠記得第一次拜讀車老師的大作時,除了佩服他的技術本色,也為他的浪漫情懷所折服。這回,很高興有機會再跟各位讀者朋友們推薦車老師這本大作的增訂版。如果您對大數據有興趣的話,請不要錯過了這本書──要知道,好書往往經得起時代的淘洗,車老師的這本代表作就是最好的例證之一。
新版序
我在阿里巴巴的六年
回顧我在阿里巴巴的六年,從經歷來說,是先負責支付寶,繼而負責淘寶,最終負責整個阿里巴巴集團的數據工作。實際上,這個過程同樣也是我對數據應用的一個歷程:第一階段,用數據;第二階段,養數據;第三階段,從看數據到用數據。
▋加入支付寶
在加入支付寶之前,業界都認可我是一個比較懂得用數據去設計、優化、疊代產品的產品長(CPO)。彼時我在支付寶,大膽地結合產品與數據分析部門,積累了不少經驗。
說起加入支付寶,其實有些偶然。當時,支付寶邀請我去分享如何用數據做產品。分享會之後,我去了華星大廈的一個會議室,裡面坐著Lucy(彭蕾,時任支付寶CEO)、Eric(井賢棟,時任螞蟻金融COO)。在那個會議室裡,他們問了我幾個如何能用好數據的問題。當時,我反問了Lucy一個問題:「你每天大概會看多少數據?」
「大概幾十個吧。」
「不對,你不應該一天看幾十個數據那麼多,我覺得你應該只看幾個數據就夠了。」
或許,他們已經不記得我提出的這個問題了,但是我卻記得非常清楚。因為在支付寶的兩年裡,這是我做數據產品時一直遵循的原則。
▋堅持數據產品化的理念
正式加入支付寶後,我面對的第一件事情,就是著手組建數據分析師團隊。2010年的支付寶,公司大部分業務團隊對數據團隊都不太滿意,而且高層對數據能產生的價值也沒有太多認識。而數據負責人的調職,也導致了支付寶的數據分析和數據技術部門被分開管理。
面對數據分析和數據技術團隊的目標不一致,加上業務部門對於為什麼要用數據及如何用好數據充滿疑問,甚至有人認為數據分析僅僅是門面工夫,所以數據技術團隊有時候會跟我的團隊「對著幹」,因為兩個團隊的老闆不是同一人,他們也沒有義務一定要支持我,所以甚至有時候會撇開我們,直接跟業務部門對接。
但是最後,我堅持的數據分析產品化路線終於得到了雙方的認同,數據技術團隊甚至還主動過來問我:「我們怎麼合作比較好?」所以那時,雙方的關係就從「對著幹」變成了「我們會全力支持你」。
終於有一天,Lucy走進我的辦公室跟我說:「你知道嗎?你們做的產品讓我覺得很爽,我很喜歡這個產品。」而當我在支付寶的第二個產品「地動儀」出來時,她對我說:「這就是我夢寐以求的數據產品。」
同事和老闆對結果的支持,讓我肯定自己在支付寶走這條路是對的。如果讓我總結這其中的精髓,我的祕訣就是──數據分析也要講求使用者體驗。
簡單來說就是,別說是數據產品,哪怕一份小小的數據報告,我們都必須要知道以下五個問題:
● 這是什麼問題?
● 這是誰的問題?
● 這個問題現在必須馬上解決嗎?
● 這個問題我們能解決嗎?
● 我們有足夠的數據來解決嗎?
▋把報告當成產品來做
當我「苛刻」地提出「把月度經營報告當成產品來做,目的是讓這份報告像iPhone一樣好用」的要求時,整個團隊都傻了:報告怎麼能像產品一樣!那麼,為什麼數據報告不能做到行雲流水,讓人看得很爽快呢?
所以,我是這麼要求的:首先,報告的前三頁一定要吸引人,讓人有欲望繼續看下去;其次,當別人看到一個數據,心裡在猜測數據背後的各種原因時,我的下一頁報告就要解答他心中的疑問。
因此,如果要用產品管理的理念來運行分析團隊的話,必須要問「問題是什麼」,並以此作為切入點。接著,解決用戶的問題,得到用戶的信任,然後就可以做更多的好產品。這是一套做產品的理念,因為產品需要不斷疊代,並非一勞永逸。
那麼,我怎麼評估報告是否成功呢?簡單來說,如果一份月度經營報告僅僅五分鐘就被pass掉了,那它肯定是不成功的。
我在支付寶,幾乎每次月度報告都會讓管理層討論三、四個小時,一份數據報告居然會成為管理層的討論焦點,每次都有很多高層管理者關注我在講什麼,這時,我就知道自己肯定成功了。
當然,我同時也會提醒分析師們,千萬別以為靠一份報告就可以解決所有事情,一定要讓業務部門認為這份業務報告是大家一起探索的,這是我管理團隊的一個基本理念。
▋管理團隊、推動理念的祕訣
總之,數據產品化的理念最終得到了Lucy及其他高層管理者,以及團隊和同事們的認可。那麼,針對這個理念,我是如何在團隊內一步步推動的呢?
首先,我讓團隊做好基礎服務——「白米飯」。為什麼叫白米飯? 因為對人來說,要是飯不夠就會出大問題。對公司來說,如果數據基礎服務滿足不了使用者,他們就會跳起來,那時候再高大上的報告也沒用。所以,我要求分析團隊一定要跟業務部門達成共識,知道什麼東西如果我們不提供給他們,結果會很嚴重。
但是,長期做「白米飯」的分析部門是沒有前途的,所以其次,我抽出團隊一部分人成立了「突擊隊」。每當我聽到管理層對數據的需求時,就把資訊帶到團隊,讓團隊成立兩、三支「突擊隊」,讓管理層用到有用的、合適的,以及帶有探索性的內容。把自己最精銳的部隊放在「突擊隊」裡,這個決定非常重要。
值得注意的是,成立「突擊隊」有一個前提,那就是必須要有人能接觸到最高管理層的資訊通道,否則無法得到高層的資訊。而這個角色就是我,我接觸最高管理團隊,並且把資訊輸送給「突擊隊」。
以「白米飯」和「突擊隊」為基礎,最後一步,我們開始沉澱數據分析的框架。為什麼數據分析框架如此重要?因為它是數據產品的養分。我用建立數據產品為目標的理念來經營數據團隊,而數據分析框架,才是給數據產品養分的關鍵點。
在支付寶時,基於Lucy和Eric對我的支持,數據產品都是自上而下推行。我先做了「觀星台」,這是一個給高階管理者的數據儀表板工具,然後做了「地動儀」,一個給中階管理者的數據產品,接著還有「客服360」等。
所有這些數據產品,都是從數據分析框中提煉出來的。把分析的理念和框架,變成數據產品,本質上是數據一般化的過程。這個過程非常重要,因為數據報告的需求會越來越多,如果不這麼做,分析團隊將永遠被冗雜和重複的工作所困。
▋不讓當前的技術,限制未來的產品
在這期間,我們也做過一個改變。因為「觀星台」和「地動儀」還是傳統的分析工具,只不過讓你有更好的「眼睛」,看到更好的數據。用我一直強調的理念來講,這屬於描述性的報告,用於描述一家公司今天做得怎麼樣。但由於我們有了分析框架,可能稍微會帶一點診斷性。所以,這種產品主要還是描述性產品,偶爾會做一些診斷,但還未達到探索預測的狀態。
在這個看法的基礎上,我有了個新想法,想法的靈感源於Facebook。當時Facebook已經積極發展探索性的數據產品,視覺化及交互功能已經非常靈活。探索和靜態報告的區別在於,使用者可以選擇自己的角度靈活地看數據,真正做到「逛」數據。
因此,我們創造了一個產品叫「黃金策」,可以讓使用者很輕鬆地在三秒鐘內,就看到在不同標籤下用戶購物行為的異同。比如,30~35歲的上海女性,擁有一張信用卡和多張信用卡的兩個不同群體,看她們的購買行為有什麼不一樣;或者,看廣東和上海的女性在購物表現上有什麼不一樣。使用者可以非常輕鬆地比較不同用戶群的購物表現,所以我認為,好的數據產品應該是可以激發使用者靈感的。
在做「黃金策」這個產品的過程中,讓我深有感觸的是,數據產業的人,很容易讓技術制約產品的發展。當我提出做「黃金策」時,大部分技術工程師都斷言,三秒鐘就要有結果是不可能的。因為以前類似的靈活配置的報告,一般都不能做到即時查詢,如果要快速產出的話,只能找分析師。即便如此,也可能因為資源排期等原因等待很久。
當時只有一個人站出來說「我可以幫你搞定三秒鐘」,這個人就是蔣傑(現任騰訊數據中心總經理)。於是很自然地,我就跟蔣傑一起合作了這個專案,並且成了好朋友。後來,蔣傑很出色地幫我完成了這個專案。所以我覺得,做技術的人,不應該讓當前的技術和思維,限制未來的產品。
就使用者體驗來說,使用者之所以不使用我們的產品,其中一個很重要的原因是,沒有人願意耗時太久等一份報告。因為當報告出來之後,他的問題可能早已經解決了。試想,在做決定時,拍一下腦袋只需兩分鐘,但等一份報告要兩個星期,而且報告的結果還不一定能幫上他,你說,他會選拍腦袋還是等報告?所以,這也是我們產品人的理念:到底怎樣才能解決使用者的問題?而這也是產品人和數據人不一樣的地方。
▋淘寶的挑戰
有一天,Lucy把我叫過去說:「現在淘寶很需要你,淘寶的數據體系需要你去整理。」那是2012年底,也是我在支付寶的黃金時代,就這樣,我來到了淘寶,開始了我在阿里巴巴後四年的時期。
淘寶前兩年的經歷非常豐富,每每回想起來都像過去了十年,我的白髮基本上也都是在這段時間長出來的。
從支付寶來到淘寶,意味著我要重新打一仗。由於我已經在支付寶打了一場勝仗,所以可以照搬很多頂層設計到淘寶使用,但我也不能完全照搬,因為淘寶使用的頂層設計有些跟支付寶一樣,有些卻完全不一樣。
淘寶跟支付寶相比其實要複雜得多。淘寶本身是個自下而上的組織,是個極其複雜的生態圈。有趣的是,當我來到淘寶時,面對的情況恍如回到了入職支付寶時的情形:團隊的人差不多都走光了,我感覺就像踏上了一塊杳無人煙的新大陸——分析師只剩下幾個人,而且我被告知這幾個人還會陸續離開。
面對這一切,我做了一個今天回想起來仍然覺得很勇敢的決定:我說我不會帶支付寶的一兵一卒過來。所以說,我在支付寶組建了一個完整的團隊,然後在淘寶又重新組建了一支全新的團隊。這段經歷其實讓我很痛苦,但也是極為珍貴的人生經歷。
當時,淘寶的數據技術團隊很亂,而且是累積多年的亂,所以,要整理淘寶的數據體系,只用頂層設計和數據產品的方法做,肯定是行不通的。
當我發現自上而下的方法不行之後,我就逐步去做更多能發現問題的數據產品。總體來說,還是堅持數據一般化的方向。在淘寶這樣自下而上的組織,這相對來說比較容易,因為權力已經下放給每個小二(工作人員),在需要數據幫他們做決策時,讓他們每個人都用數據產品,比在支付寶時期其實更容易。反而因為數據非常零散,要做好一個數據產品,知道如何化繁為簡更重要。因為雖然有資源,但使用資源的人也很多。
值得一提的是,我們當時做了一個非常重要的決定,就是行動終端。那時候,很多淘寶的消費者都開始使用智慧型手機,我就決定,我們一定要做行動版的阿里數據App。「淘數據」這個電腦版產品在我來淘寶之前就已經存在,只是一直不溫不火,不是沒人使用,而是產品的使用者體驗不好。因此,當我們用行動版取代電腦版之後,發現很多高階管理者及中階管理者一下子變成了午夜常客,我就知道自己的決定是對的。
此外還有一件事,那就是數據服務,當時需求也已經顯現出來。因為我們這個部門承擔的責任不僅是數據分析,還有數據底層的搭建。雖然我的業務分析團隊當時只服務淘寶,但是數據技術團隊要服務天貓、淘寶、聚划算等多個業務部門。這需要我們在數據服務上分幾個層面去做:一是除了淘寶之外,天貓、聚划算事業部的數據產品,我們也幫他們做了;二是我只建數據中間層,別的部門可以用我們的數據中間層來建他們的數據產品;三是提供數據服務,我用早期的數據服務方式把數據輸出給其他部門使用。這就是我在淘寶前期的情況,上半身(分析師)是淘寶,下半身(數據底層)是集團。
▋啟動阿里巴巴大數據
進入阿里集團的這幾年裡,大部分業務部門的分析師都歸我管理,同時,數據平台和技術底層也都在我這邊,所以我的業務就演變成了集團數據技術及產品部,內部叫DT(Data Technology)。
回想淘寶時期,我一直覺得,如果我能早點整合數據底層團隊,收穫會更大。整合數據要花的力氣往往跟數據的離散、不規範、各自為政很有關係。有時,白紙一張重新開始,比起消耗大量時間在處理老問題要簡單得多。
而對於我們整個DT部門,這時候有兩個新的使命:一是做對外的數據產品,即生意參謀,同時也逐步把集團中其他對外數據產品,例如「數據魔方」及「量子報告」等,綜合到生意參謀上;二是建立數據公共層,這是結合集團各業務群的共用資源而成的數據服務,希望可以成為內部的DaaS(Data as a Service,數據即服務)模型。
數據公共層的起緣,是因為當時集團各個部門建了很多自己的數據「煙囪」,重複建設嚴重,導致數據的存儲、加工等資源嚴重浪費。怎麼把各個「煙囪」中的數據分為專有和公有,並且把公有的數據放在數據公共層,這是我在這段時間內耗費精力最多的事情。在我眼裡,這個數據公共層也是我認為在大數據中最重要的東西,我也在其中學到了很多經驗。
前面提到的那些應用,我們都可以稱之為「數據」,而這時才是「大數據」。「大數據」的意義就在連結,數據公共層就是跨業務群的精華,讓所有人都能利用其他人的數據冗餘,這時,「大數據」才算做了起來。
我這麼說,不是說我們以前沒有數據共用,而是從前都是零散和沒有計畫地分享及同步數據,有點小打小鬧。到了正式建立數據公共層的時候,才有人去整合全集團的所有數據,把它當成一個數據資產共建來看待。所以,數據公共層後來就被CEO定義為公司唯一的數據資產收集與加工部門。
▋打通數據循環
在淘寶的幾年生涯裡,有個非常重要的專案讓我永遠難忘。
有一年,馬雲要我們把聚划算自動化,在我眼裡,其實這就等同於商業版的無人駕駛技術,因為,要把這個部門的品類規畫、選品、定價等流程自動化,讓機器決定什麼產品哪天上架。它要求整個過程中的決策都要自動化,而沒有人參與其中,這對我們數據的收集、加工、提煉等整個鏈條的能力都提出了非常大的考驗。
而且,這個專案也是真正實驗如何在業務營運中,使數據技術成為主幹的一步。數據能力、演算法,要完全融入業務流程當中,每個環節中的數據回流等,都將成為循環的一部分。
好在,這時我們部門已經是一個具備全方位能力,能夠覆蓋數據的準備、加工、收集、分析、整合到使用整個鏈條的部門了,而且我的數據科學團隊也開始參與集團中很多不同業務的專案,甚至連交通這樣的政府專案都有涵蓋。
對於這段時間的經歷,我想說,我很榮幸,能夠用我的白髮換來親身經歷一場人機大戰的故事,讓我可以在過去三年中接觸到這麼多數據,甚至整個數據鏈,最終我實現了數據應用的循環。要做好數據,我們首先要在數據使用的循環中,讓數據越來越容易使用,同時在數據準備的循環中,讓製作數據的成本越來越低。
在這個循環系統中,虛線以上,使用者能很簡單地使用,虛線以下,是讓數據製作變得更快、更自動化。如何讓多種、多樣、多變的數據原料,可以快速、靈活地重組,並且相對穩定,使數據產生價值,這是做數據基礎建設天天都要去想的問題。
這就是「存、管、用」和「混、通、曬」。「存、管、用」就是用技術而不是人工方法,去做資產或原料管理。怎樣評估是不是做得好呢?得看數據有沒有、細不細、全不全、穩不穩、快不快。所以,一旦把數據管理好了,我們就會很快、很靈活地做出數據,並且在使用的時候產生很大的價值,到底我們提煉到的會是垃圾還是黃金,就取決於此。
以往,用數據要「混、通、曬」,養數據要「存、管、用」,經歷了支付寶和阿里集團的六年後,我覺得以上每一個環節都已經出現很多創新,比如,感知技術的創新,讓數據收集層面多姿多彩;存儲的格式會更適合數據的靈活調動;人工智慧除了直接服務於產品外,還可以增加數據的識別度;大家都已經意識到,數據的互聯互通及品質保證,是數據科技的基礎。
▋我看數據科學
在2010年底,我就意識到大數據的出現,所以當時就跟Lucy提出,支付寶要有一些數據科學的人才儲備。但可惜的是,我雖然感覺到了新時代即將來臨,卻未能正確地指出機器學習的趨勢,所以沒有大力引進。
而到了淘寶後,我是第一個在管理層力推大量招聘數據科學家的人,當時還有其他高層質疑我的做法。但在當時淘寶總裁的大力支持下,我終於如願。記得我招到第一位數據科學家後,我們每週都會在我的辦公室約談,用非技術語言聊數據科學家是做什麼的,以便很快地加深我對數據科學的理解。
傳統的數據科學家常常是博士或博士後,研究的方向是機器學習。數據科學家的出現,其實是個演變的過程,幾年前,企業的數據應用都是看得多、用得少,不夠直接,也很少涉及機器學習、演算法等領域。
從數據科學家加入的那天開始,我就認為他們是不可或缺的,他們的工作不是今天的數據分析師和數據挖掘工程師做得了的。雖然數據分析團隊中也有數據挖掘的人,但數據科學和數據挖掘是有區別的。
我認為,合格的數據科學家應該具備產品意識,為了解決問題,會更偏重於找到問題的原因,然後找出最好的方法來解決它。所以可以說,區別就在「科學」這兩個字。
數據科學是科學,不是工程。工程追求效率,科學追求真理。如果數據科學家做得太過實作,就會變成數據挖掘工程師;如果他「飄」在空中,將無法在企業中生存。企業想要找到既能上天,也能落地的數據科學家很難。在我眼裡,一個企業如果有這樣的人,就像三國時期劉備有了關羽。但可惜的是,這世上關羽少之又少。
在這種情況下,企業應該把事情分為長、中、短線來看。頂層設計要清楚,讓數據科學家做一些比較有難度的事情,讓能落地打仗的工程師去做落地的事情。這兩者如果沒有好好區分,他們之間就會「打架」,這樣企業耗不起。此外,從企業環境來說,一家公司到底有沒有科學精神,也會非常影響數據科學人才的落地。
經歷過對數據科學的理解後,回想我在支付寶做的最後一個產品「黃金策」,如果今天讓我重新做這個產品,我不會用以前的方法,因為今天的技術和過去的技術已經不一樣了。
「黃金策」給人的感覺是可以發現很多東西,但同時,能發現的東西也是有局限的。雖然有六百個或八百個用戶變量讓你自己組合,但數量還是只有這樣,能不能有六千個或八千個呢?從今天的技術來講,用深度學習的方法,有些環節機器會做得比人更好。
六年來,我所做的工作都是從人的經驗提出一個假設,然後用數據來證明哪個假設更有可能。到今天為止,由數據來告訴我們新的發現,還是少數情況。但數據帶來的這些少數新發現,是人類以前的邏輯中所沒有的。換句話說,數據重組了這個世界的「可能」。
這是人類為什麼要花很多資源去做大數據的原因所在,因為人類的思考是有局限的,但運用集體智慧,用深度學習的方法來找出人類提不出來的假設,然後透過人機協作,找出未來的新世界、新智慧,這就是數據科學要走的路。
數據科學如果不是每天都在進步,每天都不滿於今天的狀態,去PK以前的理論,就不是數據科學,而是死工程。
數據科學每天都在突破以前的理論,因為以前的理論只能解決某個點,以前的頂層設計只適合以前的情況,未來的頂層設計怎麼樣,需要我們不斷去探索,而科學,就是探索。
留言列表