➤ 1、人類利用數據征服自然、改造社會、服務生活古今有之
1850年代,英國醫生約翰·斯諾利用空間統計學(如果一個家庭有兩個霍亂患者,在這個家庭所在地圖上畫兩橫;三個畫三橫),發現水是霍亂的傳染源,打破了人們懷疑空氣傳染霍亂的看法,這一發現對城市環境管理也有積極的推動作用。
自古以來,中國東南地狹人稠、西北地廣人稀似乎早成事實,但沒有人對這種模糊的認識加以有力的佐證。1930年代,中國地理學家胡煥庸以1個點表示1萬人,根據掌握的實際情況將2萬多個點畫到地圖上,再以等值線畫出人口密度圖,以璦琿—騰沖線分全國為東南和西北兩半壁,被稱為“胡煥庸線”,對中國經濟佈局、民政建設、交通發展具有重要參考價值,大家可以看下中國高鐵的分佈,基本在“胡煥庸線”以東。80年後,我們用QQ同時線上的人的地理分佈這個大資料工具,同樣完美印證了“胡煥庸線”的存在,其實,利用大資料工具,還會有更多的“智慧手機胡煥庸線”、“微信胡煥庸線”、“App胡煥庸線”,這些基本與基於人口統計的“胡煥庸線”等效。
大數據就在我們身邊。我們天天出門用的優步、滴滴等專車時刻根據周邊在候車輛和待乘人員的數量進行動態定價,2016年6月7日早上,我家周圍平時總有10多台在候車輛和不加價的情況被下雨天氣打破,因需求量多、供應不足,需要平時價格的1.5倍才能叫來專車。我們在淘寶、京東、當當等電子商務網站買書的時候,時時刻刻有個大數據推薦引擎在提供周到的服務,如同我們在王府井百貨遇到的美女導購,美女導購憑藉顧客的穿著和她的經驗來引導顧客、推薦商品,經常有看走眼的時候,而電子商務大數據推薦引擎幾乎是百發百中,對於淘寶、京東、當當而言,大數據推薦引擎是他們的核心競爭力,能夠增加12%左右的商品購買。
資料洞察世界古今有之
➤
2、資料是物理世界在網路世界的客觀映射,資料是物理世界的DNA
目錄
IT持續創新催生大數據時代。存儲成本的不斷下降,30年下降近20萬倍;計算成本的急速降低,半個世紀下降20億倍,按此下降速度,一架幾十年前的波音客機到現在也就是一瓶可樂的價格;頻寬成本13年以來也下降240倍,2000年的家庭頻寬也就是幾十Kbps,目前基本是10Mbps,100
Mbps甚至1000Mbps正在進入家庭。
IT持續創新催生大數據時代
很多人提到大數據時特別重視大,似乎資料量沒有PB級容量或100萬條就不是大數據。資料大只是表像,資料內容、結構、工具的變化才更具意義。資料從結構化資料擴展到網頁、文檔、視頻等非結構化資料,資料工具從資料庫演變到資料倉庫,繼而是分散式資料管理系統,資料管理內容從企業生產資源管理、財務管理擴展到客戶行為、產品狀態、社交資料等等,無不體現資料的變革。
數據大只是表像
大數據的概念是相對小資料而言的。我們到招商銀行辦理信用卡的時候,招商銀行會讓您提供一段時間的工資單,這個工資單就是小資料,銀行憑藉工資單來對用戶的信用進行評價。現在有了所謂大數據的方式來評價客戶信用,比如您敲擊鍵盤的速度、錄入單詞的正確率,如果速度過慢、頻繁出錯,您的信用價值會降低,銀行的大數據信用評價系統認為IT不熟練的人士社會競爭力弱,信用價值理所當然低些;如果發現您經常玩遊戲連續超過2個小時,您的信用價值也會低,您會被銀行的大數據信用評價系統評價為玩物喪志者……大數據信用評價會有數萬個維度來評價一個人的信用,您的一言一行,只要在網上都會被記錄下來,作為您信用評價的一個維度;相對工資條的評價方式,不可謂不大。我們重視大數據評價一個人的信用價值時,千萬不可忽視小資料;任何一條資料都是您行為畫像的側寫,只有把大數據和小資料完美的結合,才能形成一副層次豐富、色彩飽滿的全息版數字油畫,否則因為缺乏工資這一條關鍵資料,本來畫蒙娜麗莎,結果卻畫成了憨豆先生。
小資料與大數據的對比
大數據是資料在這個時代的標籤。所謂的4V【數量大(Volume)、種類多(Variety)、速度快(Velocity)、真實性高(Veracity)】或6V,並不是大數據的必要條件,4V可能在某些領域如精准行銷,才有用武之地,很多商業案例既不要那麼大,也不要那麼快。大數據是一個相對的概念,七十年代、八十年代、九十年代都有大數據的概念,七十年代的大數據也就是幾兆而已,再過10年、20年,我們現在所謂的PB級也就自然而然的變成小資料了。
大數據是資料在這個時代的標籤
我們現在討論的大數據與之前談論的大數據有何不同呢?有很大不同,簡單概括是“還原真相”;還原每個人的所思所想所為,還原機械設備的運行狀態。當您在工商銀行櫃檯取完錢後,除非櫃員與您發生激烈衝突,即使櫃員的服務不是那麼令您滿意,礙於情面,一般您還是給她很滿意的評價,這就是典型的小資料調研過程中很難避免的口是心非問題,也典型反映了資料在結構化過程中,資訊的失真。用大數據的方式就能夠避免這種口是心非結果的出現,類似紐西蘭航空等很多航空公司,通過收集Twitter、Facebook、微博等社交平臺的旅客評論,來客觀評價服務品質。我們出差乘坐的飛機、高鐵是高度數位化的產品,一架波音787一個航程會產生幾個TB的資料,從飛機位置、姿態,到溫度、壓力等上千個維度的資料分分秒秒都在產生;空客A380產生的更多,30分鐘高達10TB,這些大數據時時刻刻反映飛機的運行工況。
真相來自真實語言的表達、物理世界的回饋
資料是物理世界在網路世界的客觀映射,資料是物理世界的DNA。當然二元世界不是割裂的,是相互滲透、相互融合的。2000年熱議的滑鼠+水泥和當前大家談論O2O,都是指融合的二元世界。當下流行的手機遊戲《口袋妖怪Go(Pokemon Go)》把物理世界與網路世界有機的融合起來,創建一個亦真亦幻的增強現實遊戲空間。大家可翻看下手機,看一下手機通訊錄和微信群之間的差異,通訊錄更多反映物理世界的親戚、同學和朋友,微信群更多反映網路世界的朋友。以前我們的生活多是從線下到線上,從物理世界向網路世界映射、遷徙,如電子地圖、餐飲評價等;隨著網路應用的深化,從網路空間向物理空間的逆映射也在不斷出現。以前人們買房,基於經濟條件、工作地方、學校等因素,所以即使門對門,也沒有多少交往—因為之間沒有交集。現在很多創業者首先在微信群相識,但網路空間交流不夠充分,於是轉移到類似WeWork、YOU+國際青年社區等創業社區,創業活力得到極大激發,可能在等電梯的2分鐘就會完成一個創業話題的討論,以後這種從線上映射到線下的專案和內容會越來越多,可能會出現釣魚社區、騎行社區等等,人類的創新活力將得到極大的釋放。
資料是物理世界的DNA
➤ 3、大數據應用從資料行銷拓展至各行各業
3.1 資料行銷是過去十多年大數據的主戰場
過去10多年,大數據的應用主要集中在資料行銷領域。我們搜索、點擊、流覽、閱讀、購買、收藏等一切網路行為都被記錄下來,搜尋引擎、門戶網站、電子遊戲企業、電子商務企業根據這些資料,然後打上標籤,給每個使用者進行數位畫像,在合適時間、合適場合把廣告商的廣告推送到網路使用者面前(當您在百度搜索關鍵字“手機”關鍵字後,很快您會發現無論您流覽哪個網站,“手機”廣告總是如影隨形出現在您正在流覽的頁面上),網路使用者點擊,廣告廠商付錢,形成資料商業價值閉環,目前全球已形成近千億美元的產業。在美國網路上點擊一次“Cheap Car Insurance”廣告,保險公司會向穀歌支付33.97美元;Google最貴的關鍵字一次點擊的價格高達670.44美元,點擊一次等於送谷歌CEO桑達爾·皮查伊(Sundar Pichai)一台iPhone6!在國內點擊一條醫療廣告也高達上百元。
目錄
每個人都有一個網路畫像
精准行銷商業價值實現
當有網路使用者在新浪汽車頻道流覽汽車,新浪網會根據使用者行為模型判斷他是學車、買車,還是換車,如果一個用戶總是流覽8~12萬的德系車,流覽指數從一般無任何指示狀態的8~12,躍升到60~80,那麼未來半年向他推銷捷達很可能奏效。
互聯網大數據:滿足您的所想、所思、所求
3.2 金融、地產、製造、政府等行業為大數據提供了更為寬廣的腹地
2015年,全國媒體收入為3840億元(其中互聯網廣告市場,為2096.7億元,廣電報刊四大傳統媒體行業的廣告之和為1743.5億元,資料來源於《新媒體藍皮書:中國新媒體發展報告No.7(2016)》),相對于4.13萬億元的房地產業(GDP值,下同;收入為8.9萬億元)、5.75萬億元的金融業(GDP值)、6.6萬億元的批發和零售業、22.90萬億元的工業而言相差一個數量級,如果這些行業的核心業務從拍腦袋式經驗決策轉變為資料驅動的決策,給大數據帶來的市場空間顯而易見。以房地產為例,專案調研、土地評估和決策、產品推廣和銷售、物業服務和社區運營等全流程四大核心環節均可以由大數據來驅動(詳見後圖),每個環節都會有數百億元的潛在市場規模。
互聯網金融的興起逐步打開普惠金融的大門。中小微企業從未被滿足過資金需求,該市場是傳統金融企業不能、也不願涉足的領域。中國人民銀行征信中心有信貸記錄的自然人為3.5 億人,也就是說我國有近10億人得不到傳統金融機構的眷戀。只要獲得這近10億人的上網、APP安裝、使用、社交行為、用水、用電、用車等資料,利用大數據的模型和演算法,轉化為金融征信評分,傳統金融機構不願做的事立馬變為金礦,而這些資料在大數據時代獲取並不困難,我們每個人一天近6個小時在網路空間遊蕩積累大量的資料,只是這些資料被不同主體的企業擁有而已。
傳統銀行機構平均貸款規模為179萬元,每筆貸款盡調成本等為5.2萬元,貸款發放週期為2周~1個月;基於店鋪基本資訊、店鋪日常經營活動、客戶評價資訊和行業基準資訊等大數據,螞蟻微貸的平均貸款規模僅為3.6萬元,每筆貸款盡調成本等為1600元,貸款發放週期僅需要3分鐘;最重要的貸款違約率大幅下降,從傳統金融機構的2~3%的不良貸款率下降到不足1%。金融行業的壁壘也正在被大數據所打破,有資料的企業紛紛進入金融行業,電子商務企業阿裡、京東,賣電器的國美、蘇甯,賣房的萬達、賣二手房的鏈家等企業蜂擁進入金融領域,未來還將有更多企業進入金融領域。矽谷也湧現一批互聯網金融企業,憑藉資料挑戰富國銀行等傳統的金融巨頭。
金融大數據:重構金融生態
大數據推動保險從千人一面轉向千人千面。通過汽車上的資料記錄裝置可以時時刻刻記錄駕駛人員的操作狀態,基於急刹車、急踩油門、急轉彎等三急資料,再加上駕駛者平均用車時段、駕駛者行車速度比值、是否定期保養等多維度的資料保險公司可以徹底改變過去基於事故概率的統一定價機制,基於資料,保險定價可以做到千人千面。
保險大數據:千人一面轉向千人千面
億海藍通過監測10多萬艘100噸以上的國際航行船舶,累計8年的歷史軌跡、上億個位置資料,為國際貨輪提供全方位的加油、補充供給等服務,並基於資料開發金融服務,同時亦能洞察全球經濟脈搏為基金、證券服務。
航運大數據:洞察全球經濟脈搏
醫療衛生因為資料而變。類似智慧手錶、智慧手鐲等可穿戴設備正在逐步進入大眾市場,通過心率、脈搏等感測器,您的生理狀態資料無時無刻不在產生、記錄,有了連續的多維度生理狀態資料記錄,通過您的手機App,即使沒有醫生,根據曲線變化情況,您自己就會有一個初步身體狀態的判斷,如果這些資料被保險公司、醫療保健企業、藥店獲得,他們將會為您提供更為周到的服務,當然是要在隱私不被侵犯的前提下。
醫衛大數據:資料診斷一切
房地產行業正在被大數據重塑。以商鋪選址為例,過去調研公司在一個紅綠燈路口派8個人,點過往人頭,根據最低人流量來決定是否在該街角開家麥當勞。這種傳統的調研方式正在成為過去時,利用TalkingData覆蓋超過10萬款移動應用、累計36億台獨立智慧設備、每天處理數十億次會話請求資料,不但知道過去一個季度某個商業網點經過多少人、還知道多少外地人、更知道這些人過去一段時間去過多少次速食店,比傳統的調研方式更快、更準確的做出商業決策。
大數據重塑房地產
利用WIFI探針、指紋技術更深入、更精確地洞察用戶線下行為。相對于移動運營商宏基站的公里級定位精度、微蜂窩的百米級定位精度,GPS室內定位無能為力等其他定位方式,WIFI為室內定位提供了新的制導武器。利用WIFI可探測到客戶到過案場的次數、精確到米級的位置,並且定位精度可調節,如果一個用戶一個月到過樓盤銷售點3次、在三居沙盤件停留20分鐘以上,同時又到過財務間10分鐘以上(可能詢問支付購房款細節),基本可以判斷該客戶買房的概率很大。有了到店來訪資料使用者群體的精准畫像,根據這些人群標籤特點,基於Talkingdata公司36億獨立智慧設備,使用Lookalike技術,與全國範圍內的智慧手機用戶標籤進行比對,發現更多潛在客戶。
利用WIFI更深入洞察用戶線下行為
2006年,花樣年集團提出了“零物業管理費”,當時掀起軒然大波。花樣年物業管理公司通過為業主提供“購買充值卡”、“送桶裝水”、“訂送牛奶”等100多項“增值服務”,沉澱下大量使用者交易、行為資料,利用這些資料來對社區居民及家庭進行畫像,對接需求,從而獲取傭金來補貼物業管理費。基於社區大數據,可以構建社區金融信用評價體系,為社區家庭提供小貸服務、理財服務。到2020年花樣年服務的社區將超過10億平方米,超過4000萬人口,假設每人每月社區消費是2000元,一年就是2.4萬元,4000萬人的一年將消費上萬億元。如果按1%的傭金計算,收益就是100億;拿到2%,就是200億;按天貓模式收3%~5%的傭金計算,就是300億至500億元。“零物業管理費”模式的核心邏輯是通過資料實現羊毛出在豬身上的付費轉移。
物業大數據:零物業費成為可能
艾漫資料通過持續抓取覆蓋全網3200家新聞網站,包括700家紙媒、300家電視臺等新聞資料,微博、論壇、社區等社交類網站熱議資料,售票軟體賣出電影票的數量、視頻網站中同類型影片的點擊率、電視節目的收視率等使用者行為資料,院線的票房、上升率和排片率等行業資料,然後通過行業經驗和大數據技術,從影片體裁、編劇、導演、演員、發行時間、發行區域等維度進行分析判斷,從而進行演員篩選、廣告投放和票房預測。《小時代》從男主角的替換,到重點城市的廣告投放,到海報內容的設計,再到排片時間的選擇,都是基於《小時代》系列的82%的關注者都是90後,女性觀眾更是接近80%等資料來做的科學決策。例如小時代3海報中有位肌肉發達裸著膀子的男士,是為了吸引女性觀眾的關注。
一家大數據創業企業利用社交媒體資料發現喜歡趙本山電影的人75%集中東北三省,毫無疑問,趙本山電影發行、廣告投放時,75%以上的資源也應集中的這些省市,常規的北上廣重點投放被這個事實資料打破。
大數據重塑影視業
在F1賽車、籃球賽、足球賽、射擊等體育比賽中均可見到大數據的身影。NBA為每座球館都裝上了攝像機來跟蹤、記錄每個球員的每個動作。追蹤系統可以記錄得分、籃板、助攻、蓋帽,甚至球員跑動範圍、觸球點、投籃點等詳細的資料,這些資料對於雙方教練和球員來說,是非常重要的情報資訊和彌補短板的事實依據。
我們來看一個倒數第二的籃球隊如何利用大數據逆襲的案例。6年前,由矽谷風險投資家領銜的一批高管花費了創紀錄的4.5億美元,買下了美國職業籃球聯賽(NBA)中表現倒數第二的一支加州球隊(勇士隊)。在大數據的驅動下下,新管理層得出的重要觀點是,目前的籃球打法是錯誤的。數十年來,球員跳得比籃筐還高然後把球塞進籃網的所謂“扣籃”,一直是這項運動的標誌性投籃動作,但它只值兩分。
勇士隊的高管重新設計了球隊,要求他們更多地從距離籃筐約24英尺(約7.3米)的三分線外遠投,因為從那裡投進一球能得3分。2015年6月,勇士隊奪得了該隊40年來的首個NBA總冠軍,但真正引起全美球迷關注的是它本賽季的戰績。勇士隊已經打破一項紀錄,本賽季投中超過1000個三分球,成為NBA歷史上單賽季命中三分球最多的球隊。速得爾科技(北京)有限公司利用不可見光裝置分析射擊運動員的軌跡特徵來篩選、培養優秀射擊選手。
大數據助體育一臂之力
大北農集團農信互聯有限公司利用攝像頭、感測器、手機App等設備和軟體知曉全國1500多萬頭生豬的生長發育資訊,根據仔豬數量、重量和生長發育時間就能夠推斷明年豆粕、玉米等飼料需求、豬肉可能的價格區間,期貨交易所根據這些資料來指導大宗農產品期貨價格。一家期貨交易所願意用10元的價格,購買一頭豬的基本資訊,用作飼料期貨交易的參考。
豬聯網的獨特價值
通過對氣候、土壤和空氣品質、作物成熟度,甚至是設備和勞動力的成本及可用性方面的即時資料收集,預測分析可以用來做出更明智的決策。在精准農業中,控制中心即時收集並處理資料,來説明農民在播種、施肥和收割作物等方面做出最明智的決策。遍佈田間的感測器用於測量土壤和周圍空氣的溫度與濕度。此外,衛星圖像和無人機會被用來拍攝田地的照片;隨著時間的推移,圖像會顯示作物成熟,加上對未來48小時的精准天氣預測模型,就可以建立模型並進行類比,從而預測未來的情況,並説明農民做出前瞻性的決策。約翰迪爾是家美國拖拉機製造企業,他通過在拖拉機、農耕機具上加裝各種感測器,能夠分析土壤樣本、田間作物顏色、生長速率、營養水準、農作物品種等資訊,説明農場主生產經營農產品,同時提供農產品銷售服務、供應鏈金融服務。
大數據使農業煥發生機
百度擁有數十萬台伺服器和數萬台交換機,200多萬塊硬碟。硬碟的年報錯率為4%~7%,月均硬碟故障超過1萬起,占全部硬體故障的80%以上。通過對9億條實例進行採集處理,選取15萬個訓練樣本,監控240個特徵即時變化,構建預測模型,可以提前一天預測出硬碟故障,並及時遷移資料。可節約70%頻寬,85%計算資源,節省伺服器運營消耗10%,每年節省1萬多塊硬碟。
石家莊天遠科技通過監測分佈全國20多萬台工程機械的運行資料,能夠及時、準確提供備件,如果工程機械出現異常問題,遠端監控系統能即時向機手發送短信告知潛在的危險,避免嚴重事故發生。同時還能優化油耗管理、二手車殘值管理、產品設計優化等。對於貨車超載監控,他們也研發出新的解決方案,根據動力輸出與加速度之間的關係,用演算法和模型可以計算出貨車裝載量,省去大量人力、物力去圍追堵截超載車輛。
大數據重塑工業體系
大數據助力旅遊。旅遊者出發去某景點旅遊前,總會搜索交通、餐飲、住宿、特產等相關資訊,根據這些資訊可以創建旅遊預警指數,從而進行有效的疏導和引導,避免類似華山2012年事故的發生。
搜勝於言,行勝於搜,買勝於行,線下行為資料要比線上資料更有價值。
2007年,北京地鐵中出現大量河南焦作雲臺山的廣告,也是大數據決策的結果,根據電信信令資料發現,雲臺山景點60%的遊客來自于北京,20%來自于山東,剩餘20%來自山西、河南省內及其他省市,所以當地旅遊部門把廣告資源重點投向了北京。
旅遊大數據:您的行蹤我知道
克強指數是基於耗電量、鐵路貨運量和銀行貸款發放量等三個經濟指標判斷經濟形勢,從某種程度來說克強指數是基於大數據思想的經濟指數。近幾年出現更多類似克強指數的大數據經濟指數,例如根據百度平臺上的廣告投放來創建的百度行業消費經濟指數。基於工商總局新增企業同比變化情況,企業增資同比變化情況來確定的經濟發展指數。華爾街利用日本小松分佈在全球200萬台工程機械的位置和每鬥挖掘的重量來分析各國經濟的走勢,用以指導貨幣交易。三一重工利用分佈全國的20多萬台工程機械工作狀態來分析國內基礎建設形勢,為國家投資政策制定提供參考依據。
基於大數據的經濟發展指數
正像人們身體出現感冒症狀,會利用搜尋引擎尋求幫助,從而可以利用這些搜索關鍵字來構建流感指數一樣,框定愛滋病嫌疑人喜歡用的搜索關鍵字,如“治療愛滋病那種抗生素好”、“治療愛滋病哪家醫院好”等,可以創建“愛滋病指數”,衛生部門可以提前數周獲知愛滋病流行情況。還可以利用電信信令、手機App、微信和QQ同時線上數來監測熱點景區、活動區人流密度情況,從而進行及時疏導、動態警力配置,避免類似上海踩踏事故的發生。2015年廣州亞運會期間,就是利用微信和QQ同時線上數來動態佈置警力的。
利用大數據加強公共事件預警
大數據在反恐領域也大有作為。波士頓馬拉松爆炸發生後,美國聯邦調查局根據攝像頭、Facebook、Twitter等社交媒體資料24小時內鎖定嫌疑分子。
利用大數據進行反恐
國民經濟各行各業無不由資料驅動,但仍有更多商業領域需要由大數據來挖掘潛在的商業價值,正如下圖中的電影院一樣,通過熱力圖發現,左下角的幾個座位,通常認為應該沒人去坐;實際情況是場場不空,處於熱戀中的青年更喜歡這裡,適當改造做成半包結構,每個座位每場加50元,仍是供不應求。未來,類似電影院左下角座位的案例將在不同行業頻繁出現。

國民經濟各行各業無不由資料驅動
大數據採擷電影院潛在價值
➤ 4、中國大數據產業生態

目錄
目前各諮詢機構對國內大數據產業規模的統計和預測差異很大,有幾十億元規模的,也有數百億元的,還有超過千億元的。探討大數據產業規模的數位之前,首選要界定大數據產業的範圍,通常業界認為使用了大數據基礎工具所產生的商品化業務收入才能算作大數據產業,大數據產業收入的兩個必要條件,其一是使用大數據基礎工具,如Hadoop、Hive、Storm、Spark、Kafka等;其二是商品化業務收入,如果京東的大數據僅為其電子商務業務進行推薦服務,產生的再多也不能算大數據產業,如果京東單獨設立一個征信公司,利用京東的大數據為招商銀行、工商銀行提供征信服務,這部分收入才可以被劃為大數據產業,就像農民自產自銷的土豆不是商品,拿到市場上銷售才是商品一樣。如果按照這個概念計算,2015年中國大數據產業也就是6億美元左右,這也是我們通常說的狹義大數據產業。2015年,中國廣義大數據產業在超過1000億元,比如百度2015年收入超過600億元,大多數是大數據帶來的業務收入,騰訊的廣點通大數據廣告行銷系統也帶來80億元的收入,阿裡的平臺收入主要也是靠雲計算平臺和大數據平臺來支撐的。
2015年中國大數據解決方案超過6億美元
DTiii版中國大數據產業地圖Beta1.0
據DT大數據產業創新研究院(DTiii)統計,截止到2016年5月,國內統計到的大數據創新創業企業大約有662家,企業速度增長很快,2014年底,中關村大數據產業聯盟統計到的企業為300家左右,2015年底迅速增長到500家,DT大數據產業創新研究院(DTiii)將在2016年9月份發佈一個涵蓋1200家的中國大數據產業地圖,以後計畫每半年更新一次。如果貴單位是大數據創新創業企業,尚未被DTiii版大數據產業地圖收錄,請把貴單位的基本情況發郵件至sdxtime@126.com。
國內大數據企業是太少而不是太多。以近10多年最為活躍的資料行銷行業為例,根據RTBChina統計,截至到2016年5月12日,中國網路廣告新生態系統涵蓋182家企業左右,而美國行銷技術類公司從2011年的150家,快速增長至2016年的3874家,所以中國大數據企業數量還有很大的增長空間。
2016年底美國行銷技術類公司多達3874家
據不完全統計,2015年風險投資投向國內大數據產業的資金超過50億元,大部分是A輪,有技術平臺領先、商業模式獨特、獨一無二資料或資料壁壘高的企業更受資本的青睞。
2015年風險投資投向國內大數據產業的資金超過50億元
各國政府高度重視大數據產業的發展,把大數據視為未來提升國家核心競爭力的創新引擎,紛紛出臺大數據國家戰略。如果把美國上個世紀80年代的資訊公路稱為以資訊基礎設施建設為核心的資訊化1.0,類似我們的高鐵、高速公路建設;那麼這一波大數據就是買汽車、去旅遊,以資訊化應用為核心的資訊化2.0。
世界各國紛紛出臺大數據國家戰略
各級政府高度重視大數據產業的發展,相繼出臺促進大數據發展的規劃、戰略和促進政策。2015年8月,國務院出臺《促進大數據發展的行動綱要》,本人有幸參與該檔的編制,該檔通過一年的課題研究、調研、座談和徵求意見,幾易其稿。党的十八屆五中全會決定實施國家大數據戰略,進一步明確了我國大數據的方針和政策。

各級政府高度重視大數據產業的發展
《促進大數據發展的行動綱要》編制時間軸
《促進大數據發展的行動綱要》核心內容可歸納為:一個核心、五大目標、三項任務、十大工程、七大措施。核心是建立資料強國,這與習近平總書記所提的網路強國一脈相承。過去半個多世紀,我們在工業強國的追趕道路上好艱辛,在工業經濟的成熟道路上趕超英美日德只能是夢想。工業能力的沉澱、積累不足,難以對抗先行者的技術、產品和市場優勢。資訊經濟為全球各國提供了新的賽道,資料既是新的生產要素,又是新的生產力。我國人口多這個在工業經濟時代的劣勢正在轉變為資訊經濟時代的優勢。我們近10億互聯網、移動互聯網使用者每天都在產生資料,到2020年中國的資料總量將占全球資料總量20%,屆時中國將成為世界第一資料資源大國,這一資料的邏輯基礎是我國人口占全球人口總量的18.6%。
《促進大數據發展的行動綱要》核心內容
大數據產業的快速發展很大比重是依賴于一批具有創新活力的企業,但政府推動產業的力量也不容忽視,除了產業促進政策之外,政府還有豐富的資料資源,相對于企業資料資源的私有特性,政府的資料是納稅人付過錢的,具有天然開放的屬性,如果政府資料資源能夠開放出來,將極大激發社會創新的活力。先看一個國外政府開放資料推動創新的案例。每個十字路口都是有交通事故記錄的,有創業團隊根據這些開放的資料開發一個手機App,當輸入家和學校位址的時候,他能夠自動優化出一條事故率最低的路徑,非常受小學生家長的喜歡。
再看一個國內的案例。2015年,上海開放資料大賽(SODA)由上海市公安局、上海市環境保護局、上海氣象局、浦東公交、新浪微博等十多家政府和企業開放交通卡、交通事故、高架匝道關啟、計程車軌跡、公車運行軌跡、地鐵運行、空氣品質、氣象預報、新浪微博等上千GB的資料集,吸引2914人報名參賽,組隊817個,初賽階段有效方案總計505個。來自保衛柳丁團隊的參賽作品“手機UBI引擎”和清華大學交通大數據團隊的“小青椒智慧選房助手”專案分別獲得千萬A輪投資和天使投資。
政府資料開放將極大激發創新活力
相對而言,我國政府資料開放的速度不夠快、力度不夠大、政策跟不上、政府各部門積極性不高、基層公務員沒有可依據的規則心有餘而力不足。
我國政府資料開放任重道遠!
政府推動大數據產業發展還存在一些誤區。
一是盲目建設雲計算中心。沒有應用的雲計算中心,如同在無人的沙漠興建高鐵,建的越多浪費越多。雲計算中心不像建高速公路和高鐵,我們國家在“胡煥庸線”以東興建高速公路和高鐵是因為需求早已存在,而目前各地興建雲計算中心是沒有需求的盲目建設,更多表現為政績工程。雲計算中心最大成本不是電費而是頻寬成本,缺應用、缺高頻寬連結、少工程人員、硬體快速減值必然導致一批雲計算中心重演園區建設的覆轍。
大數據發展誤區之一:雲計算
二是盲目興建資料交易市場。各地興建資料交易市場的邏輯是:工業時代每個地方都有蔬菜、百貨、傢俱市場,建市場的收取傭金,政府收取管理費和稅金,只賺不賠的生意啊!大數據時代來了,資料交易市場也應該有啊!也應該是只賺不賠的生意啊!趕緊跑馬圈地吧!
直腸邏輯看似沒有問題,深入思考下此路不通!資料是新物種,如果用舊思維去思考,只會南轅北轍。
商品交易的三個要素是,有人願買,有人願賣,公允價格;為何市場上雞肉比鴨肉貴,因為一斤雞肉需要6斤左右的飼料,而鴨僅需3斤左右。過去的工業品、農產品交易的價格是成本價加上品牌溢價,任何商品都有公允價格。交易的是同質的分子,甲果農的蘋果與乙果農的蘋果本質上是沒有差異的。交易的過程是伴隨物權轉移的,甲賣給乙10斤蘋果,交易後物權轉移至乙,甲沒有了。資料首先沒有公允的價格,不同時間、不同買家、同一買家因演算法的改進對同一資料的報價都會有所不同。資料交易的是異質的、零成本複製的比特,如果甲賣4G交通資料給乙,甲還有,乙還可以專賣(即使法律條文約束乙不能轉售,但實際上很難控制乙的轉售行為)。
此外,網路時代的來臨,對交易來講是去仲介化和去區域化的,甲與乙通過網路平臺談成一筆資料合作,為何還要去資料交易市場被扒層皮呢?浙江義烏小商品市場、江蘇常熟服裝市場都在向淘寶遷移,資料天生以網路為基礎的為何還要逆歷史潮流去每個區域物理交易市場交租金呢?
我們在思考一個問題之前,要看這個問題的本質是什麼,否則只會在錯誤的道路上越走越遠。人類在實現飛天夢想之初是用火藥綁在椅子上、模仿會飛的鳥造鳥翅膀,這些都無疾而終。空氣動力學最終幫人類實現了飛天之夢,我們探尋資料交易的規則是要找到第二個“空氣動力學”,而不是造鳥翅膀,否則造的越大,摔得越慘。
我在思考資料資產交易是否是一個偽概念,根據業界的實踐,提出資料權益交易的理論【Data Equity Exchange(Data EEX)】,簡單講就是,甲擁有一批資料,經過脫敏化、標籤化處理後,乙、丙、丁可以根據自己的商業場景,用不同的演算法模型,將這些資料用於金融、交通、電商、旅遊等方面,甲與各方可以評估資料在應用中的商業價值,以及各自的貢獻,進行利益分成,比如甲乙交易時,資料價值占80%,剩下的20%歸乙方;甲丙方交易時,甲可能只能分到70%。
大數據發展誤區之二:資料交易市場
傳統工業成本定價法失效
人才是制約大數據產業發展的最大短板。以2025年萬億產業估算,我國大數據人才缺口在200萬以上。很多人商業嗅覺敏感,但對資料沒有高度的敏感性,即使對資料敏感,又不擅長使用各種工具,很多辦公室用戶不會用效率更高的樞紐分析表即是一例。傳統IT企業以服務流程為主,他們對資料無感,所以對於這些企業來講轉型壓力巨大。金融、地產、餐飲、旅遊等行業使用者過去的工作方式是精細化管理、服務好客戶即可,大部分員工沒有碰過資料,現在給他再好的資料也是枉然。也許10年後,您家樓下的小賣部,每天晚上關門之後都在用一套WIFI探測系統分析今天到店的轉化率,資料反映哪些商品擺放位置有問題,這就像10年前,街頭的蒼蠅館子無論如何也想不到,動輒需要花幾十萬的電子點菜系統,現在他只需要在淘寶花980元就搞定一樣。
競爭是推動新技術應用的最大動力。淘寶紅火之後,數百萬人湧向淘寶開店,淘寶網上的店小二與傳統店鋪素質要求明顯不同,要回分析網站、分析客源、明白用戶留存率、懂得精准行銷等等,這些都是以資料為基礎的電子商務經營分析,淘寶網上的競爭要比普通線下店激烈的多,因為每個店小二面對的是全國的商家,而不是線下區域內的3~5家經營者,所以我們看到淘寶網上店小二資料分析能力比國內500強的管理者還要強。國內大數據應用的先行者的示範作用將加速大數據在各領域的應用廣度和深度。
人才成為制約產業發展的瓶頸
雖然技術對大數據產業影響很大,但技術不足以主導大數據產業的發展,因為大數據是以應用為導向的產業。大數據技術源於更加開放的互聯網企業,如雅虎、穀歌、Facebook、Twitter等,這些企業的商業模式不是靠賣軟體版權,基本是靠廣告、服務或遊戲分成獲得巨額收益,這些企業把大數據技術開源出來推動形成更大的產業生態體系,間接獲取收益。傳統軟體巨頭如IBM、微軟、甲骨文等在大數據技術儲備或是在能力上沒有表現出比大數據開源軟體更好的功能和性能。於是,大數據底層架構技術和產品雖然很重要,但所形成可見的商業價值非常有限,相對於過去20年企業IT時代所形成的千億美元的作業系統、資料庫、中介軟體等基礎架構軟體產品市場降低了一個數量級。
大數據技術以開源為主
➤ 5、大數據產業發展展望

目錄
目前大數據發展階段相當於1998、1999年的軟體產業。大數據是軟體的一個典型分支,我們不妨從軟體產業發展的歷史軌跡來洞察未來大數據產業的發展趨勢。1998年北京的軟體產業占全國80%以上(目前從稅收、百強企業來看北京占全國的近三分之一),當前北京的大數據企業數量、產業規模占全國的70%左右。從北京86家大數據企業整體來看,平均規模為百人、千萬元收入,產品和解決方案集中在金融、行銷、政府等行業,要注意的是這批企業是頭部比較好的企業。目前,北京軟體企業總數超過40000家,上億元的軟體企業有600多家,每年新增軟體企業5000家左右。從目前大數據企業的規模、成長速度來看,明顯比1998、1999年的軟體企業要快。
從北京過去20年軟體產業的發展,觀未來大數據產業發展
如果說基礎設施、原材料是工業經濟發展的基石,那麼智慧終端機數、人均頻寬及流量、互聯網化率(行業資訊化程度)是大數據產業發展的基石。截至2015年底,我國已擁有6.88億線民,線民普及率達到50.3%,擁有全球第一的互聯網用戶數和移動互聯網用戶數。2015年月戶人均移動互聯網接入流量389M,比2014年增長90%。2015年,中國網路購物市場占社會消費品零售總額的12.6%,已經高於美國(2012年美國該數字為6%,2015年估計在9-10%),市場交易規模達3.8萬億元。所有以上這些都構成了我國大數據產業發展堅實的基礎,為我國大數據企業的成長培育了豐富的土壤。
我國互聯網管理的特點,造成在很多領域中國對全球跨國互聯網企業而言是“資料黑洞”,比如穀歌的廣告、谷歌的應用分發在國內的優勢相對其他國家而言要小的多,“資料黑洞”可以避免國內企業在幼稚期遭到跨國巨頭的衝擊。
我國更加開放的市場管理、資料管理政策也為大數據創新企業打開了更大的市場空間。
智慧終端機數、人均頻寬及流量、互聯網化率是大數據產業發展的基石
IT從驅動企業業務流程轉向資料驅動企業經營,更大的背景是IT從企業IT時代轉向消費IT時代,尤其是大眾廣泛使用互聯網和iPhone的誕生,數十億線民在網路上處處留痕、時時留跡,讓企業有機會洞察到潛在客戶,並發現銷售機會,從而實現大數據商業價值的閉環。企業IT讓位於消費IT,消費IT引領IT潮流,不僅意味著消費IT引領技術潮流、產品趨勢和市場格局;企業IT時代,PC、鍵盤對普通消費者而言並不是很好用的設備,但普通消費者只能是遷就;消費IT時代,手機、觸控式輸入對於企業級應用並不是效率高的工具,但在潮流趨勢下,企業級IT也不得不基於手機搭建。
未來,大數據依然會圍繞使用者行為畫像全面展開,進一步擴展至商業組織畫像、生理行為畫像、設備狀態畫像,甚至是靜態建築、橋樑畫像等,大數據產業也從數百億美元增長到數萬億美元,乃至數十萬億美元。
大數據產業發展路徑
世界上的每個人,只要他上網,從他出生、上學、工作、交友,在他人生的每個階段,生活的每個狀態無不由大數據來驅動。逛新浪網會有基於您過去流覽行為的猜您喜歡,逛淘寶會有基於大數據推薦引擎的商品推薦,上交友網站會根據你的特點幫你推薦伴侶…
三大驅動力之一:資料驅動的人生
我們的吃、喝、玩、樂、衣、食、住、行還有那樣能離開資料的呢?
三大驅動力之二:資料驅動新商業
無論美國的工業互聯網還是德國的工業4.0,抑或中國的製造業2025,都是在描述未來的新工業圖景,一句話簡單概括之:資料驅動的新工業體系。
在資料驅動下,工業產業鏈正在悄然發生變化,製造環節在產業鏈中的地位正在下降,服務業的價值正在不斷提升,過去服務作為製造環節的一個補充,未來製造環節將成為服務業的補充。過去豐田賣客戶一輛柯洛拉,豐田不希望客戶再找上門來,除非客戶再次買新車而來;現在發生了根本性變化,客戶取車的那一時間,對豐田來說,生意才剛剛開始,因為交付用戶手中的車通過車聯網產生資料才剛剛開始,隨著資料產生的不斷增多,豐田通過資料獲取的潛在收益也在不斷變大,預測性故障服務、改進產品品質、為保險公司提供個性化保險資料服務、賣旅遊機票、賣戶外裝備……圍繞汽車全生命週期的汽車服務、使用者服務要比一輛車價值多得多。
三大驅動力之三:資料驅動新工業
過去百年的工業經濟是以鋼鐵、石油、煤炭為資源通過鐵路、公路連接,標準化滿足人們消費所形成農業、工業和服務業三大產業。未來百年的資訊經以永不消失的資料資源為基礎,通過雲計算和各種網路等基礎設施,個性化滿足人們消費,形成類似工業4.0的新工業、滴滴、優步、Airbnb等新服務業,農業同樣也會被改造,從資料育種,到按需施肥,再到衛星確定最佳收割時期,以及基於農業大數據的期貨、證券等金融衍生品。
未來資訊經濟藍圖
互聯網帶來經濟的變化。傳統經濟是是範圍經濟,每個人的生活半徑相對固定,吃喝玩樂相對在一定區域內完成,互聯網打破了這一格局,原來在生活半徑2~3公里購買的乾果,現在可以通過淘寶購買千里之外的三隻松鼠和百草味,這個小案例折射出經濟的大變局。把以GDP為衡量標準的縣域經濟百強縣與以電子商務為衡量標準的電商百強縣做下比較,傳統經濟的百強縣浙江有18個,而浙江電商百強縣有41個,因為淘寶,改變了我們的生活,因為淘寶,改變了區域產業結構。隨著不同行業資訊化程度的不斷提高,將湧現一批類似淘寶的互聯網商業平臺。類似淘寶的教育平臺將出現在哪裡呢?類似淘寶的醫療平臺將出現在哪裡呢?類似淘寶的車聯網平臺將出現在哪裡呢?這些新興網路平臺的出現,都將導致未來經濟結構的變局。WTO統治者全球工業經濟的貿易規則,以資料為基礎的DATAWTO將重塑世界貿易格局,我們準備好了嗎?
大數據、新時代、新經濟、新格局
過去20年,中國企業級IT有效的軟體市場在1000億美元左右。有限的池塘、分割的市場、不公平的競爭、IT標準被跨國巨頭主導、跨國巨頭佔領頭部市場等多種因素造成千億美元市場被4萬多家企業一條條分割,企業營收天花板不過30~50億元而已。
互聯網則是另外一番天地,儘管國內企業沒有幾家能走出去,但依然出現BAT等幾家營收過千億,市值達數千億億美元的世界級市值的新國家企業。
數以億計的人口基數、龐大的市場、開放的競爭、放鬆的對內管制、等因素造就了千億級BAT。
我國大數據的發展雖然是企業級市場,但源頭是數以億計的普通消費者,所以其發展更像是互聯網產業,2025年中國大數據產業達到一萬億元應該是非常值得期待的。
2025年中國大數據產業達到10000億元
從國內外2000多家上市企業成長軌跡來看,儘管我國軟體產業在過去幾十年總是一個尾隨者,並且因為企業發展階段、管理水準的差異而落後5~10年,但這一波大數據我們幾乎是齊頭並進,尤其是在2010年後的這一波移動互聯網普及浪潮,後發優勢讓我們數億非PC互聯網用戶直接跨進移動互聯網階段,我們的資料資源也急速膨脹,為創新創業企業提供了天然的試驗場,一批企業快速成長起來,在與XXM、XXsoft、XXale等跨國IT巨頭競爭中屢次獲勝,因為他們沒有資料,純粹的技術平臺沒有任何競爭優勢。
獨角獸在大數據領域群體性出
總結:
1、大數據的背景:網路時代時時留痕,處處留跡;
2、大數據的實質:資料是物理世界在網路空間的客觀映射,資料是二度空間的DNA;
3、大數據發展階段:互聯網領域小學一年級,行業領域幼稚園小班,百年資訊經濟的頭10年;
4、大數據生態:創新創業此起彼伏,資本關愛有加,國家大數據戰略,萬億可期;
5、如何應對:資料意識、資料思維、資料決策、資料行動。