4月21日上午,由中國通信工業協會數據中心委員會指導,中國IDC圈與世紀互聯等共同主辦,以“同頻共振”為主題的“2021年中國IDC行業Discovery大會”在北京盛大開幕。現場匯集了數百名來自數據中心上下游產業的專家、學者以及從業人士,共同探討、分享數據中心的發展及未來。大會同期在線上多個渠道開通了現場直播,共有數十萬觀眾觀看了本次大會。
會上,中國信通院云大所副所長魏凱向與會者分享了《新數據中心時代下的數據生產要素》。
魏凱:尊敬的吳部長,金理事長,陳升董事長,大家好,這個會的主題非常好,叫同頻共振。我今天講的數據中心內容就講講在數據中心上層,要如何共振,我們新基建其實既有底層數據中心的基礎設施建設,也有新技術基礎設施。在國家發改委的政策里頭,實際上把云計算,一體化大數據中心,還有人工智能、區塊鏈都納入到了新基建范疇,我們要同頻共振,就是要探討上層的應用和數據中心怎么互動。
從去年到今年中央一系列的文件把數據作為生產要素提出來以后,給我們開辟了幾乎是無限的增長空間,這在全球是受創的,意義是非凡的,確實是洞悉了整個人類歷史發展軌跡。從農耕時代、工業時代,到信息時代,其實主要依賴的增長技術和核心資源,以及基礎設施都有巨大的變化,可以說是翻天覆地的變化,未來其實是非常可期的。
我們現在都在驚呼數據太大、太多了,增長太快了,實際上我這里要跟大家分享的圖非常有沖擊力,我們還在珠穆朗瑪峰的山腳下,今年是2021年,全球數據存儲量大概是50ZB,根據全球合作咨詢公司、智庫的預測,到2035年我們全球數據量是2100多ZB,指數增長在右側越來越快,越來越大,我們很習慣看線性增長。我們正在進入數據洪流的時代,5G核工業互聯網給我們開辟了這樣一個空間。數據中心產業里的同仁都非常幸福,因為你們有這么大的增長空間。
回顧我們國家對于數據的認識,對于數據戰略的布局,我們做了政策性的梳理,大概三個階段。
第一個階段是2014年左右,這個也是受了國際上很多知名企業和互聯網行業的啟發,原來最早數據不認為是一種要素,因為在很多企業看來我們還要存儲,按照國家的要求要把數據存3個月,這是一個負擔。但是在互聯網行業啟發下,這些數據可以用來做行為分析,用戶精準畫像,發現數據是有價值的,之前很多人說數據是“數據廢棄”,變成了“數據資源”“數據資產”,我們也有推動大數據發展的行動綱要,這是頂層戰略,明確國家要從政務、民生、經濟,向數據要生產力,這是第一個起步階段,但是這個時候其實大家對于這個的懷疑還是非常強烈的,就是數據到底能發揮什么價值。
在2017—2020年是一個新的階段,這個時候很多是自發的,企業內生的,尤其是金融行業,像運營商都發現其實數據驅動已經是他們不得不做的事情,如果沒有數據驅動就像開車沒有導航一樣,這是自發的行為,這時候國家出臺了很多政策。
2020年以后又不一樣了,國家把它作為基礎要素提升,甚至跟土地要素并列,這是一個新的命題,又給我們開創了一個新的空間,再上了一個新臺階,全社會對這個事情的認知又上了一個新的高度,我覺得未來空間非常大。
這里跟大家分享一下我們搞數據的人,從前重視什么,以后重視什么。
從前,搞大數據的人都在解決企業內部怎么高效存儲好自己的數據的問題,怎么更快的處理數據,怎么能夠快速得到分析的結果。我們有很多技術,ES、Spark、Hadoop,怎么高速運算這些數據。
現在甚至以后,其實反過來大家又開始討論隨著技術越來越多,管理成本越來越高,并不是技術成本,而是企業內部的山頭林立,在座有很多金融界的朋友,數據治理是非常痛苦的事情。今天在組織內部大家非常重視數據的更加智能,數據要良好的治理。因為數據不再是簡單的放在數據庫里就能產生價值的,而是要高質量的融合起來,真正讓它成為閉環里面一個不得不做的要素,所以現在正在討論的是數據湖,智能化數據治理系統等等這些,這是單一機構內部的,我覺得這個問題還好解決,正在走上一個良性的軌道,從追求快到追求高質量的發展,這是單一機構內部的。
更加棘手的問題是組織之間的,未來的空間在產業數字化,產業數字化實際上是跟產業互聯網是同義詞,產業互聯網不是個二元結構,消費互聯網是二元結構。產業互聯網,一個汽車兩千個零部件,誰也不能吃掉誰,所以我們要尊重企業的存在,產業鏈的存在。合作的時候其實數據就很難誰給誰,到底是我把數據給你還是你把數據給我,從前我們很少碰到這樣的問題,數據跨機構融合。
以前我們在談數據跨機構的時候,我們更多是要保護,隔離,鎖在保險柜里保密。今后為了做產業互聯網,跟社會上的上下游要打通,政企打通,企業之間打通,所以關鍵詞變成了開放、融合。所以在大的政策里,可以看到我們不但在提數據要素變成生產要素,更再提數據要素市場化,“十四五”規劃里面有一大段專門提怎么把數據變成市場化要素,就是要開放、融合,在保證數據安全的前提下促進數據在不同主體之間連通,合作,所以又有了隱私計算、區塊鏈。
陳升董事長也是這方面的思想家,其實都是在解決數據跨機構之間可信共享的問題,這是我們數據領域的人在考慮的問題,我覺得這些都跟數據中心的底座有非常強的關系,它意味著我們以后的計算模型其實是從數據運行到IO運行,到網絡密集型的任務,這是一個變化。
我們再看人工智能,怎么挖掘數據可能不能靠人,得靠機器建模。人工建模非常費勁,甚至我們很難掌握這個領域的知識,所以最近幾年對于數據的處理,大量依靠機器。機器在數據里面訓練、學習,得到隱藏的模型,這個模型有很多時候人看不懂,但是沒關系,能產生實效,比如說語音翻譯,準確率達到99%,但是解釋不了這個原因,但是這個不妨礙我們機器很多事情做得很好。
人工智能最近幾年也進入了一個新的發展階段,以前大家可能覺得人工智能是靠大量的數據堆起來的,現在除了數據量要拉大,拼算力的時代也開始了。最近我們做了一個分析、統計,在90年代到2010年的階段,人工智能要訓練一個模型,它消耗的算力需求,每兩年翻一番,這還是一個比較均衡的,比較線性的增長趨勢。到了2015年以后,到現在,人工智能要訓練一個模型其實大概平均每3.4個月翻一番,就是算力的需求。去年有一個非常重磅級的人工智能訓練模型Open AI的GPT-3文本訓練,寫的文章根本看不出來是機器寫的還是人寫的。以前一億參數就搞定了,去年用的GPT-3模型里用的是1750多億,數據量從40G到45T,翻了一千倍,神經網絡層數從48層到了96層,這預示著人工智能未來的發展回歸到了最底層的依賴,還是落到數據中心里面,未來誰能玩得起,只有數據中心玩家能玩得起,未來是拼算力的時代,這是人工智能對數據中心的改變。
人工智能模型是什么模型?是計算密集型的,是CPU密集型的任務,現在有很多既要求CPU密集又要求IO密集,所以我們要有網絡來高速互聯,對數據中心要求也很高,所以我們提智算中心。云計算是數據中心資源最多的行業,增長非常快,未來我們院的認識,其實云計算未來空間非常大,我們現在上云率還是非常低,大概30%多,云已經從粗放到精細,從IaaS到SaaS的轉變,未來預估IaaS比較大,SaaS比較小,未來產值可能是倒三角,SaaS產值會非常大,包括邊緣這些發展非常快。
無論是大數據、云計算還是未來數據中心的發展、人工智能的發展,底層都是要靠數據中心提供強大算力。像三峽集團給我們提供電力一樣,我們中國現在數據中心產業發展如火如荼,但是什么事情一平均立馬就拉下來了。我們按照人均算力來說,我們屬于中等,在波蘭后面。人均算力460GFLOPS,前面國家都是西方發達國家,我們人均算力差距很遠的,表示我們未來發展空間非常大。
在上層應用的驅動下,數據中心進行了新一輪發展,根據我們院的統計,去年我們數據中心機架數是314萬架,2020年我們預計會到440萬架,翻到8倍,增速30%以上,給這個產業增加了很多錢,包括液冷,無損網絡,很多新技術在開始投資,這一波新基建的數據中心建設不是傳統的,相對老行業數據中心本身就新,但是這一輪數據中心的建設是數據中心里面本身就新,新模式的發展,包括產業生態的合作。
我們看到基礎運營商還有第三方數據中心,還有第三方數據中心和服務商的合作模式也越來越豐富了,產業鏈協同也是一個新的開始。
我們院今年有個課題,給我們的任務,就是讓我們貫通云、大數據、人工智能、數據中心來看算力基礎設施的變革、轉型,未來算力基礎設施將怎么走,跟網絡怎么耦合,現在我們都在提云邊協同,算網融合,數網協同這些新的概念,我們未來怎么發展,我覺得需要跟業界的同行共同探討,特別是在碳達峰,碳中和的大背景下,以前是攤大餅的模式,未來我們要走更精細的模式,我們怎么能夠構建一個融合這么多數據中心形態的,包括邊緣,包括智算中心、數據中心、超算中心,傳統機房、云機房這些怎么形成一個非常好的一體化的算力基礎設施,真正讓算力成為像電力一樣的,打開水龍頭計算能力就來了這樣一個美好的未來,當然它要適應我們現在很多的場景,包括5G、車載、物聯網這些場景,空間非常非常大,我也特別希望能夠跟各位數據中心的專家能夠多學習、多探討,共同促進這個產業的發展,我就分享這么多,謝謝大家。