從ChatGPT火爆出圈到AI發展迎來關鍵時刻,新型算力基礎設施已成為智能時代的核心競爭力。為加速推進以城市算力網建設作為切入點,努力推動數字城市算力基礎設施的改造升級,打造數字城市“新市政”,助力通用人工智能時代全國算力“一張網”的建設,由中關村超互聯新基建產業創新聯盟與粵港澳大灣區大數據研究院聯合主辦、世紀互聯與互聯科技承辦的“首屆超互聯新算力產業暨第三屆中國IDC行業Discovery大會”于4月21日在北京舉行。
人工智能算力基礎設施的設計、評測與優化
}AI算力是算力基礎設施的重要組成部分,是新基建和國家“東數西算”工程的關鍵任務抓手。預計到2025年,我國AI算力總量將超過1800EFlops,AI算力占總算力比重超過85%。這意味著,算力將迎來高速擴張時代。~
4月21日,由中關村超互聯新基建產業創新聯盟與粵港澳大灣區大數據研究院聯合主辦、世紀互聯與互聯科技承辦的“首屆超互聯新算力產業暨第三屆中國IDC行業DISCOVERY大會”在北京舉辦。中國工程院鄭緯民院士發表了主旨演講,以下為演講實錄:
尊敬的各位來賓、各位朋友,非常高興來參加這個會議。今天會議的主題提到城市就是一臺計算機,整個中國就是一臺計算機。那么,一個城市怎么變成一臺計算機?一個國家怎么變成一臺計算機?我覺得有兩個事情比較重要,一個是算力、一個是超互聯。我們在無錫有一臺超算計算機,叫太湖之光,是我們在清華大學的一個組管理,在內蒙也有一臺計算機由我們管理。現在我們怎么用計算機的呢?比如,你用無錫這臺計算機首先要把軟件和數據想辦法傳輸到無錫,無需要人去現場,就可以正常運行。現在面臨的問題是什么?比如,軟件加數據4T的數據量需要傳輸,使用最好的網絡傳,且在網絡不出錯的情況下傳輸過去,需要多少呢?可能要4~5天才能傳到無錫。如果這個4T數據傳輸到內蒙這臺計算機,基本上也需要4~5天。你可能覺得非常驚訝,怎么這么慢?假如我們不用網絡,直接刻成盤,順豐快遞,第二天下午也肯定能到。不是我一個人這樣用,全國做計算機應用、機器在外地的人,可能都這么用。會前和幾位同志聊天,我前兩天去貴陽,貴陽也是“東數西算”的一個節點,當地同志介紹貴陽有幾個特點:首先,貴陽沒有地震;其次,當地溫度比較低;再次,貴陽電費也比較便宜。三個事情一說,機器放在這個地方比較好,沒錯。我跟他說,這三點,甘肅可以這么說,寧夏的中衛也這么說,內蒙也這么說,我只說一件事情,如果從北京傳輸1T數據到貴陽只需要兩個小時,且費用比順豐快遞貴不了太多,能夠做到這一條,機器的利用量馬上增加到70%。怎么辦呢?我今天聽了超互聯以后很高興,四4T數據傳輸到無錫需要4~5天,快遞需要1~2天,那么,超互聯有沒有可能做到1~3個小時到且價錢比順豐快遞貴不了太多?
昨天我在發改委開會聽到他們說沒問題,我說你專門給我一根線,且滿足兩個條件:4T數據傳輸控制在2~3個小時,且價錢和順豐快遞差不多,才能真正做到“東數西算”、城市就是一臺計算機、全中國就是一臺機器,這個事情還沒這么簡單,時間原因我在這里不再過多闡述。
接下來,我主要講講人工智能算力,AI算力是算力基礎設施的重要組成部分,是新基建和國家“東數西算”工程的關鍵任務抓手。人工智能計算機是最近30年才有的,30年前沒人說有人工智能計算機,人工智能計算在海量數據、實時響應、極端條件等場景下相較通用計算優勢愈發明顯。預計到2025年,我國人工智能算力總量將超過1800EFlops,AI算力占整個算力的比重超過85%。以后的計算機中AI計算機和處理人工智能的計算機將占很大比例。我們說算力迎來了高速擴張時代,現在算力不夠,特別是隨著ChatGPT的發展,算力需求大幅提升。我今天講三個事情:
首先,AI計算機與HPC計算機有什么不同?HPC歷史悠久,AI是最近的事,HPC計算機應用在天氣預報、核聚變模擬、飛行器設計;人工智能做分類、回歸、自然語言處理,應用場合不一樣,運算精度不一樣,HPC是64位浮點運算,甚至128位。人工智能計算機兩個八位數加減乘除做的快,這兩個機器不一樣。現在要做人工智能計算機,應該長成什么樣子?我覺得要考慮幾件事情:第一是半精度平衡性,主要算8位、16位、32位,實際上這次我們注意到不但要考慮這個,特別是語言模型的訓練以來,精度浮點運算也要考慮,因此我們有個說法,雙精度與半精度運算性能之比為1:100較好,什么意思?64位、124位處理能力和8位、32位處理能力1:100比較好,既可以做普通的東西,也可以做語言訓練。因此,我們提出半精度平衡性的思想;第二是網絡平衡設計;第三是IO子系統平衡設計。
我們提出這三個平衡設計,值得高興的是,現在有些廠家在考慮我們這三個平衡設計,現在國內有差不多30個城市都在建,或者已經建好了人工智能超算系統,包括鵬城云腦二期等等。
我們預測HPC+AI+大數據中心在未來不超過五年的時間內將會融合在一臺計算機中,既可以做HPC,又做AI,也能處理大數據。
其次,為什么需要一個人工智能算力基準測試程序?過去HPC計算機,這臺計算機處理高性能計算軟件好不好,分數高意味著處理高性能好,那么,這個軟件能用到AI機器上嗎?顯然不夠,因為HPC機器主要是64位加減乘除要做的快,現在我們更重要的是8位、16位、32位做的快,這兩個不太一樣。原來的軟件用到這里是有問題的,怎么辦?需要重新做一個東西,比如DeepBench,針對單個芯片;Mobile AI Bench針對移動端硬件;MLPerf擴展性不好。所以AIPerf的設計要考慮四件事情:一是一個統一分數,二是可變的問題規模。人工智能計算集群往往有著不同的系統規模,差異性體現在結點數量,加速器數量,加速器類型,內存大小等指標。三是具有實際的人工智能意義。具有人工智能意義的計算,例如神經網絡運算和自然語言處理,是人工智能基準測試程序相較于傳統高性能計算機基準測試程序的重要區別,是能夠檢測集群人工智能算力的核心所在。四是評測程序包含必要的多機通信。
要達到這四個目標,據此購買一臺計算機處理人工智能問題,究竟買華為還是買5G,抑或是買聯想?,我建議用這個評測,分數高的一般處理能力就強,我不敢說百分之百,分數越高越好,對用戶來說有個評判標準。因此,我們做了一個國際人工智能算力排行榜,每年11月15號在中國超級算力大會ChinaSC發布排行榜,我們希望用這個軟件評測,分數越高排名越高,用Top500榜來評一評500臺人工智能計算機,這個榜單評選已經三年了,疫情原因,我們現在評的大多數是國內計算機,國外參加的少,今年我們爭取將國外的廠商也納入這是AIPerf測評。
最后,百萬億參數超大預訓練模型的訓練加速方法。ChatGPT出來以后,大家對大模型訓練都比較關心。美國SAT考試題目,模型參數達到千億,正確率已經達到60%左右。更大參數模型的效果具有重要科學意義,一般說來,參數越多、訓練的數據越多、計算機越多、效果就越好,越接近于人的腦子,大概是正相關關系。所以,探索更大參數量模型的效果具有重要科學意義。
預訓練模型的計算結構,核心是transformer模型,模型的計算出主要集中在嵌入層、注意力層、前饋網絡,計算核心均為矩陣。
我們看并行訓練技術,現在訓練都不是在一臺單機上訓練,不是串行的,因為串行進去,模型梯度新模型要重復多次,這樣,一臺計算機的速度就會不夠快、存儲不夠大,因此現在基本上都是并行訓練。并行訓練有兩種:一種是數據并行、一個是模型并行。
數據并行什么意思?舉一個例子,這是兩臺計算機做并行訓練,每臺機器都裝上模型,把數據的一半拿去分別訓練,計算機做了整個模型,這個訓練出來以后不是最終結果,最后結果既互相交叉又互相通信,中間結果要互相通信,這個通信量還不小,是要交換數據的,這是一種情況。
一種是模型并行,什么意思呢?把整個模型切一半,其中一半做機器0,其中一半做機器1,讓它去訓練,中間也有交換數據,這個交換數據相對來說沒有數據并行交換次數多,一般情況下,數據并行交換數據挺多、通信量大,模型并行相對少一點,大概是這個情況。
于是,現在并行訓練成為大模型訓練的標配,ChatGPT,1萬塊卡并行,國內幾家發布的都是幾千塊卡,肯定是并行的。
我為什么講這件事情呢?我經常跟學生說,10年前,你是北大大氣物理系天氣預報專業畢業的,畢業以后,比如說分到國家氣象局,你懂計算機語言,懂一般的數據結構,這種情況下,這個老師編一個天氣預報軟件出來,編的挺好,運行情況挺好,這是十年、十五年以前情況。現在情況不一樣了,這個人只懂天氣預報專業,只會計算機語言,不知道機器的結構,要么你這個軟件轉不起來,要么轉起來了效果不太好,現在這個條件比原來要困難多了,這就叫軟硬件協同。
我講一個例子看看并行訓練模型。這是青島一臺很大的計算機, 64核,再加大一點的核,這里一共有65個核,這叫組,中間有六個這個東西,每一個是65個核,乘6,有390個核,中間這些東西叫一個CPU,封裝在一塊。256個CPU叫超節點,一個超節點里面有256個CPU,每個CPU有390個核,這個超節點內部我們做到每個GPU跟CPU之間有直接的通路,通信很快。256個CPU組成一個超節點,每個超節點之間有直接通路,超節點內部通信很快。超節點內部256個CPU通信很快,兩個超節點之間通信就要慢一點。因此,我們看模型做好了并行模型,究竟是數據并行還是模型并行?數據并行通信量會很大,我們希望這個計算機通信要快,于是我們說,如果超節點內部是數據并行,沒問題,計算量很快。如果是兩個節點之間,最好采用模型并行,你需要有這個基本知識:數據并行在一個超節點內部中,兩個超節點之間最好模型并行,這樣才能保證通信都比較好。比如256個內部通信很快,兩個之間通信比較慢,那我就要考慮256個超節點內部最好是數據并行,兩個超節點之間最好是模型并行。如果你不知道這個結構的話,就有可能并行的效果不好。因此,選取高效并行策略、如何進行高效數據存儲、如何選取合適數據精度、如何實現動態負載均衡,這四件事情都跟計算機系統結構有關,也就是說,你一定要知道系統結構才能把模型做的比較好。否則做不起來,或者做起來了性能就比較差,現在是這么一個情況,實際上不只大模型,天氣預報也有類似問題,不知道系統結構,軟件是無法編好的。
高效數據存儲也是如此,怎么保證海量數據存儲速度比較快,也是這個問題。此外,,選取合適的數據精度,精度小算得快,精度越大算得越慢,但是,精度太差就無法算對。因此,解決了這四個問題,大模型算力就會比較好,否則,再好的運行結果也不會好到哪去。
我們做了一個模型,叫八卦爐,針對這四個問題,把這個大模型放到我們的機器上去,運行效果是挺好的。
最后我想說的一點是我們做了一個并行訓練系統FastMOE,用于評估數據并行和模型并行怎么選,非常高興騰訊、百度、阿里巴巴、華為都用了我們這個系統來解決問題,而且效果比較好。
綜上,人工智能算力是當前人工智能領域發展的關鍵。ChatGPT用了1萬塊卡,后面的模型好像用了幾萬塊卡,我們國內一個單位有1萬塊GPU卡的并不多,因為價錢貴,1萬塊A100的費用多少?大家都比較清楚,而且面臨卡脖子的局面。因此,只有四塊卡要做大模型基本是不行,我估計怎么也要1萬塊卡。無論怎么說,算力很重要,我們很希望有一個計算中心,比如世紀互聯,想辦法有1萬塊A100,這是發展的關鍵,現在很多人要做類似ChatGPT,這個算力怎么解決,當然國內做的也不錯。我們團隊最近幾年對人工智能的三點貢獻。
第一,實際上我在清華計算機系所在組是高性能計算研究所,我過去做高性能計算、存儲、分布處理,基本不會人工智能,但是人工智能又這么重要,于是最近幾年我們也在參與人工智能,人工智能計算機長成什么樣子?提出了一種AI算力基礎設施的架構和平衡設計原則,考慮不同精度算力怎么做平衡,要考慮互聯應該怎么聯法,要考慮IO怎么樣,這是第一件事。
第二,研制了大規模人工智能算力基準評測程序AIPerf。提供計算機運行評測數據,成為用戶采購的考量。第三,設計和實現了百萬億參數超大預訓練模型的并行加速方法。訓練大模型做好了,怎么裝到計算機上去,我們有一套辦法解決三個關鍵技術,把你裝到這臺機器上的模型效果是最好的。
謝謝大家,講的不對的地方請大家批評指正!
2140:一個只需要計算的世界
}算力是一種低熵體,是粒子的有序排列,是一種規范量子場。從算力的發展階段來看,2140年將是算力的極限之年。~
大家好,我是量子學派CEO。今天我講的內容是純粹原生態的內容,我也沒講過這個內容,請大家原諒一下。今天我演講的主題是《2140:一個只需要計算的世界》。
是不是真的存在這個世界呢?這個世界的語言、文化、文字都可以通過計算呈現,也就是說,它不需要語言、不需要文化,也不需要藝術,這個世界很殘酷。同時,這個世界也不需要律師、不需要詩人、不需要哲學家,這個世界只需要一種職業,這種職業就叫做運算師,或者是計算師。如果說這個世界存在的話,你只要給這個計算師一個算盤,給他足夠的時間,就可以計算一切的一切。如果能夠再進一步的話,如果他擁有了量子計算機,如果他可以把黑洞作為他的一個計算機,如果你把宇宙大爆炸之后的信息給他,他可以幫你演算出138億年的宇宙,這就是可計算的世界。
這個世界可不可以真正實現呢?其實在萊布尼茨的世界被精準化的時候,馮·諾依曼將圖靈思考的時候,這種技術就可以實現了。當然,也有人會說還有量子效應呢,還有混沌理論呢,甚至我們連三體運動都沒辦法計算,如果不能計算的話,我們怎么說可以計算整個世界。但是我們有沒有想過,我們談到的量子效應,它只是更深層次理論和計算里面表層的一個干擾,或者是一個不符合規則的一種表現,量子效應最下面的底層計算,我們可以找到一種微觀的計算方法。
這個世界到底有沒有可能存在?有些人不愿意談這個問題,我們的股市指數可以計算嗎?我們權力的傲慢可不可以計算?我們的愚蠢偏執可不可以計算?我覺得這一切現在來看都是可以計算的。這個話題二十年前我和我的朋友討論過,當時我的意見是否定的,但現在看來可能是肯定的。
再舉一個例子,今天我們的會議目標是什么呢?這是我自己揣測的,我覺得我們今天會議的目標,假設我們要一起共同創造一臺人人可分布式的宇宙計算機,我們把這個目標放到我們的計算模型里面,放在大模型結構里面進行計算,最后輸出一個結果,這個結果可能就是我就是這個人人可分布式計算機的一個分布式節點,這可能是我的朋友陳升先生所需要的一個結果。
這個結果還不夠,這個結果還可以用下去,下次會議的時候把這個結果作為起始點,我們再調整前面的參數,把函數重新調整,我們生成下一次會議的目標值,我們下一次會議可能就沒有這么復雜了,可以更簡單,不需要人到場。但這個會議希望我們到場,一起開開心心的交往。我們不爭論,很多人可能覺得不是這樣的,我們不爭論,我們慢慢坐下來就行了。
我們再回到最原始的狀態,最開始的數學表達是從萬物皆數開始,但其實它表達的只是一個結果,但是萬物皆數之前還有萬物皆算的過程,萬物皆算是一條線,萬物皆數是一個點。萬物接算是過程,萬物皆數是一個輸出的結果。我們回過頭來看,萬物皆算已經包括了萬物皆數,計算即一切,一切皆計算,我們人存在的本源可能就是一種計算。
怎么理解萬物皆算呢?包括數理、物理、編程、計算邏輯本身就是計算的過程,我們舉個特別極端的例子,文化藝術,我們原來以為文化藝術是機器不可超越的,我們認為這是來自上帝給予我們的創造力。但是,今天我們回過頭來看,我們今天所有的產品,我們看到的ChatGPT,我們談到的AGI、Midjourney所創造的圖片,你看到太空歌劇院之后會明白什么是靈魂畫手,它比人畫的東西更有靈魂、更深邃、更有意境。ChatGPT就不用說了,我們和它聊天,如果再迭代下去,我覺得它唯一的缺點就是太像人類了,它跟你聊天的時候,因為它太完美你不喜歡它,我很喜歡它的胡說八道,現在胡說八道是好事,怕的是太嚴謹太完美了。AGI,我們原來以為內容創造是最不可能被替代的,沒想到最可能被取代的反而是內容的創造,到了AGI還有什么不可以被計算?
萬物皆算有個很簡單的公式,要有一個演算者、被演算的對象,中間是數據和算力,這是一個基本的公式,大家都在用。
我們再從萬物皆數往前延展,它為什么可以計算,現在只要是計算機行業的朋友大概是明白的,從代數計算到邏輯運算,歸根結底到萊布尼茨世界,提出了二進制和數理邏輯的計算,不僅能夠計算代數,還能夠計算邏輯,它就是與、或、非的計算,這里面本質上有三種對立,十進制和二進制的對立,牛頓和萊布尼茨的對立,代數計算和邏輯計算的對立。牛頓和萊布尼茨之間發生了一場戰爭,這一場戰爭,一個代表了傳統的世界,一個代表了四百年后的世界,萊布尼茨提出二進制之后三四百年才有了現在的計算機世界,當年牛頓和萊布尼茨PK當然是萊布尼茨輸掉了,因為當時的生產力沒有辦法支撐他的理論。當然這個故事是我編的。當年牛頓和萊布尼茨主要戰爭是在微積分,但這個故事是有可能發生的。
萊布尼茨把數理邏輯說的非常清楚,其實在東方計算的源頭,關于周易、易經,其實它的原理跟萊布尼茨二進制是非常相似的,周易的數學表達是什么?它是一根橫線,兩根短線,它用一根長線和兩根短線來演繹整個世界,其實周易是非常完整的科學化的計算架構,但是我們沒有按照周易本身的原理架構來演繹我們的科學,最后我們把科學演繹成了玄學,我們把計算演繹成了籌算,其實我們可以做的更好。所以真正理解周易的反而是西方的大哲萊布尼茨,他看到當時康熙的老師給他一個先天八卦爐的時候,原來東方的數學跟我的二進制是非常相關的,這個時候他肯定會得到一種安慰,這個故事不是編的,是真的,白晉作為康熙的老師,萊布尼茨給康熙做了一個加法器,這都是真實的故事。
我們繼續往前走,我們來到今天,今天大家都在談論深度學習神經網絡,當計算加上深度學習神經網絡的時候,其實它是一個簡單的線性變化,加上一個非線性的激活,擠壓性的激活函數,就這么簡單。
下面這個圖是深度學習神經網絡的基礎模型,無數神經元的迭代,才有了transformer的涌現效應。我們現在所有的一切都是在尋找一種算法,我們深度學習神經網絡總結起來有很多數學方式和人臉算法,但本質上只尋找一種算法,這種算法就是找我們人本身的算法,也就是上帝算法,我們自己的算法是什么,我們大腦神經網絡的算法是什么,為什么要尋找這個算法?再舉一個例子,假設我今天在路上看到一個美女,看到美女之后我會掃描過去,把三圍數據掃描之后傳輸到大腦中樞,匹配上億年人類基因,在基因進行匹配之后我們會選擇我是跟她做朋友還是跟她做敵人,我跟她將來會生猴子嗎,它會有非常多的策略選擇,這所有的一切只發生在0.01秒的電光火石之間之內,人類的大腦算法有多優先,但人類大腦算法是沒有辦法找到它的,這是我們人類本身邊界的問題,因為這個算法不是我們自己創造的,可能有更高,或者來自另外一個世界創造的,這種算法是沒有辦法找到的,就像我們沒有辦法找到第一批動物之前是什么樣子,這個東西沒有辦法完整的推演出來。所以我們只能去模擬、模擬、再模擬,現在整個深度學習神經網絡本質上就是想找到這樣一個函數和算法,這就是我們現在在做的事情。但是我們是有邊界的,并不證明我們找到的算法就一定比它弱,很難講。但是我們現在知道的深度學習神經網絡本身就是模擬我們的大腦。
說到2140,我們剛才講到的全是現實世界發生的,用科學演繹,現實世界有很多限制我們,沒有辦法和所有的科學邏輯進行匹配,但是我們可以建立一個可計算的平行世界,在這個世界里面一切都是可以計算的。2140是什么呢?它是比特幣被挖完那一年,但這是理論上的,可能被超挖了,它是69299號區塊,到這個區塊開始的時候,比特幣總數是209999999769,沒有2140這個數據,2140是區塊鏈非常重要的紀元,也是算力巔峰之年。為什么?因為那一年可能是算力的最高峰,人類算力最高峰的時候會發生什么呢?我們并不知道算力到底是什么,我們說算力可能是軟件和硬件之間的連接,可能是最后激活函數的輸出,但算力到底是什么?我們一會兒再討論,算力的本質到底是什么。
如果人類算力達到顛覆之年,它會有星際穿越嗎?這個東西很難講,這是我們構建2140的世界,2140我們已經做成一個社區了,算是一個跟現實世界對比的平行世界,我們已經做了四五年這個項目。這里面我們只談到和計算相關的事情,三個規則:一是算力與文明正比例關系;二是里面設計很簡單的二叉樹算法,對宇宙內所有文明進行監控;三是宇宙里面存在算力的過濾器,當你的算力超越某個峰值的時候可能會對你進行限制,文明為什么沒有辦法往更高層次走,可能跟你的算力相關。但我們做這件事情不僅僅是科學科幻,我們想介于科學和科幻之間,或者介于現實和超現實之間,我們希望現實世界能夠影響2140世界,2140反過來影響現實世界,相互互動,我們做了很多事情。
包括這棟樓,我們用三維建模已經做出來了,這是138億年里面的一棟樓,這個就不細講了。這是科學方面的設定,這個做的很細膩,圖靈測試,整個設計非常硬核。這里講到了一些點,和今天的會議非常接近,這個故事其實我們早就已經有了,今天我看到說城市就是一臺計算機,我們講的也是一樣的,人類就是一臺計算機。這里我們談到幾個點:
第一點,2023年,今天是算力的中心化,而且沒有辦法改變它。當算力如此中心化的時候,當算力未來成為電力一樣東西的時候,當算力被某些人完整控制的時候,我們該怎么辦?我們在2050年左右,我們要創造另外一個系統,我們每個人都可以投資,每個人都可以獲得其中算力的一部分,人人分布式的一個算力中心。這有點像獻血,我們現在都去獻血,哪一天我需要血的時候它可以給我,但所有的架構都是分布式的架構,自己通過自己的數據,寫到智能合約里面。所以我們從算力的中心化到算力去中心化,無論是中心化還是去中心化,最終導致極大化,有更多更多的算力,算力極大化會帶來什么。
我們再講講算力是什么,我們剛才從微觀層面談算力,微觀層面的算力我們該怎么說呢,從宏觀世界、從宇宙世界看算力是什么,算力可能是一種低熵體,是粒子的有序排列,是一種規范量子場。低熵體什么意思?我們在擁有算力的時候是一定要付出代價的,這種代價是什么呢?當我們的算力越來越集中,代價是什么,獲得更多算力的時候,如果是低熵體的話,必然高熵、熵增,如果全宇宙都是低熵體,產生的負面效果可能就是宇宙大膨脹,還可能是暗物質的生成,這是更宏觀的對算力的看法,這個東西挺辯證的。
我們在設計里面會把這個事情說清楚,這是算力的辯證法,不可能讓算力無限擴張,一定是有利有弊,這里說說和現實世界相關的東西。
算力不可能三角,我們之所以走到今天的原因,算力不可能三角,它不能突破,但可以放大,所以才有了transformer,才有了GPT。算力的中心化不可能改變,但我們可以用區塊鏈去中心化進行約束,算力生產力的增長、算力生產關系的簡化,算力的擴張、WB3.0的收斂,香港、北京和深圳能不能構成另外一個三角,這是現實世界算力運作起來的方式。
我說一下結論。人的存在即是計算,如果長江黃河的流動是計算,如果粒子的衰變是計算,如果人類的生與死也是計算,人的生死可不可以看成0和1呢,我們把計算機0和1做一個開關和計算,有沒有另外一種生命把我們的生和死當成他們的開關,我們的生和死只是他們的計算方式而已,如果是這樣的話,那計算的意義又是什么呢?
這里說一下我個人的感受,如果這個世界是完全可以計算的世界,那這個世界到底怎么樣,很多人覺得這個事情太殘酷了,太無聊了,太可怕了,只需要計算,什么都不要,詩歌、藝術、文化都不要,這樣的世界是好的嗎?有的人就是喜歡這樣的世界。
我們談下元宇宙,這里有幾個關鍵詞。很多人不喜歡元宇宙,但元宇宙這個概念出來的時候我很喜歡,為什么?因為我覺得元宇宙的核心是我們重新去創造另外一個宇宙,重新創造另外一個世界,而這個世界我們可以看到它是怎么演繹、怎么進化的。我們現實世界呢?我們看這個世界演化的時候才可以反觀我們現在的世界,我們才可能知道現實世界是怎么演繹的,反觀我們的現實世界,這是我對元宇宙的基本看法。我們把人計算過去,我們人就是計算的一部分,把人融合進來,我們所有的行為只不過是計算的一部分。還有一個東西,很多時候我們沒有辦法理解,我們理解這個世界是有邊界的,這個邊界我們是沒辦法突破的,不光是我們這個世界,AI也是一樣的,我們創造了AI,AI很強大,但是AI能夠理解人類嗎?也許AI永遠沒有辦法理解人類。它只不過是從另外一個角度來理解這個世界而已,人和AI是永遠沒有辦法理解的,就像人和我們的創始者一樣,我們是永遠沒有辦法理解的,怎么辦呢?有一種可能性,就是算法,計算。AI只不過是在模仿人腦的算法而已,我們的人未來尋找一種新的算法而已,這種算法如果能夠進行統一的話,去引領整個世界,就是大統一算法與美麗新世界。
分布式商業與大模型
}超互聯新算力,共建共享共治,是促進服務器和硬件設備等的聯合投資。誰投資誰受益,可以自由交易,為網絡基礎設施建設發展出新的金融機制,把網絡基礎設施未來收入通過金融工具的方法進行組合分拆流轉,可以提前把收入進行變現,這也是國家目前在算力市場發展中正在提倡的金融工具。~
尊敬的陳總,各位來賓,非常感謝世紀互聯今天的邀請。分布式商業與大模型是陳總命題的,我今天講的內容除了來自我本職工作研究以外,也非常受和陳總的一系列討論,以及超互聯方面實踐的啟發。
首先,大模型需要大算力,前面幾位專家都非常深入和專業的討論了這個問題,我這頁引用的是一個半導體研究機構,今年2月份的一篇分析報告,它講到如果當前Google做的所有翻譯任務通過ChatGPT來做的話,大概需要410萬張A100GPU,這些相關服務器和網絡相關的成本資本支出有1000億美元,這還不包括運行起來對電費的消耗。從這里面可以看到大模型背后底層是大算力,從經濟角度來看,它是非常巨大的成本問題。
現在我們就面臨這么一些問題,從一個商業,或者政府做規劃的角度來看,有幾個矛盾要解決:
第一個矛盾,算力投資對固定資產投資成本要求非常高,單個企業的實力肯定是有限的,所以這個網絡應該是一種有分布式的味道,需要大家共建、共享、共治的網絡。
第二個矛盾,我們可以設想,如果中國政府投入諸多成本制造這個網絡,理論上不是不可以,但不會發揮有效市場的作用。如果要發揮市場作用,這個網絡有很多企業投資,但又有非常強的公共利益,為社會服務的,這個時候怎么平衡企業的利益和公眾的利益,這是第二個矛盾。
第三個矛盾,投入是當前發生的,但是收益是未來很長一段時間慢慢兌現的,我們怎么平衡當前資本支出和未來收益的問題,這是金融要解決的核心問題。
第四個矛盾,算力需求是高波動性的,不僅在時點上,有的時候對算力需求大,有的時候沒那么大,有的時候高峰的,有的時候低谷的。從企業之間來看,每個企業提供的算力和用戶對算力需求之間也是不匹配的,我們怎么在算力需求的波動和供給沒有彈性的情況下進行平衡,這是第四個矛盾。
第五個矛盾,金融發展的問題,我們要發展大的算力,不管是“東數西算”背景下還是AI發展的背景下,這是我們國家高質量發展實體經濟有很深的需求,但是背后有巨大資本投入,怎么發揮資本力量,資本有很強的金融屬性,凡是有資本的地方,不可避免的有投機因素在里面。新能源汽車,特斯拉股價里面沒有投機的色彩嗎,但怎么把投機的力量引導到對實體經濟有利的地方,這是第五個矛盾。
我們從分布式商業的方向,剛才我在外面展館上看到世紀互聯做的分布式數字經濟的方案,我感到很受啟發。我們提出分布式商業解決方案,本質上是大機器間大規模協作網絡,最底層可以穿透到GPU層面。這么一個分布式不僅是算力網絡,里面還有各種各樣的計算任務進行分包,很大的計算量,怎么進行分解,剛才鄭教授也講了這個問題。實際上算力的網絡和國家正在建設的數據要素市場,這兩個市場是不可分的,只不過算力的網絡更標準化,更有大宗商品的屬性,數據要素市場數據是非標準化的,數據價值也是千差萬別的,這兩個之間有緊密聯系,發展的時候需要統籌。
核心的兩個工具,第一個是國家正在發行的數字人民幣,這是我們國家人民幣的數字形態,在座很多嘉賓在手機上應該試用這個工具,后面會講它怎么使用。第二個是網絡結算單位,英文縮寫是NSU,我們試圖讓它捕獲分布式網絡價值,激勵內生增長。為什么會有這個東西?互聯網,海底的光纜,互聯網里面各種硬件設備,這是由公司提供的,不管是瀏覽器、電商、搜索引擎也好,都有它的一套商業模式。我們試圖在AI網絡里面讓它變得不太一樣。
首先第一點,這不完全是算力網絡,我讓它成為經濟活動的網絡,讓機器本身成為一個能考核的經濟單位。我們要考核一個機器做了什么事情,并且給它相應的獎勵,想做這個事情需要基礎,要準確度量機器的貢獻,有這么幾件事情:
一是讓每個機器擁有唯一的身份標識,不能被偽造或修改。
二是機器的行為過程具備可追溯性,不可抵賴,機器做的任何事情都有一套記錄在里面。
三是機器身份和行為的真實性,可以通過算法自我證明,我不需要通過人工和機構來參與驗證,我本身就是我的證明。AI算力網絡分布非常廣闊,如果通過人來進行審計的話成本是非常高的。
所以解決方案我們在GPU層面可以加上DPU芯片,含區塊鏈原生功能,最簡單的密鑰算法,密碼學公鑰就會成為機器唯一ID,不可篡改。我要做分包,要做計量,必須對機器有一套新的尋址機制,可以用機器公鑰的哈希作為尋址要素,代替IP地址。有了這個基礎以后,我們現在就可以看到機器網絡變成經濟網絡,怎么講呢?信息在計算機在互聯網傳輸的時候,你并沒有給每個貓進行獎勵,但機器網絡任何活動行為都將帶有該機器身份的簽名,通過公私鑰和加密機制,實現機器身份和行為的自我證明。機器網絡不再是以無特征的信息包作為主體,任何行為都是交易和參與經濟活動的一部分,通過區塊鏈實現交易記賬,為后續交叉驗證、行為追溯和貢獻統計提供基礎,我把它概括為交互即記賬。
公鑰對應經濟學就是錢包的概念,你可以設想,每個機器都有錢包,人民銀行在數字世界人民幣,除了大的銀行,還把中國移動、中國電信等運營商吸引進來,怎么通過數字人民幣在機器之間付款。舉一個例子,現在每個車上都裝了ETC,通過收費站自動劃費,將來的場景完全可以直接通過數字人民幣做,在沒有網絡的情況下,NFC的方式碰一碰就可以付款過去。當然,我們在AI設備之間不存在碰一碰的問題,之所以說這點是強調它的安全性非常好,可以適應在物的層面進行支付這么一個環節。
當然,數字人民幣如果用在機器網絡更重要的是智能合約功能,每個機器做了什么工作,直接在錢包之間進行人民幣付款。
第二個是AICU錢包,這是我接下來重點提的概念,TCTIP網絡沒有股權的概念,只有公司才有股權,但是網絡產生網絡價值,我通過什么方式進行度量和捕獲,這是AICU做的事情。不管怎么樣,這并不是烏托邦機制,獎勵機制背后這個機器誰控制的,誰買過來的,最后的人可以很多樣。人計算的基礎設施,也可以是IDC,也可以是公司,甚至是個人參與這個市場。
計算任務的發包、計算任務的分包,計算任務與算力的匹配,目標是動態調劑算力供需,提高算力利用效率。盡可能減少閑置。我們希望所有的計算任務都獲得相應的報酬,所有的計算任務都按照市場經濟規則來做,數字錢包的方式機器之間支付。更重要的是智能合約,算一下你到底做了多少貢獻,我應該給你多少錢。這個網絡有公共產品的味道,網絡里面需要有人維護,激勵網絡內生增長,怎么辦?引用稅收機制,分布式網絡里面每發生一筆數字人民幣流動,我自動提取一筆流到公共錢包里面,這筆錢用來做基礎的系統建設。同時,也構成了NSU的價值基礎。NSU本身是機器網絡里面的token,它是一個有現金流支撐的token,總量是固定的,定期發放,每個周期里面它的發放量指數衰減,總量是收斂的,我們設想每個周期開始的時候,系統決定這個周期發放多少NSU,已有算力貢獻了多少計算量,等比例發給他們。
經濟網絡活動,稅金平均分配給NSU,如果你有一個NSU,不斷有未來現金流的收入,因為它是分布式網絡,有治理問題,這里就可以引進DAO機制,不管是云計算設施、數據中心,公司和個人通過投票參與公共事務。
NSU能產生現金流收入,并攜帶治理權,相當于分布式計算網絡的“準股權”。我們通過一套設計方式讓它具備“準股權”的地位。一個節點,不管是IDC還是設備,持有NSU越多的話,在算力匹配里面優先級越高。比如打車,你的評分級和司機評分級越高,你們就會被優先匹配。NSU作為網絡價值的計量單位,將隨著分布式計算網絡的發展而增值,再加上前面通縮的機制,越早聯網的算力和計算量,同樣的算力和計算量,獲得更多的NSU,激勵大家越早加入越好。
比如討論在中國范圍內這個東西的可行性,其實不存在任何問題,它確實借鑒了目前區塊鏈DePin領域做的事情,分布式公共基礎設施,這里最典型的項目是Helium,發展通訊網絡,之前很多人做過探索都沒有成功,但是它通過這么一種方式,很快把節點在全世界范圍內鋪開了,這體現了經濟的作用和資本在里面,完全符合中國對貨幣的監管,也符合人民銀行現在發展數字人民幣的方向。NSU并不是說一個空的token,有堅實的現金流基礎,它有價值基礎支撐。至于將來有沒有一天NSU放在主流股票交易所去做,這取決于后面的發展和監管政策,當下是完全沒必要的。在條件不成熟時,可以定期在區塊鏈上開展針對NSU的公開透明的拍賣,以在網絡節點之間調配NSU。NSU在分布式計算網絡中的地位,類似未上市公司授予員工的“影子股權”。它就能實現當前資本投入和未來收入之間怎么平衡,通過資本把資金收進來。
為分布式計算網絡的建設者、運營者和維護者提供公平、可持續的激勵機制,通過政府來做成本太大了,收益不見得高。公司壓力也很大,超互聯新算力的方式來做,共建共享共治,促進服務器和硬件設備等的聯合投資,誰投資誰受益,可以自由交易,為網絡基礎設施建設發展出新的金融機制,把網絡基礎設施未來收入通過金融工具的方法把它進行組合分拆流轉,可以提前把收入進行變現,這也是國家目前在算力市場發展中正在提倡的金融工具,我們這個和它有點像。但不一樣的是,REITS沒有網絡效應,兩個REITS持有者之間沒有任何關系。但是持有NSU有巨大的網絡效應,這也反映了現在大家討論web3.0的事情,美國討論web3.0主要是各種應用,我們更多偏向基建方面。
建設大模型與元宇宙的多元算力網絡
}“大模型+元宇宙”雙重風口的疊加,加速了算力爆炸式增長。~
尊敬的鄭院士、竇教授,各位來賓,大家上午好!
我是摩爾線程的張建中。剛才大家談了很多基礎算力跟算力網絡,鄭教授花了很多時間跟大家分享新的大模型訓練跟推理對于算力的需求。其實我把它總結在去年跟今年這兩年當中發生的事情,大模型跟元宇宙其實它們更加催生了全社會,或者是新的計算世界對算力的大量需求。
剛才分析報告講,按照這樣估算,大家都要購買A100的話,這100billion的投資是不是必須的,如果我們講價錢是不是必須的,答案是不一定的。但算力是不是必須的,我相信答案是yes,而且很多都證明,我們今天在座的每一位可能都在經歷一個巨大的變化,如何讓我們的一個傳統經濟轉向數字經濟,傳統經濟轉向數字經濟的過程當中,無論你是用GPT的方法去打造和增強你的數字經濟的發展,或者是你可能有更加超現實的想法去把元宇宙的建設去改造我們傳統的數字經濟的話,這兩個風口其實都在加大我們對所有算力的焦慮。
人工智能正在高速發展,它的下一步是每年的迭代還是每幾個月的迭代,如果我們要去看它的算力需求,其實跟我們產生數據的量是有關系的。我們都知道每天智能汽車采集的數據不是以T為單位,現在是以Z為單位。我們的手機,我們每天的聊天記錄,我們每天的微信交流的記錄,圖片也好,視頻也好,文字也好,它的交互方式,它的多元化數據來源,都會增加我們對新型算法和新型算力的強大需求。這些模型我相信立刻使用讓我們每一個人都會碰到兩個不可跨越的我把它叫鴻溝。
第一個是算力鴻溝,無論你算力有多快,馬上就會用光。無論你的存儲有多大,很快會用掉。有的時候就像我們自己的辦公室家居環境一樣,無論給你多大空間你都會很快把它占滿。
怎么樣跨越這些鴻溝呢?在很多的算法、速度、數據跟我們的知識積累當中,人類最好的經驗就是吸取和學習別人已經獲取的知識。所以說,大模型訓練不一定每個人都要去做一遍,為什么不從別人那去學習呢?為什么我們不能夠在全世界通用呢?如果我們大家都能夠把資源更好的節約起來,把算力更好的互通起來,把城市變成一臺計算機,把一個國家變成計算機,把全球全人類變成一個大的計算網絡的話,這樣會給我們節約大大的資源。
所以在技術演變當中,如果說怎么樣去搭建和組成一個全人類都能夠共享的計算網絡,就成了我們一個新的研究方向。摩爾線程雖然成立不久,但是我們致力于在算力網絡當中提供一個多元化的算力平臺,我們都知道每個人的數據不能千篇一律,即便是我們在今天可能很流行transformer的時候大家去使用,可是它的下一步呢?我們想一想,在transformer之前那些算法呢,之后的算法呢,數據的多樣性,多模態的轉變,每個人,每個算法學家,每個科學家,他們源源不斷的創意會給我們帶來很多大量的復雜的或者是非常多元化的數據格式。
所以一個算力網絡它必須要支撐多元化的數據格式,如果我們把它去看我們的大模型訓練也好,推理也好,計算也好,你的輸入跟輸出結果都不會是文字到文字,可能以前從一對一或者一對多,未來一定是N to N,輸入有完全的輸入,輸出也會是無窮的輸出,你的計算單元一定能兼顧到方方面面的格式。我把簡單的計算方式統稱為元計算。因為元道特別強調一生二、二生三、三生萬物,我把它選元計算也是因為我相信一切,講元宇宙計算和元計算,其實它的輸入和輸出哲學上講會比較玄,但從我們所有計算格式上去看,它能夠包括的數據量就是千千萬萬我們人類創造的各種各樣的數據。它的文本生成也好,圖像生成也好,二維的視頻,甚至于三維的模型生成,都可能加深數據算力需求量。
如果我們把這些計算要求在一個大的數據中心當中完整的處理好,我們想象一下,這樣的處理器可能處理我們的科學計算,我們的視頻處理,我們的3D計算,或者是我們的雙精度、高精度的科學計算,或者是一些物理仿真計算,都有可能在其中把它集成起來。理想的狀態是需要一個全功能的GPU,我把它叫全功能GPU是希望它的覆蓋面可能會在今后的應用當中不停的增加,卻能夠滿足不同用戶的需要。我們看這個結構和架構,我們希望GPU(英文)能夠處理各種不同的數據單元,剛才鄭老師講,我們希望它有FP32,有FP16,有IN8,除此之外,鄭老師希望至少有一個1:100的64,我們要滿足,不光是矩陣的計算。除此之外,我們不光需要2D計算,還需要3D的計算。當然,基本上這些算力以后一定會在數據中心,而這些數據中心一定會不知道在哪里。如果我們今天世紀互聯能給我們大家形成一個超互聯的網絡,其實這個放在內蒙古的烏蘭察布,或者放在貴州,對我們來講這個沒有問題的時候,解決了鄭老師的快遞順豐成本的時候,一切就不是問題。
但是在計算環節當中,這個處理器作為基礎設施,把它建在城市大腦當中,我們就不能把它建錯,所以在建設基礎設施的時候,算力的綜合性、多功能性、多元化性,可能就成為我們人類搭建數字經濟基礎設施的時候一定要考慮的一點。
我們把這個叫全功能GPU的時候,希望大家利用GPT和元宇宙兩個風口同時發展的過程當中,無論是國家的基礎設施建設,還是我們每一個民營企業、國營企業在建設大模型、大數據的智算中心的時候能考慮到更加全面一點。這樣的產品我們希望能夠把這些元計算的能力通用的計算加速的能力源源不斷的在我們數據中心當中搭建起來,當然要搭建這樣一個通用性,你就要有一個完整的支持全功能GPU的基礎架構,我把這個架構叫MUSA。MUSA就是元計算統一系統架構,利用這樣的架構搭建一個芯片,其實我們在考慮搭建整個城市大腦的時候,它就像一個小的芯片是一樣的。我剛才和元道討論也是一樣,我們搭建城市的時候,考慮的計算機體系結構是一樣的。所以我們等于從一個macro architecture變成是一個micro architecture。無論你是計算、存儲、網絡通訊,這是一樣的道理,在大的計算機里面是一樣。小到一個超算也是一樣,再小到那個節點里面也是一樣,剛才鄭老師講的超節點也一樣,到了節點里面的處理器還是一樣,它永遠都是在最大化的利用你的算力,去搭建適合你的算力的網絡。
我們把全功能GPU運用在各個行業的時候你會發現,今天很多應用都可以滿足我們實際應用當中圖形處理、科學計算、仿真計算、數據分析、AI計算、推理等等。在很多應用過程當中,我們搭建強大的基礎網絡的時候,其實作為一家芯片公司你很難只是做芯片,芯片只是提供這個算力當中的一個部件。作為一家GPU公司我們能做的一定要在芯片的基礎之上,為大家能夠搭建一個完整的算力網絡,這個算力網絡可能包括你的云端的管理平臺,從怎么去部署單顆芯片,到端的節點,節點里面可能放幾百個GPU,超節點有幾千個GPU,組成大的計算網絡,甚至在跨城市之間遠距離的大型計算網絡就會成為GPU公司研發的重點方向。
如何讓GPU跟CPU、跟DPU,或者是其他的一些存算多功能異構計算的各種不同處理器能夠綜合在一起使用的話,這個管理平臺就會非常重要。所以我們專門搭建了一個MCCPlatform元算力管理調度平臺目的是跨平臺、跨月去管理和支持各種不同的算力,去建構一個算力網絡。在這樣的算力網絡之上能夠提供更多的工具,讓開發者和用戶更好的使用這樣的計算網絡,他能夠自動化調度,按需分配算力,按照各種不同的任務去節約大量的成本。像這種大型的網絡基礎設施作為一個企業單獨去購買、單獨使用成本是很高的,就像我們全社會不可能人人都建一個飛機場,也沒必要每個人建一個高鐵站。但是這樣的基礎設施大型網絡設備應該是作為一個公共的基礎設施去把它設計好,讓各個企業、個人和單位都能夠充分的享受這些數字經濟給我們帶來的改變。
我相信,這樣的一些基礎設施可以幫助整個科技行業從研發到生產,到最后部署運營,都能夠有一套完整的解決方案,讓每一家企業都能順利轉型到數字經濟當中去。我們都知道,由于GPT大力出奇跡以后,很多行業都希望用GPT的方式方法去改造他們行業的GPT。對于訓練一個行業的GPT,你從數據收集開始,怎么有一整套工具在網絡當中收集好、存儲好,運用好這些預訓練好的模型,別人已經預訓練好的模型沒必要再做一次,搭建你自己的網絡。如果我們有些行業知識,可能你認為是你的核心競爭力的時候,這些行業知識你可能不愿意分享給public,這些data可以在自己行業當中專有的支持和搭建你自己的專業網絡,這些專業網絡可以幫助我們很多專業公司提升他們自己的整體核心競爭力。
部署很簡單,統一的網絡,全國全社會你可以很容易的把你的知識服務到各行各業。所以利用GPT和元宇宙的全功能大型的基礎集成網絡可以幫助很多行業能夠用低成本就可以服務到各行各業的全社會。我們希望利用摩爾線程全功能GPU能夠和像世紀互聯基礎網絡設施合作伙伴搭建基礎網絡服務,能夠讓社會大家都能夠共享這些科技帶來的發展機會。
當然,還有很多這上面的基礎研究也是我們公司在這方面做的一些成果,我們在利用GPU的圖形渲染、人工智能的計算以及在云端的分布式管理和虛擬化技術,可以讓這些產品去服務數字人服務人工智能的推理,去支撐各行各業的應用,都可以得益于基礎網絡的建設。我們也希望能夠和我們的很多合作伙伴在國內建立一套更加國產化的服務本地的很多用戶的需要,滿足我們在基礎設施當中這些算力提供的服務。因為在國內我們有很多本地的合作伙伴,他們生產的CPU操作系統等等,這些產品都可以跟我們的GPU組合在一起,能夠提供和服務各行各業的用戶,這樣的生態系統也可以在國內培養出一批大量基于新型的人工智能和元宇宙計算的各方面的合作伙伴。在國內很多的開發者以前可能都在利用國外成熟的API開發自己的軟件,比如說ChatGPT之后我相信有很多人去想試圖利用ChatGPT API,打造能夠服務各行各業用戶的軟件。但不幸的是這些軟件可能在國內用不了,怎么辦?要搭建自己的基礎設施。所以作為基礎設施的供應商和開發平臺,咱們國內有很多很多研發機會,去建立一個更加適合本地的生態系統。
我們也希望能夠利用這些機會跟國內更多的合作伙伴一道去打造基礎服務網絡,這些不光是芯片,不光是硬件,也不光是網絡設施,同時還包括服務更多開發者的軟件的基礎設施,只有這樣才能讓我們的經濟轉型走的更順,走的更遠。
謝謝大家!
AI時代的云計算
}在確定性消失的時代,思想上的最大問題是以為按照確定性的方法可以解決不確定性的問題。~
各位領導,各位來賓,大家下午好!
我們現在所處的這種狀態是不是因為過去認知水準上做出的決定造成?無論是先進的還是落后的,不管是受制的還是不受制的,我今天20分鐘就想講一個話題:我們相不相信依據過去的想法和思路能夠讓我們解脫今天的困境,或者說是先進性。如果這個思維方式不改的話,我們有極大概率會在一年之后、十年之后、五十年之后還在談同樣的話題,因為我們的思維方式還是在用老的思想方式去看新的現象。
但是,這里有一個很麻煩的情況,人類的大腦、我們的思維本身以及我們的物理空間、時空空間,理論上根本不知道下一秒鐘會發生什么的,當我們對下一個動作預測的時候依據的是過去的經驗,過去的經驗適用于現在和未來的概率是多少?肯定不是百分之百,而且大概率事件,我們今天所處的這種情況就是因為我們用了舊的想法才讓我們變成今天這樣子。大家問自己一個問題,我們是否接受現在的狀況?如果接受,說明我們過去的邏輯和決策是對的;如果不接受,我們想再去拿現在的邏輯套明天,或者回到本源,去仔細考慮一下我們的邏輯是否符合時代的需求。
所以剛剛接到這個任務說今天和大家交流,20分鐘很難講很多細節內容,我想咱們就套題目,三生萬物,行則至。
請問,一生二、二生三、三生萬物,一之前是什么?是零,如果我們不從零上重新想問題的話,大概率事件我們還是從過去形成的邏輯走到今天,今天走到明天。談到這個有些人還不是很接受,我問大家三個問題:
第一,大家都坐過高鐵。第二,大家是不是都坐過汽車。第三,第一次坐高鐵的時候,沒有安全帶,會不會安全?高鐵的安全性和汽車比,一個系安全帶,一個不系安全帶,誰高誰低,它是范式的改變,用過去的想法套今天是無法理解的,但人的大腦又沒法思考到你的認知圈之外的東西,你不可以想象你不知道的東西。請問大家,我們說即將進入一個智能時代,即將進入一個元宇宙,即將進入Web3.0,我們真的知道我們將進入一個什么時代了嗎?因為人的大腦是一定要用舊有范式,否則沒法接受。人是不主動活在未知的未來,當你邁出左腳往前走的時候,我們很難接受我根本不知道這個腳放下去是一個坑,你要想象它不是一個坑,哪怕是一個坑,然后往前走。
像我們最近看的所有文章、所有報告、所有預估,都一定是拿過去的一個筐裝今天的瓜,筐和瓜有沒有關系我們不管了,但是必須暗示自己有一個因果性,哪怕它只是相關性。所有學概率學統計的都知道,第一門課講的就是相關性不是因果性。那么,現在看的所有東西是不是只是相關性,因果性是什么?所以今天的題目特別好,我今天想交流的是,真的是相信三生萬物,行則至。那個三就必然問二是什么,二就必然問一是什么,一就必然問零是什么,這樣咱們才能夠把我們從現在這種不管是好的局面還是不好的局面,抽出來,上一個臺階,否則的話咱們還在這里面打轉,一會兒我會講過去發生的一些事情。
我們要相信,我們既不是前無古人,也不是后無來者,我們只是技術發展中一個非常小的螞蟻,我們趕上好時代了,這個很危險,因為我們不知道它是什么,能不能接受我們不知道,把過去的包袱放掉,干什么?隨時按照當前信號給你的分析,而且你要知道信號信道比怎么樣,機器可以產生很多數據信息,請問大家,我們每天看朋友圈里這些信息,你覺得它是誰寫的,你覺得它是把你往一個坑里帶還是往一個山坡上帶,我們想過嗎?因為我們大腦還是用海德堡印刷機時代,我們堅信只要是寫出來的,只要是放在我面前的,原先說耳聽為虛、眼見為實,如果現在跟大家講眼見也是虛的,只有行則至,我們愿不愿意這么想問題、這么去做事,還是說不,這個大咖說了怎么樣我就這么做了,有可能對,有可能不對,但是在劇變的時代這樣非常危險。如果OpenAI那些人信了大咖說的話,今天就不會有ChatGPT。如果不是他們兩三年前開始換思維范式,覺得當時未被證明的ChatGPT方式比雙向bard好一點,我相信我們今天不會談這個話題的,包括世紀互聯,如果當初陳總創業時相信了專家跟他講的話,我相信不會有這家公司的,也不會有微軟。
我們為什么相信我們聽到的所謂專家的意見,不是說專家的不是,而是現在技術發展把每個點給連在一起了,連在一起的好處是網絡效應,但有一個后果,什么后果?人的腦子已經想不明白了。這是網絡,比如村里有10戶人家,傳統的網絡效應,就算雙向,不除2,90個,如果10個節點實時連接,實時產生0和1的互動,我同意或者我不同意,是10的27次方指數關系,請問,有哪個腦袋能夠把這個問題想明白?所以我們要靠機器去算,幫我們計算這些各種可能性以及之后產生的答案,給我們做參考。AI時代,一方面云計算會有足夠的算力來算這些事情,但是很重要的,算的這些東西也能夠反哺云計算,讓云計算更高效,它的虛機、容器分布,誤差信息的及時檢測,各種自動化,現在云計算如果還在靠腳本去管的話,不是不可以管,這是兩難問題。它意味著兩點:第一,你確實用腳本管,還管成了;第二,你剛好有資本去管云計算,還沒有到用算法管云計算。當你不用算法管云計算還管的很好的時候意味著什么?意味著你的連接才是90的連接,而不是10的27次方的連接,這種信號會誤導你,覺得我是行的,所以本質上出問題了。
這是我非常喜歡的一個英國作家,他寫的這部戲,200年前維多利亞時代和當下新的思維方式做同一件事,萬一你認為的基礎都錯了再往上搭樓就沒法搭了。微軟里面我觀察到的現象,誠懇地講,我根本不知道現在發生什么事了,因為每個人每天都在刷新昨天的認知,我在這個行業中看到,如果有資格說我昨天錯了,恰恰不意味著你不行。如果每個人說,老板抱歉,我昨天想錯了、昨天說錯了。這個人一定要嘉獎,一定要鼓勵,為什么?因為他昨天真錯了。如果有人跟你說老板,去年定的方案我想的特別對。要小心,這種有可能是幸存者偏差,小概率現象極大表現。
在這種情況下,大衛斯諾登(音)是IBM的科學家,他在本世紀初就跟情報系統做應對復雜性挑戰的事情,這里有個框架,他去年寫了一個論文,作為綱領,他跟大家講這年頭方向對了就行了,不要那么較真你要去哪。東北的朋友知道,每年春節要去海南過冬,那個就是終點。其實東北朋友們的春節沒必要去海南過冬,你只需要去一個溫暖的地方就可以了。你的溫暖的定義和別人是不一樣的,如果你走到福建覺得夠溫暖了你就走到福建,如果預先說別人說了海南過冬,造成交通擁堵,你說是海南錯了還是你的方向本來是找移居溫暖的地方,結果被框在里面了,目的變成方向了。如果我今天知道了否定昨天,跟老板說明天要把今天否定掉,這對老板的挑戰就來了,你說這人該不該用?
所以敢于承認不知道,但還是行則至的人才和想法、公司才有未來。
我既不知道它是什么,我也不確定它不是什么,但大致知道是什么和可能不是什么。古人講做個明智的人,這個智我加了個知人者智,自知者明。光知道人不夠,還要知道機器,在這種情況下,我把微軟Microsoft 365里面每一個詞掰開了揉碎了講一下,再次強調,不是答案,只是觀察,可能就把它破掉了,但是不破不立,這種物種的生存能力可能就好過我想知道,因為知道在哲學領域稱之為全是主觀的,知識本來就是主觀的,你認為怎么樣就怎么樣,我們都是盲人,今天可能我摸的是大象的屁股,AI時代云計算像一堵墻,小馬過河下水了,摸象的鼻子說像根繩子,咱倆誰對誰錯?沒有誰對誰錯,行則至,貝葉斯大腦,它的最大特點是你隨時用新知識新信息糾正原來的PA,然后變成PAB。
40分鐘產品發布,我問了很多人,大部分人看了后面的演示,很炫,但演示基本上做的那一刻就過時了,今天和你講的技術明天就過時了,這是劇變的時代,你一定要知道當時那個想法怎么出來的,圣人畏因,凡人畏果。你追因有可能把土地弄好了長出參天大樹出來,等別人桔子樹長出來了你說我也種一個桔子樹,萬一你的土地在淮北,你就不應該種桔子樹,種蘋果就完了,要有一棵能夠在這片土地上長出來可以吃的水果,把蘋果做的最好是可以和桔子交流互換的,因為淮南長不出這么好的蘋果樹。
推薦大家看這篇文章,1945年寫的,提到了memex信息設備,世界上所有名字選的都是隨機的,代表想法,但是更多是愿意讓你聽的,是名字后面的邏輯,我把它抽象成selection by association,生成往下下一個詞怎么出來?一個布什,一個恩格爾巴特,搭建了特別好的數字化轉型范式,你學那個范式比誰都強,未來也是跟他學的,咱們一直想解決的就是大腦的問題。
未來十年內,如果每個人手邊都有一個小D,你問他這個人是什么人,它站在我們所有人肩膀上,以一個個體在眾智的基礎上大家互相PK,那個時候現在很多范式就完全解開了,教育的方法、選人的方法。如果招程序員的話,一個會刷題的,跟一個老板你能不能給我聯網,我直接在大預訓練模型上算法,把活給干了,我想你當然是想要把活干了的程序員。可是我們的考試和選人機制沒辦法那么快把活干出來,新的大預訓練模型都是概率模型,有時候是會發瘋的,不放在0,放在1度,有時候胡說八道,不能不懂,又不能全記下來,還要做活快。所以我們現在需要的是完全不同物種的程序員、管理人員、公司形態、社會形態,如果我們還拿過去去套web3.0、人工智能、元宇宙、區塊鏈,元宇宙已經三十年的詞了還當真,信息時代知識經濟,別追那些新詞,會誤導我們的,我們就是讓機器用知識幫人類做決策,讓機器干活。
正是因為這樣,機器很容易成為神,人的大腦思維很容易產生共情,一旦產生共情,當機器的行為方式跟人有一定匹配度的時候,我們沒法想,機器怎么做的,拿一個人類的詞給它,機器會思考,機器會判斷,機器會把人殺掉?NO,機器是用它的方式,如果思考的話請給它加一個金字旁,機器的判斷和人是不一樣的,我們如果產生共情的話很容易錯誤判斷機器的能力,真以為它知道什么叫排序了,它不知道。它的每一個token都是概率算出來的,這時候人就知道怎么做了,做機器的主人。
這是大都會,一個默片,講的是思考的決策大腦和行動手之間需要有一個中間調解人,這個調解人必須是人心,這是將近一百年前說的。
我們現在做數字化轉型,管理云計算中心。在它沒有被自動化之前,每一個節奏都是很浪費精力的,但你想象一下,這里的每一個動作都是事件Base的,每一個動作都是沒有記憶力的,就是有一個動作。公司里面無論是財務、人事、運營,還是銷售、生產,把所有流程都變成一個Action,然后給它一個信息,如果公司全都這樣的話,馬上就能做數字化轉型,馬上就能讓機器幫你把這里面的每一個trigger,根據某種commission移步往前走。這個我認為就是AI要搭架子的基座、腳手架。所有公司所有流程如果沒有這個腳手架的話,你再請AI、再好的工程師、再好的算法都沒有意義,因為你沒有一個可被trigger的,每個actor與actor之間彼此要互相調用,而且是沒有記憶力的,有記憶力就亂了,記憶力要在外面記,里面只管做事。這是機器的做法,每一個都是trigger。
我們的云計算流程,我們的公司,有沒有形成這個毫無用處的機器,如果沒有形成的話,我們談人工智能就稍有點距離。這里有trigger、有定時器,用機器算法做的定時器,不同的(同上),讓這個事情有并行、有串行,有延時,慢慢往前走,這就是數字化標準的模型。
哥德兩百年前寫的小說《魔法師的學徒》,這東西你會開就要會關,不會關就出問題了,還要像寶瓶中的精靈一樣,能收回去,最后的備份方案永遠是人,這個公司又能夠最高效,同時又不會被機器搞死。這就是它的邏輯,其實就是兩件事,人是有弱點的,咱們有一堆毛病,機器能幫我們解決這些毛病,它也腦補了,我們不得不腦補,否則就活不到今天,現在機器沖著人的思想去的,我們不能老自己腦補,比如你看這人,一定是你有一個固化思維它就怎么樣,不是這樣的,但是人要智慧機器。
所以第二個問題,Copilot,智能副駕優先過自動駕駛,為什么?通常我們認為先有智能副駕,再有全自動駕駛,不是的。微軟是說Autopilot是Copilot之前的事,以后我們要的是智能副駕,誰為主體誰為客體不要小看這個,這時候腦補一下,十年以后路德主義風行。對技術能力的信仰,促成了對技術能力的實現。對人類價值觀的信仰,才能守住人類的主體性。總說機器代替人,這樣很容易產生誤導,而且讓這個社會甚至走向一個本來不應該走的方向,其實Copilot就是以人為本,Autopilot以機器為本。
左邊是大語言模型,右邊是應用,中間是知識圖譜,一個數據庫,這個我覺得是核心,如果所有公司都在用大語言模型的話你是everyone,因為每個人都有。如果存成知識圖譜,被大語言模型語義匹配,那么你們公司說的促銷跟可口可樂說的促銷,語義上是不一樣的,這時候你們公司才能真正擁抱機器的能力,否則的話是沒有核心競爭力的。你的第一步是擁抱大語言模型,才更需要踏踏實實做數字化轉型,其實就是信息化,信息化遠沒有完呢。
談到AI,也別只是一個OpenAI,是整個系統工程,復雜的巨系統工程,是一個短板效應加長板效應的結合,一個機器連一個螺絲釘,如果不結實的話這個機器就跑不了,哪一個能不做呢?哪一個都得做。
最后,其實還是知識,還是數字化轉型,還是流程再造,還是全員賦能,還是AIX,是所有的東西。這么談AI就容易了,AIOps就是把客戶需求、服務內容和工程全部自動化,然后一步一步的,從以人為本的技術,到模型安全合規,到可解釋的AI模型,小步快跑式的AI功能落地。用幾個模型演示一下,你能干這活是微軟做的事,在座各位千萬別做這種事,因為你是拿來賺錢的,微軟是賣這個能力的,給您演示的是結果,從您來講您是一下達不到這個結果的,需要一步一步從一樓走到十樓,這個邏輯千萬別忘記。
初看都是技術,全都是人的問題,人的問題全是思想的問題,思想的問題最大的問題就是死不悔改,我比你有經驗,我比你牛,我比你官位高,我比你知識多,所以才聽我。這個時代怎么可能呢,是誰站在時代最前沿聽誰的。從個體到集體,得有領域模型,沒有領域模型你跟其他公司是一樣的,你的每個流程,每個動作,全都有個副駕,人在中間來做決策,最后從整體來講我認為咱們面臨的挑戰遠比AI大得多,是文明之爭,文明生存與發展之爭。這個以后有興趣可以深談,當我們說人工智能、工業革命,我傾向于它說小了,它就是一次文藝復興,人類知識再造,還是要解放思想,不要把機器當神,謝謝大家!
超互聯新算力的創新發展
}今天不再是一切皆信息,現在變成一切皆計算。算粒(Computinglet)+超級互聯將帶來新算力的三大突破:突破計算節點算力供給極限難題、突破高速總線網絡廣域部署難題、突破算力網絡協同建設機制難題。~
尊敬的鄭院士,尊敬的各位好朋友,非常高興有機會和大家在這里做一個小小的分享和匯報。我是一名在民營企業做數字基礎設施的老兵了,見證了一路上的發展,很激動人心看到現在最新的通用人工智能的發展,可以想象對未來基礎設施的變化,在這里和大家做一些對未來思考的分享。
有以下七點:
第一個,兩個戰場,多大的戰場?前面幾位嘉賓都談到了,三四個月翻一翻的算力,從華為角度看,如果綜合下來,到2030年是500倍的通用人工智能訓練所帶來的算力增長,有不同的角度。剛才微軟中國CTO韋青說的非常好,每天刷新自己,我們不做任何判斷,我們把不同的數據擺在自己面前,我們用自己的眼睛去觀察,看看最后哪個判斷是對的,從我個人來看,我更愿意相信,確實,如果是每三到四個月以100天的速度翻一番的話,確實是面臨百萬倍指數級增長。
針對中國這樣的國家,這件事情一定不是純市場化的。今天我們的優勢,我們的體制,一定是跟舉國體制相關,去看待算力。如果是傳統的舉國體制,百分之百依賴傳統舉國體制,還是今天數字文明的時候我們可以同時此消彼長,既有主戰場也有第二戰場,國家所提出來的新型舉國創新體制。本質上講,繼承舉國體制創新的基礎上,我們要看商品不能只看產品,我們看效益不僅僅實現目標,像這些理念如果搬到這個行業來,搬到算力領域來,這兩個戰場看得很清楚。一邊是大的美,統一的美,自上而下的美。另一邊是自下而上的美,是多姿多彩的美,是個性化的美,是來自群眾智慧的美,如果這兩種力量都能夠匯聚在一起,共同為今天我們舉國體制的優勢在新的數字文明時代發揮好,兩條腿走路。
這是第一個和大家分享的觀點。
所以我們今天的行業不僅僅是舉國體制的超算,還包括非超算,非超算一樣可以超互聯,一樣可以打造新的算力產業。
對于第一個戰場,今天是思想的盛宴,大咖云集,群星閃耀,聊的非常多,我不展開談了。有很多數字,從半導體工業來的數字,如果今天Google上所有的搜索全部轉成通用人工智能體系的話,需要400萬張以上的A100卡,像這樣一個自上而下的美,這樣一個強大的美,我們看到了它的美,很多時候是仰望星空,可望而不可及,我們不能完全依靠一條腿走路。
如果我們談說除了這些平臺的強大自上而下的推動之外。第二個方向,我們說的很容易,多中心化,多姿多彩,在工程上,在科學基礎上,它的支點是什么呢?為什么可以做到呢?我們怎么樣把烏托邦變成今天是我們工程師可以相信的一步一個腳印往前走的東西呢?第二個主題詞是Computinglet,這個詞怎么來的呢?不是我們聯盟在談,不是中國人在談,是全球很多今天對去中心化超大規模100萬倍指數級增長基礎設施有想法的科學家、工程師、芯片設計者都開始意識到一個問題,我們要在過去,如果說最底層是芯片設備,再往上走是基礎設施,當我們去談一個100萬倍基礎設施的時候,過去基礎設施從來沒有這么增長,如果算力基礎設施按照100萬倍增長的時候,我們今天可以借鑒的工業路線圖應該去芯片里去找,芯片過去發生過的故事是“芯粒”。
這么一個芯粒的故事,從不同的角度來解讀,一個7納米制成的芯片,如果說在一些非關鍵性的一些模塊上,能不能和22納米器件這成的,能夠組合在一起,互相間連接在一起,不要百分之百依賴7納米器件,這些在半導體工業發生過的精彩故事能不能吸納到基礎工業領域,這是“算粒”Computinglet。
從芯粒到算粒不是簡單一個字的改變,一個新算力,我們的一個愿景,一個百萬倍未來十年增長的愿景,我們去找到工程師的切入點,我們想到了算力,這種算力,如果它每一個最小顆粒,我們去借鑒一個7納米和22納米制成的一個新模塊,能夠無縫銜接在一起,構成一個不依賴于7納米,但同樣能達到很好效果的一個芯片力量。同樣,今天非超算的最小計算單元和超算的計算單元,國家發改委在提到“東數西算”的時候用了三異,異構、異數、異地。這三異的運算能不能高效互聯、能不能高效協同、能不能組成合力、能不能東西南北全調度。在這種情況下,我相信從這套政策思考是可以在半導體工業界的工程師的方案里面去找到很多答案的,我們一批的工程師,一批沒有分國界的,對開源軟件信仰,對密碼學信仰的一批人,我們在做這件事情。
我們希望把這些東西能夠做成對下一個從互聯網有http,今天不是一切皆信息,現在變成一切皆計算的時候,我們能不能有一批工程師一塊兒來做出一個能夠超越不是為點到點的信息交換而做的一個網絡,我們今天是為一個異地、異構、異數,一個高速交換的超算和“非超算”高速互聯的一個新型的計算總線而做的開發協議,這套東西叫超互聯,它是hyper connected computing architecture下的思考。在這里面要形成突破,算力有各種各樣的形態,規模上不限制,既可以有太湖之光這種超大規模的超算基地,也可以有家里放的一個小小的算力節點,這些不同大小的異地、異構、異數的節點,如果能夠真正形成超級互聯,它就可以實現把我們今天原來談“東數西算”,強調東和西的均衡配置,提“東數西算”的時候還沒有這么大規模的通用人工智能的爆發,但今天已經不是東西配置了,是東也不夠、西也不夠,兩邊都不夠,面臨的是每三到四個月100天的速度在翻一番的速度訓練,這種情況下,我們原來所談的算力規模的瓶頸,廣域連接網絡的瓶頸,清華大學高性能計算小組,到內蒙古,到太湖之光,像這樣的廣域網絡的瓶頸以及協同的瓶頸,這三大瓶頸我們能不能在一個新的結構里面,今天我們走出原來的一個在大樓里面的高性能計算,一個在數據中心里面的計算,我們把這兩種在高性能科學計算,這一群機器里面所發生過的網絡芯片、連接、平衡、測量等等,把這些技術提煉出來。我們也把云計算里面過去所發生的超大規模云計算,滿足雙11億萬次并發沖擊的很多最佳實踐,我們把它提煉出來,打造一個開放式的,能夠超越過去互聯網的新的Cyber Space。
這和過去的有什么區別呢?過去的網絡沒有股權,過去的公司是有股權的,中國電信上市,中國移動上市,各個電信公司因為享受了互聯網寬帶的增長,業績持續增長,像世紀互聯,像萬國,像其他友商秦淮等等,我們都分享了互聯網基礎設施巨大發展而形成的股權。那么,每一個用戶家里,每一個個人只是作為用戶,就像我們坐滴滴,每一個滴滴用戶是滴滴經濟體的重要成員,完全被動式的作為滴滴經濟的成員。在我們談算力的時候,能不能引入此算力再加上彼算力,這兩個事情組合,如果每一個算力單元它都是有獨立的身份,它是一個可以計量的經濟活動,它是一個可以進行點到點交易的主體。在這種情況下,是不是我們今天建設百萬倍指數級增長的時候不僅僅依靠國家開發性金融,我們依靠REITs,依靠更多點到點的,中國過去在各地建立起來的數據交易所,我們看到的這些數據交易,這些完全數字文明,完全數字化世界里面的金融產物,把這里面所發生的一些行為范式能夠用到我們的算力世界里面去。
除了經濟規模之外,還有一件事情大家可能也都注意到了,大概兩周左右的時間,中央網信辦提出對生成式人工智能監管的臨時規范,這套規范出來意味著什么呢?今天任何一家大模型公司滿足監管和合規的成本非常巨大,我們今天在短視頻時代,像抖音、快手,為了保證中心化平臺視頻合規需要付出巨大代價,這只是短視頻,如果變成人類文明里面知識系統,全部以這種方式打造一個新型的硅基和碳基融合的世界,靠這套方法還行嗎?我們覺得在這個時候,當我們在談算力的時候,它不僅僅是工程師的問題了,它涉及到很多治理,涉及到一個國家對數智體系再往下走的時候法律監管的體制。這個體制里面不應該只是一個傳統平臺,一個傳統服務商的監管邏輯,應該是把人請進來,把家庭請進來,應該human in the loop,城市之所以稱為城市,不僅僅是冷冰冰的建筑,它有家庭,有很多最小單元,有民宿,應該把這些力量成為新的生成式人工智能時代,硅基碳基,這是一個探索性的事業,應該讓所有的參與者,所有的用戶,用自己自律的力量,成為監管的組成,成為大平臺公司監管上的成本和代價以及風險。
從這個意義上講,要支持剛才所講的這套力量,同樣需要一套能夠超越現在TCPIP的底層協議,能夠超越現在互聯網計算結構的一個新型網絡基礎設施結構。這里我和大家分享一本書《大教堂與集市》,大家有空可以看一看。這背后所談的自律,今天群體的力量怎么能夠比一個單一的力量更加強大。
剛才我談到了很多城市,今天的主題之一,城市就是一臺計算機,這臺計算機是什么計算機呢?它不是傳統的這一臺計算機的概念,它已經是一種新型的,我們叫citylet,就像剛才韋青所談的,我們上高鐵不需要戴安全帶,這和我們傳統的認知已經完全不一樣了。這臺計算機的工程雛形,在高性能計算里我們已經看到了,在數據中心內部是高速的、立體的、無縫銜接的二層網絡。這套結構我們在數據中心內部,不管是支持是HPC的還是支持super cloud,走出機房,走到城市每一個角落,走到每一個家庭的桌面,走到辦公室里面去,這個結構是我們所談的city as a computer的節點,也是一個城市算粒(粒子的粒)的起點。
今天是一個思想的盛宴,我們和一般的談AGI的會議不同,我們既有鄭院士,我們有通用人工智能最領先的微軟公司,有摩爾線程這樣的芯片公司,當我們談基礎設施的時候,基礎設施不僅僅是工程師邏輯,它有哲理,有哲學,一個工程師背后已經是城市文明的標識,基礎設施既有硬核可以向大家服務,同時作為文明符號,它有很多哲學的含義,文明的含義。另外,它也代表了當一個城市進步,如果說一個城市有24小時熱水可以提供,有很好的甚至你可以家里不安裝空調,因為有非常好的共享式的能源系統,這樣的城市,這樣新型的基礎設施,它就代表文明演進的前進方向。同樣,當我們今天看到在信息基礎設施上,各個城市要雙千兆入戶,不管是千兆還是雙千兆,它都是針對信息交換。
今天當我們談價值交換世界的時候,當我們今天連接的不僅僅是信息,我們是一切皆計算的世界,我們連接的每一個節點可以是一臺帶電設備,可以是機床,萬物連接無所不計算的世界的時候,我相信不管是千兆還是雙千兆,都不能滿足需要了。在這種情況下我們所談的基礎設施,今天我們所邀請的,為什么用聯盟的方式來推動,要做產業算芯,要一塊兒跨界的融合,來共同打造這個新物種。從產業上我們看到在一個城市里面,如果從主線索上,市政過去從來不管數智經濟,數字經濟過去底座只有三大運營商,除了三大運營商的力量,我們能不能把中國最有活力的基層的行政單元的力量,把這些縣長、區長、區委書記,把他們對數字基建的力量,把他們對算力的理解,放到基礎設施里面來。構成用新市政、新算力以及新的虛擬電廠,一個城市的百分百的綠電已經完全不能依靠簡單的電網了,它一定是源網荷儲,有新能源的源頭,有電網,有高質量的,像數據中心這樣高載能負荷平衡,然后引發大規模儲能。源網荷儲聯動,所以我們今天談超互聯新算力產業的時候,不僅僅是左邊的云計算IDC,全光的城市網絡產業,今天是一體兩翼的右翼,是數據的持有權、經營權、受益權,中國創造性的把數據作為生產要素市場化改革,以發改委來推動,很快就會迎接來國家數據局的成立,對數據二十條的推動,我相信這些事情精彩還沒開始,但我們看到了通用人工智能,看到了ChatGPT的演進,看到了千億個參數模型已經給我們帶來的震撼,再到鄭院士談的百萬級參數方向演進的時候,大家真的會覺得精彩還沒有開始。
我們不斷提到參數,億,百億,千億,到百萬億級,參數非常重要,我們在談過去云計算的時候,當我們作為雙11用戶的時候,阿里云CTO談阿里云能夠承載雙11巨大沖劑的四大法寶之一,是馬云率先大規模超大規模部署RDMA,我們剛才所提的第五個關鍵詞,從雙戰場到芯粒,到家庭芯粒,到城市芯粒,第五個關鍵詞是RDPA,我們把MA的M,一個內存訪問改成了參數訪問,今天在通用人工智能時代,一切的一切,都是以參數作為對象,參數是關鍵。過去我們談RDMA的時候是說一臺機器內存和另外一臺機器的內存我們不需要動用各自的操作系統的情況下,能夠直接訪問,能夠(英文)到原來的操作系統,這套邏輯能夠大大提升效率,能夠大大減少時延。這套邏輯如果用在我們的算力體系里面,用在我們所談的超互聯里面,那么這套協議我相信和剛才宣傳片所看到的,在引入一個底層是一個原汁原味的密碼學基礎設施,公鑰就是地址,我們不需要從一個機構那去拿,不需要從美國申請V4、V6,我們今天能夠在用戶側用數學產生全球具有唯一性的一個公鑰地址。像這樣的東西,RDPA,一個密碼學,分布式計算,這個結合構建起來一個新型的超越過去TCPIP作為信息交換全球共識網絡的底座,互聯網依然偉大,互聯網會繼續偉大,但是互聯網會就到上面去,在互聯網下面可能會被一個超互聯所代替。就像今天我們想象互聯網的時候,我們的通信、我們的電話依然偉大,只不過今天你不再用電話機了,今天你用微信APP把過去所有電話做的事情代替了。
當我們剛開始用互聯網的時候,電話網在上面,互聯網在下面,可是今天倒過來了,互聯網在下面,我們今天的微信代替了電話網,電話跑上面,那么同樣,我們在今天這個時代,在談互聯網的時候,我們一樣的,我們在談如果說互聯網的下面,一個二層網絡,一個傳統的二層全程關鍵化的網絡,能不能被RDPA,能夠被HCCB,被這套密碼學和借鑒超大規模云計算和超大規模科學超算里面的網絡經驗吸納出來,我們再把芯片工業界里面發生過的chiplet這套工程拿出來,這可能就是我們要做的事情。
最后還有兩個關鍵詞,一個偉大時代到來,我們暢想各種各樣應用場景的時候其實都離不開一個應用場景,都應該和它的基礎用戶,基礎用戶都應該連著基礎應用。所以像我這樣做基礎設施的,我們天天談基礎協議,談基礎設施,談基礎資源,像域名,像IP地址,這些屬于基礎資源,我們談的是三基,基礎協議、基礎資源和基礎設施。可是這三個東西你真正想要拿到它還有兩個更重要的,一個是基礎用戶;一個是基礎應用。我們今天談“東數西算”,我們今天談通用人工智能,如果對這套體系最了解的用戶他們一定是新一代原住民,他們不滿足于我的數據停留在別人的平臺上,除了平臺之外,根據中國的《個人信息保護法》,每個人都擁有你自己數據的持有權,可以和平臺共同共同發展,這套東西我相信我相信世紀互聯從超大規模數據中心開始,除了服務超大規模用戶,我們服務實體經濟中型用戶,我們未來還會服務千家萬戶個人數據中心。
最后,當我們談到computinglet,除了最小單元的,從家庭到城市,合起來的這些單元,同時我們也要談到,就像今天羅金海老師從科幻小說這個領域里面來去看待2140,我們今天所談的計算,軍事上有空天地,未來學上有星際以及宇宙計算,這套東西從今天來講,我們看當ChatGPT出來的時候,這一切都不是故事,行則至。人去駕馭機器核心要有想象力,想象力就要先看見再相信,而不是先相信再看見,這是想象力的基礎。
最后簡單介紹一下中關村超互聯新基建產業創新聯盟,我們是一家按照海星文化、部落文化創建的聯盟組織,我們是非常正規的社會組織,我們希望有更多的工程師文化、更多的代碼文化,有更多互聯網IET的精神,所以我把它總結為海星+數字部落。
最后是超互聯新算力愿景展望,前面我們所放的介紹片,我擔心會有誤導,很多時候出現去中心化這個詞,其實任何世界都是平衡,都是中心化的力量,多中心化的力量和去中心化的力量,一個友好共存的世界。如果說一個算力單元能夠在超互聯計算結構里面跑起來,它一定會推動我們今天的金融機構都是中心化的,一定有牌照,也能強監管。但是這些機構也會被數字化變革,他們開始用一個集中式的分棧系統和今天區塊鏈世界里面一個分布式的記賬系統,甚至一個完全去中心化的計算系統,完全可以找到大家的見面點,是可以友好并存。
我展示這張圖,這個結構里面,我們今天合規的數據交易所,我們今天新一代數字銀行,我們今天從北京到深圳、到香港,今天大家在web3上京港合作,可以各自走出自己的精彩,香港可以去迎接全球的金融創新,北京可以成為新算力的一個新基建,中國作為基建狂魔國家不負稱號下的創新發源地。
我是一個數據中心的老兵,原來做的是黑盒子,冰冷水泥般的東西,天天做,做了二十幾年,也沒有做膩,只是今天守正才能創新,把數據中心業務做好,把數據中心客戶服務好,我們站在非常中立的角度,我們今天為芯片公司,為做云計算的公司,為做大模型的公司,我們來提供賦能,我們做好伴奏,我們做好共振,我們去迎接一個上善若水的,一個像右邊這樣,一個芯粒無所不在無處計算的新世界。我就說這些,謝謝。
科技賦能 全域服務
}隨著Web3.0技術的快速發展和大模型爆發式應用場景驅動,基礎設施將迎來新的一輪重構,未來的云計算將是去中心化、面向算力調度和共建共創的基礎設施。~
大家下午好!非常高興在這樣一個下午跟大家分享我的主題。今天除了非常多的合作伙伴和我們一起分享,同時我們也邀請了互聯在過去二十多年一起陪伴的客戶和重要伙伴。
我今天分享的主題叫《科技賦能,全域服務》,相信很多人聽了上午的演講,確實心潮澎湃,有很多思想的碰撞,有很多大咖分享了非常精彩的觀點,以及對未來的一些看法,甚至是上升到了哲學、社會學層面的很多議題,我覺得都是非常好的思想激蕩。下午的主題,我們更多會聚焦在這么一個科技浪潮蓬勃發展的時刻,怎么把這些好的想法、好的技術落地下來,所以我今天的主題叫《科技賦能,全域服務》。
在過去二十多年里面,其實我也是一個在IT行業、在云計算、在網絡領域的老兵,二十多年中我們的技術不斷發展,其實是一個非常跌宕起伏的過程,從傳統IT到私有云、公有云,上完云了以后有些人考慮要下來,兜兜轉轉,其實誰也沒有完全戰勝誰,到最后的狀態你會發現非常多的客戶變成了混合IT的狀態。我就在想,這么多技術、這么多產品在變化,到底有哪些東西是不變的,其實是面向企業級的一站式IT服務,企業希望獲得一站式IT服務這件事情在過去二十年從來沒有變過。
互聯是一個做IDC和網絡起步的廠商,在過去二十多年里,我們服務了大概6000多家大大小小的互聯網企業,有非常多大家耳熟能詳的企業都是從我們的數據中心里面成長出來的。這個過程當中非常有意思的是,在過去差不多十年時間中,我們也做了非常多的托管云項目,為什么會做這些托管云呢?有幾個特征:首先,有廣泛的IDC節點;其次,有專業第三方運維服務;再次,能夠充分保障客戶的數據主權,甚至是整個IT安全。它能夠很好地解決公有云和私有云存在的一些問題,和公有云、私有云是相互互補的關系。互聯科技走到今天這樣一個時間,再往下一步應該怎么發展?這是我深刻思考的一個問題。我經常在內部講,其實互聯不需要太大步地往前走,只要往前跨半步就可以了,這半步是什么呢?就是我們二十多年一直沒有變的全域一站式服務和托管云服務,把它們結合在一起就是全域托管云,全域托管云希望定位在我們面向客戶側的新基建提供全域一站式IT服務,成為企業數字化轉型的合伙人。
為什么叫全域呢?這個圖是我們現在定義1.0版本的全域托管云,至少四個域:一是自有IT域;二是托管IT域,把自己的IT托管到第三方機房里面,比如托管在互聯的機房或者其他服務商的機房,托管IT域;三是彈性IT域,同一個機房有沒有彈性IT給客戶提供服務;四是公有IT域。在四個IT域環境里面我們有沒有平臺或者工具能夠給他們提供一站式的運維服務、一站式容災服務、一站式算力服務,甚至可能還有一站式的安全服務、一站式的數據倉庫服務,我相信都是存在這樣的可能性的。
那么,這四個核心平臺是什么呢?下面我們分享的主題也會圍繞這四個平臺來展開,這個地方我需要和大家說明的是四個平臺第一期版本中只有兩個平臺是互聯自己完全開發的,另外兩個平臺是互聯和合作伙伴一起共研、共創、共贏的平臺,稍后我會邀請我們核心的合作伙伴一起分享這些平臺的核心能力。
我們通過四個平臺服務到四個域,通過自動化、在線化、智能化的能力幫助客戶實現全域托管的服務。
首先,第一個平臺是互聯科技自研的LCloud托管云平臺。互聯不會定位為云公司,但我們為什么做云平臺呢?道理很簡單,就是客戶需求。這樣的云平臺和過去傳統意義上的云平臺不同,需要四個統一:統一服務目錄、統一業務入口、統一的運營計量、統一運維監控,我們可以用不同組件部署到相應的域中,形成產品和方案。
在運營管理層,可以納管到私有云,甚至多個公有云,這是互聯科技全域托管云要做的事情。值得一提的是,我們會站在用戶角度幫助他思考需要什么。做了這么長時間的IT服務、做了這么長時間的云,你會發現客戶非常需要站在自己的角度定義那朵云到底長什么樣,因為它已經不僅僅用一朵云或者一個IT現狀,混合IT就是目前的現狀,越是發展良好的用戶越會用混合IT支撐業務發展。所以,面向客戶多云的管理平臺,過去我們叫CMP,包括它的運維標準是不是可以由客戶自己來定義或者由客戶視角來定義,這個是我們非常關心的問題。所以,從這個角度來講,我們希望至少把管理層面的產品完全開放給我們的客戶,后面也會有一個闡述。
我們一期實現了非常簡單的功能,但也非常實用,過去互聯有大量的DC客戶,但是很多DC客戶的機柜分布在不同的數據中心,通過這個平臺可以非常簡單地把分布在各地數據中心的資源,用一個LCloud平臺插件管理起來,不僅僅管理到數據中心的機柜,還可以管理到機柜里面各類IT產品、服務器等等。通過這樣一個非常簡單的創新,讓我們客戶能夠對機柜的網絡服務一目了然,對機柜里面的IT環境也能夠進行實時的監控管理。
同時,LCloud里面有非常簡單的插件,通過這個插件把整個公有云的一些平臺能力進行實現,它可以實現產品集成、賬號管理,包括折扣管理、資源運營、服務支撐等,都在這個平臺上用一個小的插件完成,方便我們的用戶快速獲得公有云資源,提供整體方案的交付,并且實現一站式的服務。目前我們已經開通了和阿里云、華為云的平臺,其他云廠商也在積極的對接過程當中。
今天上午我們聊了非常多“城市就是一臺計算機”超互聯新算力這樣一個核心主題。我們要做一個面向客戶的全域托管云非常重要的一件事情就是連接,互聯是做連接起家的一家企業,我們會為了全域托管云打造一個全新的NEOLINK CC(Cross Connect)平臺,網絡連接平臺。因為我們認識到,只有把我們的數據中心和各家公有云、私有云通過高速網絡打通,才可以幫助用戶提供大量的混合組網、數據流通、跨域的多云調度。所以,這樣的CC平臺是非常重要的一部分。我們現在已經在北上廣深,和微軟、阿里云、華為云、百度云這些云廠商開通了非常好的CC網絡連接服務。
今天上午這張圖分享過,這是我們對未來“城市即計算機”的一個認知,或者是愿景,讓我們傳統IDC里面部署的過去DC級網絡怎么樣能夠推到城市邊緣,服務于我們的企業客戶,甚至服務于個人家庭用戶,用我們自研的HCCB(Hyper Connected Computing Bus)協議延展到城市每一個角落,幫助城市做成一個新的地鐵系統、城市新市政系統。這有別于過去一個完全不可靠或者帶寬不足夠寬的公交系統,我們已經看到了這張網的巨大需求,就像鄭院士講到的,我們講這么多大模型、這么多超級計算中心,有個最簡單的需求,我到底能不能先把我的數據搬過去,現在都是用非常原始的辦法,把盤刻好,通過一個快遞給寄過去。其實不是一句玩笑話,我們在講“東數西算”的時候,在講跨廣域數據調度的時候,我們的基礎設施還沒有完全達到這樣的能力。過去一年多時間里面,我們頻繁和國家發改委、工信部溝通,大家都有一個共識,就是我們的目標是完全正確的,但是我們的基礎設施還是要一步步走。在城市范圍內去實現超互聯新算力,在我們看來,目前還是一個更加容易實現的目標,但這里面的難題也非常多,我會把它拋出來,今天沒辦法一一展開。
比如說城市大二層的網絡,立體矩陣fullmesh架構,為了計算而生的網絡不可能像互聯網訪問一樣是多跳的環境,它必須是點到點,所有的節點都是一跳達成的網絡,通證化調度,“數據二十條”發展的背景下,算力和數據的確權、認證、計費這樣一個過程都需要基于一個有3A能力的基礎設施之上。所以它需要一個通證化調度的能力,還需要超高帶寬,我們現在非常高興地看到我們的客戶在他的數據中心里面,或在他的托管云里面已經大量使用200G、400G,甚至800G的帶寬,這在過去是不可想象的,現在往往一個U都可以提供32位、64位的400G接口,這是一個非常夸張的網絡演進。就是因為算力網絡,其實是算力大量爆發,導致我們的網絡帶寬快速增加,同時還有超低時延,以前我們的印象里面,網絡傳輸毫秒級網絡就已經非常不錯了,但是在算力網絡里面是微秒級,1點幾微秒的算力時延都會覺得太長了,因為時延再大一些,或者再抖動的話,如果單任務的整個計算過程都有可能失敗。我們在過去和國內幾個大模型頭部玩家交流的時候,他們提到當真正把幾千張卡放到一個模型里的時候,最大的問題是機器啟動的成功率非常低,單任務,如果說是一個分布式任務,在一個非常大的集群里面,小小的網絡時延和網絡抖動都會造成計算過程的失敗。上次蘇州一個會議上,一位合作伙伴說算力到底能不能調度?我覺得大家如果參加了今天上午的會應該會有答案。算力在目前這樣的階段最多是撮合、最多是數據傳送,還到不了調度。當然,長遠的目標我相信是沒有問題的,從物理學的第一性原理,它終將實現,需要我們要一步一步腳踏實地把這件事實現了。
近期非常火的技術,比如RDMA、RoCE、infiniband、Nvlink、CXL,現在有這么多協議,因為傳統互聯網已經和算力網進行交融,或者大家已經有點模糊了邊界,我相信在未來相當長一段時間里面這個領域會有非常大的技術突破,才能支撐算力網絡的演進。這個是我們對整個超互聯,包括超互聯在城市范圍內落地的理解,也是我們這次整個活動的一個主題。
所以,互聯科技是一家中立的第三方運營商,是一個以服務為核心的公司,我們可以用到這個世界上最好的產品和技術,理解客戶的需求,做出支撐AGI和元宇宙的客戶側新基建,這個就是我們一個遠大的理想。
未來我們會陸陸續續推出很多一站式服務,面向四個域和全棧,業務應用運維、云平臺運維、IT基礎架構運維、IDC基礎設施運維,我們會和合作伙伴一起打造全棧全域托管云的能力。今天的主題一直在講AGI,大模型對IT運維服務領域到底可以帶來哪些提升和服務,它給的這幾個答案和我們的想象非常匹配。比如故障自動診斷,預測性維護,安全監控,自動化運維等等。
上周,我在上海見一位非常重要的客戶,這個客戶現場給我們提了一個問題,他們過去在使用IT基礎設施和IDC時候,有一個困擾問題,整個設施運維和IT運維過程中有90%的誤報率,機器有很多時候錯誤誤報,導致他經常半夜三更接到報警電話,但其實是錯誤的,問我們有沒有辦法解決這個問題。我和ChatGPT做了一次溝通,ChatGPT說有幾個辦法,優化監控指標,包括調整閥值,做新的監控濾波,優化監控系統、告警維護等等。
基于此,我又告訴他,如果有異常毛刺出現,可以考慮哪些算法進行優化。它告訴我均值濾波、中值濾波、自適應等等,我問它能不能寫一個算法出來,它寫了一個非常簡單的中值濾波算法,同時我們把一段數據導入進去,直接給我輸出了一個濾波數據,全部非常平穩的數據流了。這應該是一個非常簡單的客戶需求,在運維領域,在前面幾個平臺之上,我們都在嘗試用這樣的方法來優化AI和運維相結合的基礎能力。所以這個我相信是值得期待的。
一站式算力服務,我們今天講了很多一站式算力服務,要把這個算力做好其實是不容易的,尤其像現在大模型的出現,動輒上萬張卡,尤其對于中小創業者來講,挑戰非常大。我們的做法是除了幫助客戶提供托管云服務之外,在一些重要的數據中心為他提供彈性算力的補充,也就是說,當他自有算力不夠用的時候,能夠非常快速地調用彈性算力。由于我們CC網絡的存在,他也可以調用到目前非常主流的大玩家的算力資源和一些閑置的資源,我想這都是可以去做的一些工作。同時還有一站式容災服務,這是很小的功能。但非常有意思的是我們在多云多域的IT環境,一鍵恢復的云容災解決方案,是一個效能非常高的備份容災解決方案,我相信絕大多數客戶可以通過這樣的解決方案達成容災需求。
最后,我們在開源和開放上的策略。中心側接口開放,包括測試版下載的開放,在開源這部分,我們在有些管理的組件上希望和合作伙伴把客戶側那一部分都開源,因為客戶需要有自己定義的全域托管云平臺,定向開源,包括納管接入的開源。今天是典型的共創模式,大家一起應用共創。我們講的主題是一站式全域托管云服務,非常重要的兩點,就是技術和服務,技術講究先進性,服務講的是溫度,我們到底能不能給客戶帶來有溫度的服務。AGI給我們帶來非常多的憧憬,也有很多大家對它的擔憂,擔心它會不會成為人的敵人,但我依然相信它會成為我們的朋友、我們的工具、我們的伙伴。我們應該更多把技術留給AGI,把溫度留給我們的工程師,讓我們成為一個技術領先又有溫度服務的一家企業。
我希望能夠和合作伙伴一起提供一個有溫度、有技術的全域托管一站式服務,謝謝。