確定性網(wǎng)絡(luò)為AI大模型發(fā)展提供重要支撐
尊敬的各位來賓,大家好!我跟大家分享的題目是“確定性網(wǎng)絡(luò)為AI大模型發(fā)展提供重要支撐”。
??? 大家知道,網(wǎng)絡(luò)在消費領(lǐng)域取得很大成功以后,現(xiàn)在面臨著一個新的挑戰(zhàn)性機會。這個機會就是互聯(lián)網(wǎng)從消費領(lǐng)域開始進(jìn)入實體經(jīng)濟(jì),進(jìn)入AI時代,這樣一個網(wǎng)絡(luò)的變革怎樣適應(yīng)新的需求?這就是一個非常現(xiàn)實的、非常嚴(yán)峻的挑戰(zhàn)。
??? 首先,我們看一看在制造業(yè)、工業(yè)界的需求。IEC圍繞整個產(chǎn)業(yè)界的發(fā)展、人工智能的發(fā)展提出了一些新的確定性標(biāo)準(zhǔn),包括PLC云化、遠(yuǎn)程控制。
??? 能源領(lǐng)域也有一些新的需求,我國電力行業(yè)的二氧化碳排放量占整個能源系統(tǒng)的大概40%,碳中和、碳達(dá)峰戰(zhàn)略指標(biāo)怎樣實現(xiàn),面臨非常大的挑戰(zhàn)。美國能源部為滿足電力行業(yè)的控制制定確定性的標(biāo)準(zhǔn),推動研究安全可靠的確定性電力及工業(yè)控制網(wǎng)絡(luò),包括IEC在能源確定性的領(lǐng)域制定和發(fā)布相關(guān)的白皮書,這些都說明確定性是下一代網(wǎng)絡(luò)必須面對和解決的問題。
??? 剛才我們只是說在消費領(lǐng)域進(jìn)入實體經(jīng)濟(jì),進(jìn)入AI人工智能領(lǐng)域需要確定性的網(wǎng)絡(luò),現(xiàn)在發(fā)現(xiàn)在消費領(lǐng)域也需要確定性的網(wǎng)絡(luò)。蘋果推出的可穿戴電子設(shè)備產(chǎn)品——Apple Vision Pro,有12個攝像頭,5個傳感器,6個麥克風(fēng),可以在12毫秒內(nèi)把一幅非常高清的圖像展現(xiàn)在面前,(戴著這種設(shè)備)自己在一個屋子里可以看到滿天的星星,12毫秒內(nèi)就會變成挨著大海。這就是確定性網(wǎng)絡(luò)在消費領(lǐng)域的典型應(yīng)用場景,將來尤其是AR和VR這些領(lǐng)域都會提出這樣新的需求。
??? 大模型對算力的需求也有提出更迫切的要求,2012年到2023年,整個算力需求增加了數(shù)十萬倍,而且最近五年就GPU的算力增加了90倍,但整個網(wǎng)絡(luò)的帶寬才增加了10倍,這個差距現(xiàn)在預(yù)示著將來對整個網(wǎng)絡(luò)帶寬的能力、通訊能力提出更高的要求,因為缺口會越來越大。
??? 大家知道,數(shù)據(jù)要素的確權(quán)已經(jīng)成為了一個很重要的應(yīng)用領(lǐng)域,怎么把數(shù)據(jù)要素利用好、管理好,把安全性保護(hù)好是非常具有挑戰(zhàn)性的問題。沒有數(shù)據(jù)要素,中國可能在AI方面也會遇到很大的障礙。韓國因為數(shù)據(jù)要素沒有注意保護(hù)好,把半導(dǎo)體的設(shè)備和制造工藝通過AI的方式流失到國外,通過大模型把很多關(guān)鍵數(shù)據(jù)泄露的事故不斷地發(fā)生,所以在數(shù)據(jù)要素的隱私保護(hù)方面如果做不好,這些數(shù)據(jù)要素就沒法共享,就沒法流通,所以AI的發(fā)展就會遇到障礙。
??? 算力的發(fā)展是分布在各個地方,不可能集中在一個地方來做算力,電力的問題就解決不了。我們國家東數(shù)西算的布局,怎樣能夠把這種算力布局服務(wù)到全國各個行業(yè)、各個大模型?網(wǎng)絡(luò)問題怎么解決?這就面臨一個很大的挑戰(zhàn)。遠(yuǎn)距離的傳輸最大的技術(shù)挑戰(zhàn),怎樣實現(xiàn)遠(yuǎn)距離無損的傳輸?RDMA是一種非常關(guān)鍵的技術(shù),微軟的算力中心70%都是用這樣無損的協(xié)議進(jìn)行互聯(lián),華為的試驗數(shù)據(jù)顯示,100GE環(huán)境下,8節(jié)點的VGG16模型訓(xùn)練RDMA性能是TCP的8倍多。
??? 說到新的RDMA協(xié)議,美國2008年就在做一個實驗,就是從東海岸到西海岸,鋪設(shè)一條10G光纜,美國橡樹林實驗室就在做這項實驗。實驗結(jié)果顯示丟包率大于1%的時候,傳輸效率下降50%,如果丟包率大于2%,效率下降到0,等于是100GB的帶寬有1%的丟包就變成50GB,如果是20%的丟包就會變成零,數(shù)據(jù)根本傳不過去。為什么?遠(yuǎn)距離無損傳輸是一項必須攻克的技術(shù)。
??? 因為AI高端芯片對中國的封鎖,中國單點算力的差距跟美國會越來越大。H100的性能我們現(xiàn)在還沒有趕上,GB200又出來了,在網(wǎng)絡(luò)方面的能力,GB200相較于H100又有了成千上百被的提升,說明什么問題?每個芯片在互聯(lián)網(wǎng)能力方面大大提升,所以GPU算力跟網(wǎng)絡(luò)帶寬的需求量增長的速度,通過NVIDIA的芯片就可以看出,將來對網(wǎng)絡(luò)帶寬的需求量是很大的。
??? 美國能源科研網(wǎng)ESnet,2022年10月發(fā)布的ESnet6,第六代的網(wǎng)絡(luò)開通。每年業(yè)務(wù)量增長55%,大概140個科研網(wǎng)提供服務(wù),而且這個網(wǎng)絡(luò)號稱全球最快的互聯(lián)網(wǎng)。主要的功能就是為國家實驗室提供數(shù)據(jù),包括能源,110億的風(fēng)電站數(shù)據(jù)節(jié)點通過整個超算中心并行進(jìn)行計算,包括對新能源的控制和調(diào)度,開展這樣的服務(wù),同時也進(jìn)行遠(yuǎn)距離的協(xié)同訓(xùn)練,邊緣的算力和本地的算力效率提高30倍,就是協(xié)同的訓(xùn)練需要1個月,自己單獨訓(xùn)練需要300個月,都有非常好的結(jié)果。
??? 2022年10月發(fā)布第六代的ESnet6,2023年就要做ESnet7,為什么?發(fā)現(xiàn)了一些新的需求,本來ESnet開通以后運行三五年再啟動下一代網(wǎng)絡(luò),現(xiàn)在啟動以后馬上發(fā)現(xiàn)新的功能的需求。第一個需求就是端到端的確定性,所以對算力網(wǎng)絡(luò)來講,確定性是一個非常重要的基礎(chǔ),可以為海量數(shù)據(jù)遠(yuǎn)距離無損傳輸提供關(guān)鍵技術(shù)支撐。
??? 下面介紹一下確定性技術(shù)的研究情況:首先就是網(wǎng)絡(luò)架構(gòu)的變革,因為要解決AI的需求,解決實體經(jīng)濟(jì)的需求,不是一個單一的技術(shù)就能夠解決的,整個網(wǎng)絡(luò)的架構(gòu)都要系統(tǒng)性地設(shè)計才能解決,但我們的架構(gòu)是服務(wù)定制網(wǎng)絡(luò),主導(dǎo)思想就是要解決原來是盡力而為的架構(gòu),變成一個確保所需的架構(gòu)。原來互聯(lián)網(wǎng)最大的成功就是經(jīng)濟(jì)、實惠、方便、靈活,但是盡力而為的。實體經(jīng)濟(jì)和AI領(lǐng)域是不確保你的需要,這些工作是沒法進(jìn)行的。
??? 互聯(lián)網(wǎng)需要大腦,原來互聯(lián)網(wǎng)沒有大腦,只有在設(shè)備里面有一個小腦,小腦的功能主要是轉(zhuǎn)發(fā)。原來我們的大腦還是采用統(tǒng)計分析的思路,現(xiàn)在我們要做的是生成式的大腦,就是大腦不斷地通過網(wǎng)絡(luò)的數(shù)據(jù)、網(wǎng)絡(luò)的大模型提高自己的智能,這是整個網(wǎng)絡(luò)最核心的一項技術(shù)。
??? 確定性的技術(shù)也是在不斷演進(jìn),需要整個網(wǎng)絡(luò)底層跟光通訊進(jìn)行融合,因為將來大模型的訓(xùn)練需要400GB、800GB,甚至將來1.6TB更高的速率。AI大模型有各種維度的需求,有的是大模型,有的是中模型,有的是企業(yè),有的是個人,都需要算力,各種維度的需求能不能量身定做,滿足每個用戶的需要?數(shù)據(jù)要素也好、大模型訓(xùn)練也好、推理模型也好,需要不同的帶寬、不同的網(wǎng)絡(luò),自己可以隨時定制,這些是未來AI發(fā)展必須提供的一個功能。
??? 無損傳輸還需要一些相關(guān)的技術(shù),400GB無損的網(wǎng)卡,包括整個控制的協(xié)議。通過RDMA技術(shù)傳輸效率提高到96%,就是100GB可以達(dá)到96GB的帶寬,這些效率對整個AI的算力來講都是非常重要的指標(biāo)。當(dāng)然,云原生的算網(wǎng)操作系統(tǒng),將來的調(diào)度不光是算力,算力要跟網(wǎng)絡(luò)的能力匹配起來,一些算力需要網(wǎng)絡(luò)更高的質(zhì)量,一些算力就要求比較低,靈活的網(wǎng)絡(luò)和算力適配起來進(jìn)行調(diào)度,這些技術(shù)我們都要有所突破。
??? 網(wǎng)絡(luò)安全包括很多方面,我就講預(yù)防攻擊,如果發(fā)生意外情況,通過DDOS供給網(wǎng)絡(luò),尤其是俄烏沖突以后,這是非常值得關(guān)注的領(lǐng)域,我們已經(jīng)突破了10GB以上的防護(hù)能力。
??? 下面介紹幾個確定性網(wǎng)絡(luò)在數(shù)字經(jīng)濟(jì)中的應(yīng)用案例。
??? 東數(shù)西算采用CENI建設(shè)安全新總線,因為三大運營商通過互聯(lián)網(wǎng)提供服務(wù),我們通過安全新總線提供服務(wù),它的傳輸效率和普通互聯(lián)網(wǎng)的效率相比可以提高10-20倍。
??? 西部的算力中心怎么和東部大模型的所在地以及使用西部算力的用戶和企業(yè)提供更好的服務(wù)?就像剛才講的需要400GB、100GB、10GB、1GB,能不能提供安全保證、方便、經(jīng)濟(jì)、實惠的網(wǎng)絡(luò)服務(wù)?我們提供這樣的能力,尤其是數(shù)據(jù)要素怎么承載、怎么交流、怎么共享?如果沒有網(wǎng)絡(luò)的保證,數(shù)據(jù)不敢上網(wǎng)傳輸和共享,因為搞不好很快就會被國外拿走,尤其是行業(yè)的數(shù)據(jù),如果沒有可靠的網(wǎng)絡(luò)保證,很快就會被拿走,我們在提供這樣的實驗和能力。
??? 我們在長三角的13個地市采用確定性網(wǎng)絡(luò)開展服務(wù),山東16個地市也用確定性網(wǎng)絡(luò)提供新的、不一樣的服務(wù)能力,這些服務(wù)能力都有支持當(dāng)?shù)氐陌l(fā)展。
??? 臨工集團(tuán)作為龍頭企業(yè),把上下游的上千個企業(yè)串聯(lián)起來,因為原來企業(yè)只關(guān)心自己的智能化改造、網(wǎng)絡(luò)化改造,現(xiàn)在整個上下游的產(chǎn)業(yè)價值鏈如果不連通起來就會受到制約,所以在人工智能時代,行業(yè)大模型的發(fā)展就顯得尤為重要。
??? 能源行業(yè)專網(wǎng)也是把新能源和傳統(tǒng)能源形成互補,電力系統(tǒng)和新能源系統(tǒng),將來如何進(jìn)行互補,解決他們遇到的問題,現(xiàn)在各個方面都做了很多成功的案例,就是通過確定性的網(wǎng)絡(luò)實現(xiàn)。
??? 我認(rèn)為中國的出路在于行業(yè)大模型,因為通過通用大模型,盡管是一項技術(shù),必須要做,但搞不好通用大模型的差距越來越大,因為AI高端芯片差距越來越大。行業(yè)的數(shù)據(jù)還沒有完全在網(wǎng)上流通,因為在中國行業(yè)數(shù)據(jù)的完整性、系統(tǒng)性是最好的,尤其是在制造業(yè),如果把這些行業(yè)數(shù)據(jù)利用好,通過行業(yè)大模型產(chǎn)生價值,這是中國發(fā)展新質(zhì)生產(chǎn)力的一個非常好的途徑。
??? 我覺得中國在這方面大有可為,但必須把行業(yè)專網(wǎng)提供出來,否則這些數(shù)據(jù)不可能通過專線,因為成本實在太高了。南京正在開展高速公路提供行業(yè)專網(wǎng),通過網(wǎng)絡(luò)大科學(xué)裝置提供切片,提供行業(yè)專網(wǎng),因為我們的確定性網(wǎng)絡(luò)是可以提供成千上萬個專網(wǎng)的公網(wǎng),像專網(wǎng)一樣的質(zhì)量,公網(wǎng)一樣的方便,靈活和經(jīng)濟(jì)性,所以這種網(wǎng)絡(luò)的能力可以給行業(yè)專網(wǎng)提供敢流通、敢共享,能夠做到確權(quán),就是支持整個行業(yè)的發(fā)展。
??? AI的機會是任何行業(yè)都沒法回避的領(lǐng)域,盡管有些不同的見解,但AI的大趨勢,我們要做好這一準(zhǔn)備。作為未來網(wǎng)絡(luò)團(tuán)隊,我們在網(wǎng)絡(luò)方面會不斷地給大家一起提供知識和服務(wù)。