《開源中國:開源x AI的狂飆》
大家好,我的名字特別吉利,叫馬越,意味著大家見到我,馬上就會越來越好。因緣際會,對的人,對的事情只有在對的時間才能對上。我是做軟件的,也是人生中第一次被邀請參加算力大會。任何一個演講者,最難銷售的就是聽眾,算力硬件上對大家沒有幫助,怎么能夠讓大家有效地通過他山之石可以攻玉,通過我們這一路的思考和實踐,這些軟件從業者、互聯網平臺的從業者,對這個時代采取了什么樣的思考?希望給大家一些我們自己的心得體會,有助于硬件越做越軟,軟件越做越硬。
??? 開源中國不是一個初生的公司,也是經過了十六個年頭,到今天迭代了四個版本出來:2008年,我們剛成立的時候做的就是開源內容的普及,直到今天有人還在問我們,你們跟CSDN有什么區別?2008年,我們剛做的時候其實是CSDN的分支,為天下開發者提供了所有的技術內容,而開源中國只提供了開源的相關內容。
??? 由于開源精神上的利他主義、技術上的徹底分享,人人為我,我為人人的社會化協作方法論,導致今天偉大的技術好像無一不是開源。
我們IT從業者多會造名詞?互聯網是我們造出來的名詞,移動互聯網是我們造出來的名詞,云計算是我們造出來的,大數據是我們造出來的,區塊鏈是我們造出來的,物聯網是我們造出來的,后來又有了機器學習,之后又有了AIGC,到今天AGI,明年大概率還會造出來一個詞。在這些眼花繚亂、一年一更新的時髦名詞背后,開源一直發揮著巨大的創新價值。
移動互聯網時代,操作系統是Unix和Windows的天下,于是有了Linux的技術,現在服務器90%安裝的都是基于Linux的開源系統,而這是開源的。移動互聯網有IOS蘋果操作系統,但也有Android和開放鴻蒙。之后又到了云計算時代,有了OpenStack開源軟件,大數據得益于Hadoop,而機器學習也是如此,比如Tensorflow。
??? 今天大家可能會想,為什么OpenAI不開源了?開源在人工智能扮演什么角色?技術決定領先,不開源收錢的更快,商業的反射弧更短,但因為壟斷在一個大行業是不可能的,因此開源也形成了有效的制衡、商業壟斷的過程。今天以LLaMA為代表的,包括國內的智譜、通義都選擇了開源,包括百川等等,這些是開源的力量。
??? 相信過去無論是互聯網時代、移動互聯網時代、云計算、大數據時代還是未來的人工時代,開源依然以勃勃生機激發更大的創造力。
??? 作為通過開源內容起家的公司,2013年,我們和CSDN就不一樣了,看到國外有一個偉大的開源平臺叫做GitHub,于是2013年,我們迎來了公司第一次轉型,從一個內容社區升級為工具平臺。今天我們的數據也彌足安慰,今年是我們Gitee平臺的第十一個年頭,已經成為我們軟件工程生產資料庫。現在我們代碼倉有2800萬個,二進制的組件超過3.5億,實際上是軟件工程生產資料庫,必然會吸引生產者,所以我們平臺已經超過1200萬軟件工程師,這些是數字化轉型和創新最有力量的一組人群。
??? 到今天十一年,我們也服務了超過30萬家企業。雪球已經滾起來了,大家可以想像過去十年,軟件工程、軟件創新以什么樣的加速度成長,因為到今天每天我們會新增5000個個人注冊用戶,2萬多個代碼倉,可以想像每天有2萬個新的軟件應用被做出來。
??? GitHub是全球的,Gitee長在中國,過去十年完成的使命,通過開源的力量讓中國的軟件工程在過去的十年與時俱進,讓中國1200萬開發者軟件開發能力跟美國人是并駕齊驅的。我們完全沒有落后,甚至我們的場景比美國做得更優秀,這是過去我們已經在踐行的時代使命。
??? 目前我們在流量只有GitHub壓我們一頭,我們是他們的75%左右,但我們這樣一個小公司,技術能力其實阿里、騰訊都可以提供,但流量在國內是碾壓式的,所以友商在國內的流量加在一起可能不到10%。
??? 軟件工程只有代碼管理是遠遠不夠的,因為一個軟件工程的生命周期是產品經理驅動、項目經理執行,有需求分析師,有架構師,才有了編程人員,之后還有配置管理員,運維工程師、測試工程師等等。我們3.0的升級版是從代碼托管平臺升級為軟件工程一體化的國產替代解決方案,軟件工程的所有角色都可以在平臺上提高效率,所有軟件工程數字化轉型相關的管理者都通過我們的平臺可以更有效地去做軟件工程的管理,這又是我們對軟件工程新的貢獻。
??? 說到人工智能,去年開始,我們就在想怎樣破局?大家都焦慮,覺得這個太牛了,改朝換代了,但我們每一個人怎么基于過去的福報,過去已經有的積累,Knowhow也好、資源也好,怎么躬身入局切入進來?我們還是用過去的思路。今天很多名詞我們都在踐行,創新的確定性和創新的不確定性,這些是我剛剛的思考。創新是不確定的,要是確定的創新就不是創新了,但創新的過程和使用工具的范式某種意義上是高度收斂的,也是確定性的。在軟件時代,軟件工程是確定的,軟件應用是不確定的,無論是淘寶還是微信都是創新性的平臺,但背后的軟件人員、流程、角色,每天干的活是確定性的。
??? 過去十幾年,我們已經打造了中國開源的基礎設施,是中國開源的淘寶,未來有沒有可能再打造一個中國的HugginngFace?我們用了十年讓我們成為中國的GitHub,現在全世界遙遙領先的模型聚合平臺就是HuggingFace。
??? HuggingFace很紅,但意識形態不同,我們需要中國的HuggingFace,我們要做一些HuggingFace還沒有做的事情,因為在這個時代,我們的算力是被卡脖子的,我們得支持異構算力,所以過去只是開源軟件的大市場,算力跟我們沒關系,所以過去我也不會參加算力的會議,但在今天和以后,算力跟我們休戚相關。除了NVIDIA之外,我們必須支持國產的異構算力,支持曙光,支持華為,支持寒武紀,支持摩爾線程,打造平臺的最底層邏輯是異構算力市場。誰有算力?裸金屬也好、包了一層的算力平臺也好,通過我們的納管就可以上架為這個平臺的可調度或者可售賣算力,所以底層搭建算力市場。
??? 算力不是目的,目的是支持我們訓練、微調和運行模型。在算力之上,我們又搭建起開源模型和開源數據集市場,讓我們的AI工程師極大地降低自己入局的成本和門檻。模型和數據集依然不是目的,最終算力支持人工智能工程師、模型和數據集,只有人工智能工程師做出千千萬萬個應用,就像全員上了移動互聯網一樣,最終卷的還是應用。
??? 三層結構,今天準備得不太充足,其實我已經快講完了,但給大家準備了一個產品的DEMO。因為我們軟件行業一般不講PPT,直接給大家運行產品,PPT太抽象,看到產品大家就都懂了。你們沒見過淘寶之前想像不出來淘寶是什么樣,但跑起來淘寶,馬上就知道什么是淘寶了。很遺憾,今天的條件不允許我給大家展示具體產品,我會把產品的鏈接告訴大家,歡迎大家來玩,上面有模型、數據集、異構算力和應用。
??? 我們要讓你在線上完成所有的部署、調優和推理的過程,怎么計費呢?世紀互聯批發來的算力,可以按小時零售給你,運行一個應用,每小時收你多少錢,而且可以選擇GPU和CPU,要NVIDIA的卡還是要國產卡,這是一種計費方式。按照推理次數收錢,200萬Token的文生圖像,兩種計費方式完成繼承了云計算時代的彈性計算。通過這種方式,我們某種意義上也是把人工智能工程的門檻給千千萬萬的從業者和未來全社會的使用者降到極致。
??? 有幸站在開源偉大事業的肩膀上,過去十年我們已經成為實至名歸的中國GitHub,用過去十幾年的時間蓋了一棟90層的高樓,其實地基已經住了1200萬個開發者、30多萬家企業,有著基礎運行能力、運營能力、運維能力,而且看不見的地基也極其深厚。因為在中國還有一個合規的監管,這是大家看不到的,所以今天我們的思路是別人要蓋一座100層的人工智能大樓,先得挖地基,然后先蓋90層再蓋10層,也得吸引這些用戶,來了以后還得把物業管好、把運維管好、把衛生管好、把消防管好,我們這些全有了,只是在過去90層的基礎上再蓋10層就好了。
??? 最后的10層樓,相信是開源中國十六年如一日金字塔的塔尖,畢竟人工智能來得太快,而我們的思考又是站在開源普惠利他的核心價值觀,通過技術的降門檻,讓全員AI化,讓我們的國家、我們的開發者、我們千行百業的用戶不要錯過人工智能的潮流,早點躬身入局,變成在人工智能這一片藍海的探索者。
??? 打個廣告,歡迎來到ai.gitee.com。這是一個算力的市場、模型和應用級的市場,更是人工智能應用的市場。
??? 過去十年,開源中國的Gitee成為了中國的GitHub,讓中國的軟件工程師與時俱進,跟美國并駕齊驅。未來十年,我們要把自己從軟件工程的一體化平臺升級為人工智能工程的一體化平臺,已有的1200萬軟件工程師,他們應該是最快最容易變成人工智能工程師的,依然可以在技術上與時俱進,做出有中國特色、充滿奇思妙想、Fulfill中國場景的大量應用,也能夠讓中國人工智能工程水平繼續跟美國并駕齊驅,這也是未來的政治和經濟環境下開源中國責無旁貸,要為我國做出的貢獻。
??? 為什么我們躬身入局、參與算力?因為Native。當年有個Cloud Native云原生,現在大家都在談AI Native人工智能原生。云原生和AI原生最大的區別是什么?我的體會就是在AI時代,AI Native比Cloud Native更加Native。在開源時代,大家可以把一個開源軟件下載到自己的筆記本上,都可以有自己的機房,一個X86服務器能值幾個錢?但在云計算時代,且不說GPU昂貴,但還是卡脖子,所以大量用戶真的使用人工智能會是在云平臺上面。當年我們做開源淘寶的時候可沒想到今天我們做開源人工智能可以賣算力,歡迎在座的算力合作伙伴跟我們聯系,我們就是提供龐大的流量入口,從您那里批發的算力可以零售出去,這些就是AI Native時代更加順水推舟的結果。我們也會大量推出一體機的合作,如果大家有國有的GPU芯片,部署開源的模型就可以支持企業的私有化部署。
??? 開源×AI狂飆。毛主席老人家有一首詞“狂飆為我從天落”,我特別感慨,當年他老人家寫這首詞的時候說的“我”,不是指他個人,而是指紅軍和所有堅信共產主義信仰的革命家。今天這個“我”也不是開源中國,也可能不是世紀互聯,是像我們這些開始信仰人工智能的這群人,又落到一個關鍵詞叫做原住民。我相信,我們都會早日成為原住民,只要我們都成為人工智能的原住民,“狂飆”就是為我們從天而落的。
??? 咱們Gitee上再見,謝謝大家!祝大家晚飯有個好胃口!