域名預(yù)訂/競(jìng)價(jià)，好“米”不錯(cuò)過(guò)

每一輪技術(shù)浪潮出現(xiàn)時(shí)，沖在最前面的都是朝氣蓬勃的年輕人。

當(dāng)大模型代表的人工智能浪潮席卷全球，作為移動(dòng)互聯(lián)網(wǎng)“原住民”的年輕開(kāi)發(fā)者，可以說(shuō)是最活躍的群體。他們的臉龐還有些稚嫩，但在技術(shù)和方向上有著自己的想法，在火熱的AI賽道里加速狂奔，努力打下一片新天地。

面壁智能CTO曾國(guó)洋就是其中的佼佼者，26歲的年紀(jì)管理著清華系明星大模型創(chuàng)業(yè)公司的研發(fā)團(tuán)隊(duì)，堅(jiān)定地踏上了AGI征途。

01 十多年開(kāi)發(fā)經(jīng)驗(yàn)的創(chuàng)業(yè)公司CTO

在許多人的印象中，24歲不過(guò)是研究生剛畢業(yè)的年紀(jì)，剛剛進(jìn)入職場(chǎng)，扮演的還是“學(xué)徒”的角色。但在曾國(guó)洋的故事里，24歲已經(jīng)作為CTO帶領(lǐng)著面壁智能的核心技術(shù)團(tuán)隊(duì)，同時(shí)也是一位有著十多年經(jīng)驗(yàn)的資深開(kāi)發(fā)者。

和OpenAI的創(chuàng)始人Sam Altman一樣，曾國(guó)洋在8歲就開(kāi)始學(xué)編程。身邊的朋友、老師、父母等潛移默化地告訴他：“會(huì)寫(xiě)代碼”是一件很厲害的事。于是從Visual Basic開(kāi)始，懵懵懂懂地開(kāi)啟了編程之路。

到了中學(xué)時(shí)，曾國(guó)洋已經(jīng)系統(tǒng)性地接觸了C/C++，喜歡在網(wǎng)上看一些國(guó)內(nèi)外的資料，嘗試寫(xiě)出更復(fù)雜的程序。因?yàn)?ldquo;寫(xiě)代碼”的愛(ài)好，曾國(guó)洋在高二時(shí)先后獲得全國(guó)青少年信息學(xué)競(jìng)賽金牌和亞太地區(qū)信息學(xué)競(jìng)賽金牌，并因此被保送到清華，為日后的大模型創(chuàng)業(yè)埋下了伏筆。

沒(méi)有高考?jí)毫Φ脑鴩?guó)洋，在2015年的冬令營(yíng)上了解到曠視正在招實(shí)習(xí)生，抱著試一試的心態(tài)報(bào)了名，由此正式步入AI領(lǐng)域。

AlphaGo和李世石的圍棋大戰(zhàn)，點(diǎn)燃了深度學(xué)習(xí)的熱潮，無(wú)數(shù)年輕人為之徹夜不眠，曾國(guó)洋也不例外。大二期間，在室友的引薦下，曾國(guó)洋加入了清華大學(xué)NLP實(shí)驗(yàn)室，誤打誤撞成為中國(guó)最早一批大模型研究員，并在后來(lái)成為悟道·文源中文預(yù)訓(xùn)練模型團(tuán)隊(duì)的骨干成員。

十多年的開(kāi)發(fā)經(jīng)驗(yàn)，培養(yǎng)了曾國(guó)洋的工程化思維和能力，大學(xué)畢業(yè)時(shí)不甘于做象牙塔里的學(xué)術(shù)派，毅然加入到了大模型浪潮中。

在OpenAI發(fā)布GPT-3的第二年，為了解決大模型“訓(xùn)練難、微調(diào)難、應(yīng)用難”的挑戰(zhàn)，曾國(guó)洋作為聯(lián)合發(fā)起人創(chuàng)建了OpenBMB開(kāi)源社區(qū)，旨在打造大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型庫(kù)與相關(guān)工具，加速百億級(jí)以上大模型的訓(xùn)練、微調(diào)與推理，以降低大模型的使用門(mén)檻，實(shí)現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實(shí)用化，讓大模型能夠飛入千家萬(wàn)戶。

清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授劉知遠(yuǎn)在2022年?duì)款^創(chuàng)辦面壁智能時(shí)，曾國(guó)洋果斷放棄了手里的多個(gè)Offer，擔(dān)綱這家大模型創(chuàng)業(yè)公司的技術(shù)1號(hào)位，完成了從一線開(kāi)發(fā)者到大模型創(chuàng)業(yè)公司CTO的華麗轉(zhuǎn)身。

02 “高效大模型就是面壁智能”

Scaling law，被看作是 OpenAI 的核心技術(shù)，簡(jiǎn)單來(lái)說(shuō)，可以通過(guò)更復(fù)雜的模型、更大的數(shù)據(jù)量、更多的計(jì)算資源，提高模型的性能。前兩年，國(guó)內(nèi)外企業(yè)都在卷參數(shù)量，做到了千億、萬(wàn)億，甚至是十萬(wàn)億，越到后面，但大家漸漸發(fā)現(xiàn)參數(shù)量更大，不代表模型效果更好。

在曾國(guó)洋看來(lái)：如果大模型作為實(shí)現(xiàn)AGI的關(guān)鍵路徑，但成本卻無(wú)比高昂，那么即使實(shí)現(xiàn)了AGI，但AGI比人還貴、那也沒(méi)太大意義，所以要降低模型成本。對(duì)于大模型落地來(lái)說(shuō)，效率是很個(gè)關(guān)鍵的問(wèn)題，需要控制成本來(lái)達(dá)到更好的效果，這樣才能去擴(kuò)展大模型的應(yīng)用邊界。

不久前舉辦的鯤鵬昇騰開(kāi)發(fā)者大會(huì)2024上，曾國(guó)洋在演講中表示：“面壁智能持續(xù)引領(lǐng)高效大模型路線，推動(dòng)大模型高效訓(xùn)練、快步應(yīng)用落地，以更快速度，更低成本，提供最優(yōu)智能實(shí)現(xiàn)方案。”

首先要解決的就是高效訓(xùn)練。

公開(kāi)數(shù)據(jù)顯示，OpenAI訓(xùn)練GPT-3的成本約為430萬(wàn)美元，到了GPT-4已經(jīng)上漲到7800萬(wàn)美元，谷歌Gemini Ultra在計(jì)算上花費(fèi)了1.91億美元......比大模型能力更早指數(shù)性增長(zhǎng)的，居然是大模型的訓(xùn)練成本。

該怎么提升大模型訓(xùn)練效率呢？

面壁智能在2024年初的一篇論文中提出了思路：如果大模型還未訓(xùn)練出來(lái)時(shí)就能預(yù)測(cè)性能大約在什么水平，可以先通過(guò)小模型做實(shí)驗(yàn)、調(diào)參數(shù)，再按照相同的數(shù)據(jù)配比、數(shù)調(diào)整等方法訓(xùn)練大模型。

其實(shí)在2023年，面壁智能就已經(jīng)開(kāi)始探索高效的Scaling Law，用小十倍參數(shù)模型預(yù)測(cè)大十倍參數(shù)模型的性能，并且取得了不錯(cuò)的成績(jī)：

旗艦端側(cè)基座模型MiniCPM用2.4B的參數(shù)量，在性能上越級(jí)超越Mistral-7B、Llama2-13B乃至更大的全球知名模型；旗艦端側(cè)多模態(tài)模型MiniCPM-V刷新了開(kāi)源模型最佳OCR 表現(xiàn)，部分能力比肩世界級(jí)多模態(tài)模型標(biāo)桿 Gemini-Pro 與 GPT-4V。前兩天發(fā)布的端側(cè)最強(qiáng)多模態(tài)模型MiniCPM-Llama3-V 2.5 ，超越多模態(tài)巨無(wú)霸 Gemini Pro 、GPT-4V實(shí)現(xiàn)了「以最小參數(shù)，撬動(dòng)最強(qiáng)性能」的最佳平衡點(diǎn)。“大”并非是唯一選項(xiàng)，小模型也可以實(shí)現(xiàn)同樣的效果。

面壁智能的“高效”，不單單體現(xiàn)在訓(xùn)練環(huán)節(jié)。

在部署方面，面壁智能是模型廠商中最早提出“端云協(xié)同”的，通過(guò)協(xié)同推理的方式降低降低推理部署的成本、時(shí)延和能耗，讓大模型可以跑在手機(jī)、電腦、汽車、音箱等低功耗的芯片。

以及大模型驅(qū)動(dòng)的群體智能技術(shù)體系，包含智能體通用平臺(tái)AgentVerse、技術(shù)協(xié)同同臺(tái)、應(yīng)用層面的多智能體協(xié)作開(kāi)發(fā)框架ChatDev，幫助開(kāi)發(fā)者打通大模型落地應(yīng)用的最后一公里。

03 全流程加速大模型應(yīng)用升級(jí)

基于豐厚原創(chuàng)技術(shù)底蘊(yùn)，并匹配大模型這一系統(tǒng)工程的本質(zhì)要求，面壁打造了一條從數(shù)據(jù)原材料、到模型制作過(guò)程中精湛訓(xùn)練與調(diào)校工藝環(huán)環(huán)相扣的全高效生產(chǎn)線。

譬如面壁智能獨(dú)家的“沙盒實(shí)驗(yàn)”，讓小模型驗(yàn)證大模型性能成為可能；Ultra對(duì)齊技術(shù)，可以有效大模型的綜合表現(xiàn)；現(xiàn)代化數(shù)據(jù)工廠，形成從數(shù)據(jù)治理到多維評(píng)測(cè)的閉環(huán)；高效的Infra，為面壁智能的大模型訓(xùn)練打好了地基；訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成工具套件平臺(tái)，可在降低90%的訓(xùn)練成本同時(shí)，將推理速度提升10倍。

在創(chuàng)立之初，面壁智能就開(kāi)始將大模型和國(guó)產(chǎn)軟硬件基礎(chǔ)設(shè)施做適配，想要從全流程加速大模型應(yīng)用升級(jí)。直接的例子就是面壁智能和昇騰AI在軟硬件的深度合作。

比如面壁智能基于昇騰基礎(chǔ)軟硬件完成了CPM－BEE大模型和BMTrain加速框架的遷移，通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)了BMTrain和昇騰的適配，通過(guò)親和融合算子替換實(shí)現(xiàn)了大模型的性能提升，最終讓CPM、llama等模型的集群訓(xùn)練性能與業(yè)界持平。

再比如基于昇騰底座采用MindSpore框架開(kāi)展了深入的創(chuàng)新研究。在微調(diào)方面，面壁智能實(shí)現(xiàn)了多個(gè)下游任務(wù)Sora在使用不超過(guò)1%的模型參數(shù)微調(diào)時(shí)，仍然能夠超越其他微調(diào)方式；針對(duì)推理場(chǎng)景，面壁智能通過(guò)量化、蒸餾、剪枝等技術(shù)的靈活組合，在多項(xiàng)任務(wù)上壓縮至1/3時(shí)，模型精度仍能保持99%。

國(guó)內(nèi)的大模型團(tuán)隊(duì)中，同時(shí)從算力、數(shù)據(jù)、算法切入的團(tuán)隊(duì)并不多見(jiàn)，為何面壁智能選擇和昇騰AI一起，全面系統(tǒng)地推進(jìn)大模型上下游工程？

曾國(guó)洋曾在媒體采訪中這樣說(shuō)道：“我們追求的是，在同樣的時(shí)間、同等參數(shù)量的條件下，實(shí)現(xiàn)更優(yōu)的Scaling Law。當(dāng)模型的效率優(yōu)化到一定程度的時(shí)候，如果要繼續(xù)精進(jìn)下去，就需要數(shù)據(jù)、算力與算法多者結(jié)合。”

這種不給自己設(shè)限的挑戰(zhàn)精神，所帶來(lái)的不單單是效率，還有通往AGI道路時(shí)的底氣。

不少大模型團(tuán)隊(duì)為算力卡脖子問(wèn)題焦慮的時(shí)候，曾國(guó)洋態(tài)度相當(dāng)鎮(zhèn)定：“對(duì)于比較早開(kāi)展大模型研發(fā)的團(tuán)隊(duì)來(lái)說(shuō)，國(guó)產(chǎn)化適配基本上都已經(jīng)完成了，因?yàn)樽龅脑缏?。其?shí)國(guó)產(chǎn)化算力的差距沒(méi)有想象的那么大，特別是像昇騰這些設(shè)備，目前已經(jīng)達(dá)到了大規(guī)模商用的水平。”

和面壁智能一樣，昇騰AI也在全流程使能大模型創(chuàng)新落地，從大模型的開(kāi)發(fā)訓(xùn)練到推理部署。正是這些同道人的相向而行，讓大模型開(kāi)發(fā)不再是復(fù)雜的超級(jí)工程，每個(gè)開(kāi)發(fā)者都能參與其中。

04 寫(xiě)在最后

大模型市場(chǎng)競(jìng)爭(zhēng)激烈，技術(shù)迭代日新月異，但曾國(guó)洋連續(xù)幾個(gè)月工作都不覺(jué)疲憊，用他自己的話說(shuō)“因?yàn)槲液芟嘈?AGI 會(huì)實(shí)現(xiàn)。”

這正是年輕人的“可愛(ài)之處”，他們有挑戰(zhàn)新事物的勇氣，也有躬身入局的行動(dòng)力，更重要的是，他們還是一群有理想的開(kāi)發(fā)者。就像曾國(guó)洋在創(chuàng)辦OpenBMB開(kāi)源社區(qū)的初心：幫助千千萬(wàn)萬(wàn)的開(kāi)發(fā)者降低門(mén)檻，讓大模型飛入千家萬(wàn)戶。面壁智能無(wú)疑是理想和初心的延續(xù)。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

南通颐猩文化传播有限公司

當(dāng)前位置：首頁(yè) > 科技 > 互聯(lián)網(wǎng) > 正文

26歲的“天才少年”，帶隊(duì)面壁打通高效大模型之路

相關(guān)文章

價(jià)格戰(zhàn)迷霧下，大模型創(chuàng)業(yè)者只能被動(dòng)挨打？

MaaS玩家：希望AI大模型價(jià)格戰(zhàn)再狠一點(diǎn)

斯坦福回應(yīng)抄襲清華系大模型承諾撤下相關(guān)模型

大模型降價(jià)背后，國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)邏輯變了

谷歌發(fā)布多模態(tài)大模型重回領(lǐng)先，中國(guó)大模型誰(shuí)能一戰(zhàn)

熱門(mén)排行

信息推薦

熱門(mén)標(biāo)簽