從星火看大模型中場(chǎng):祛魅與拷問
撰文 | 吳坤諺
編輯 | 王 潘
厄爾尼諾指數(shù)快速增加,史上最熱夏天即將到來,但比氣候更“火熱”的是科技互聯(lián)網(wǎng)行業(yè)的大模型淘金潮。
今年年初,各方大佬下場(chǎng)創(chuàng)業(yè)打響了淘金熱的第一槍,緊接著的是3月開始的大廠扎堆布局,連高校與國(guó)家隊(duì)都爭(zhēng)取跑步入場(chǎng),淘金熱愈演愈烈。5月6日,我們又迎來了一位玩家入場(chǎng),科大訊飛發(fā)布旗下認(rèn)知大模型星火。
興許是大眾與業(yè)界對(duì)于密集發(fā)布的大模型有些“脫敏”,訊飛星火發(fā)布的消息未能引起行業(yè)的熱烈反響。如今的局面其實(shí)并不意外,因?yàn)樯虡I(yè)社會(huì)的發(fā)展總是需要新的故事。早在今年2月,ChatGPT的出圈就為AI板塊的科大訊飛狠狠地拉了一波股價(jià),GPT概念股至今仍廣為投資者所關(guān)注。
據(jù)了解,“星火認(rèn)知大模型”是純文本模型,僅支持文本內(nèi)容的輸入和輸出,多模態(tài)交互需要自升級(jí)產(chǎn)品星火Pro獲取。而通過TTS(從文本到語(yǔ)音)實(shí)現(xiàn)語(yǔ)音提問功能可以說是意外之喜,也是科大訊飛有別于一眾大廠的特點(diǎn)之一。
此外,本次發(fā)布會(huì)與此前各家大模型發(fā)布會(huì)最大的不同在于,科大訊飛CEO劉慶峰為大家“畫了一張帶有時(shí)間線的大餅”:6月9日前,訊飛星火大模型將突破開放式問答,實(shí)現(xiàn)對(duì)話能力和數(shù)學(xué)能力的再升級(jí);8月15日前代碼能力會(huì)上大臺(tái)階,多模態(tài)交互能力再升級(jí),在10月24日前,星火大模型將對(duì)標(biāo)ChatGPT,在中文能力上超過ChatGPT,在英文能力上與ChatGPT相當(dāng)。
這是一個(gè)管理預(yù)期的故事。
回顧近十年的商業(yè)新故事,其中既有智能手機(jī)、新能源、云計(jì)算等光環(huán)(aura)加身的神話,也不乏元宇宙、NFT這類被祛魅后步入暗夜的案例。每一個(gè)故事在開始之時(shí)都宣稱將開啟一個(gè)新時(shí)代、新紀(jì)元,宏大的敘事為其披上克里斯瑪?shù)耐庖,等待其進(jìn)入商業(yè)場(chǎng)景后被市場(chǎng)驗(yàn)證。
反觀科大訊飛,大模型是它不得不抓住的光環(huán)。
大模型是AI賽道重新洗牌的機(jī)會(huì)已是共識(shí)。而且自科大訊飛近年來的業(yè)務(wù)發(fā)展路線看,其引以為傲的語(yǔ)音識(shí)別賽道受困于創(chuàng)新者窘境,視覺領(lǐng)域也有AI四小龍后來居上,嘗試拓展的智慧醫(yī)療、智慧金融業(yè)務(wù)的表現(xiàn)也只是不夠出彩,在2022年整體營(yíng)收中占比均不足3%。
回歸大模型本身,隨著迄今為止人類歷史上用戶增長(zhǎng)速度最快的ChatGPT不得不關(guān)閉付費(fèi)渠道,一場(chǎng)屬于科技互聯(lián)網(wǎng)的“西進(jìn)運(yùn)動(dòng)”儼然開始進(jìn)入中場(chǎng)。
現(xiàn)在我們離GPT還有多遠(yuǎn)?
LLM(大語(yǔ)言模型)、Token(文本單位)、參數(shù),為4月內(nèi)幾乎未曾間斷的大模型發(fā)布會(huì)所吸引的VC們一面接收這場(chǎng)寶貴的知識(shí)爆炸,一面搖身一變成為AI領(lǐng)域的深耕者。按本山大叔的話來說,就是“聰明的智商又占領(lǐng)高地了”。
先行的創(chuàng)業(yè)者們?cè)缭缤ㄟ^自身過硬的攢局能力拉來了數(shù)輪融資,后來的創(chuàng)業(yè)者們也在抓緊忽悠風(fēng)投上車,勇立時(shí)代潮頭一起吃肉喝湯。
只是直到目前,無論是最早發(fā)布的大模型文心一言還是后續(xù)開放測(cè)試或在發(fā)布會(huì)上實(shí)機(jī)演示的大模型都距離ChatGPT存在一定距離,包括5月6日發(fā)布的科大訊飛星火。
星火發(fā)布會(huì)上,劉慶峰現(xiàn)場(chǎng)演示星火的能力并提出了評(píng)測(cè)大模型的覆蓋7大類481個(gè)細(xì)分任務(wù)類型。盡管真機(jī)實(shí)測(cè)勇氣可嘉,測(cè)試內(nèi)容出錯(cuò)較少且響應(yīng)快速,整體的情感理解與邏輯線也都在線,但整體測(cè)試類別還是以簡(jiǎn)單的文字生成為主。這一塊基本屬于科大訊飛的傳統(tǒng)藝能,并不能看出自去年12月起至今近6個(gè)月的數(shù)據(jù)投喂成果。
換句話說,目前的生成內(nèi)容還無法看出星火達(dá)到了智能涌現(xiàn)的標(biāo)準(zhǔn)。不過考慮到科大訊飛的數(shù)據(jù)要素來源主要在于教育、醫(yī)療、汽車等細(xì)分領(lǐng)域,目前的表現(xiàn)也就不難理解了。
本次發(fā)布會(huì)上科大訊飛還展示了星火搭載下的學(xué)習(xí)機(jī)、虛擬人、汽車座艙域智能辦公演示,這既是亮點(diǎn)也是槽點(diǎn)。亮點(diǎn)在于星火大模型在誕生之初就已經(jīng)找到了明確的商業(yè)化落地路徑,其中教育硬件與辦公硬件也是科大訊飛過去兩年內(nèi)的營(yíng)收主力;槽點(diǎn)在于這幾條路徑相對(duì)于大模型而言顯得過于狹窄,可能是星火在測(cè)試時(shí)所表現(xiàn)出的能力還尚未達(dá)到賦能千行百業(yè)的水平。
不過,學(xué)霸未嘗就是未來混得最好的。在大模型競(jìng)爭(zhēng)劇烈的當(dāng)下,率先占領(lǐng)垂直領(lǐng)域應(yīng)用的高地并進(jìn)入自我造血反哺大模型訓(xùn)練的良性循環(huán),未嘗不是一條可行的路徑。
更值得注意的是,劉慶峰在發(fā)布會(huì)結(jié)束后透露,星火大模型的算力硬件主要由華為提供,當(dāng)前并未受到限制。
由此我們也不難看出,一是自身是否有算力儲(chǔ)備在大模型訓(xùn)練中也許沒那么重要,尤其是并不是所有人都將大模型定位于“通用”級(jí)別的時(shí)候。相反,數(shù)據(jù)要素的重要性更加凸顯,這在當(dāng)初百度、阿里等坐擁多領(lǐng)域高質(zhì)量語(yǔ)料的頭部大廠發(fā)布大模型時(shí)尚不明顯,如今科大訊飛在教育領(lǐng)域的演示成果與泛領(lǐng)域演示成果的鮮明對(duì)比足以說明數(shù)據(jù)的重要性。
二是“送水人”式的“技術(shù)商人”路徑在大模型井噴的當(dāng)下切實(shí)可行。一方面送水人可以通過租售算力甚至訓(xùn)練方法,在獲利的同時(shí)解決算力冗余,另一方面收水人也可以節(jié)約大模型訓(xùn)練的成本,杜絕內(nèi)卷和重復(fù)基礎(chǔ)設(shè)施建設(shè),讓大模型相對(duì)不再那么“重資產(chǎn)”。
在劉慶峰的規(guī)劃中,星火將在10月24日達(dá)到中文能力超越ChatGPT,英文語(yǔ)料能力相當(dāng)。且不論對(duì)標(biāo)的是GPT3.5還是GPT4,我們不妨以此時(shí)間為節(jié)點(diǎn),到時(shí)候再審視國(guó)內(nèi)大模型與OpenAI的差距,是越來越小還是越來越大。
祛魅大模型
訊飛星火的發(fā)布從一方面也可以看做是從李開復(fù)理解的AI 1.0演進(jìn)為AI 2.0,是從NPL(自然語(yǔ)言處理)、CV(計(jì)算機(jī)視覺)到海量數(shù)據(jù)喂養(yǎng)下具備跨領(lǐng)域知識(shí)與智能交互能力的大模型。這是在李開復(fù)萬字演講中廣為流傳的"AI 2.0"范式。
有能力者做通用大模型,稍有欠缺者如科大訊飛,也要根據(jù)自有業(yè)務(wù)線如醫(yī)療、教育等場(chǎng)景做規(guī)模稍小的大模型。這是一個(gè)足夠宏大的敘事,尤其是在國(guó)內(nèi)多位大佬呼吁將所有應(yīng)用接入大模型重做一遍的話術(shù),充滿了即刻為一項(xiàng)技術(shù)突破迅速找到場(chǎng)景進(jìn)行商業(yè)化落地的渴望。
如今的火熱場(chǎng)景我們并不陌生,近年來,我們?yōu)榱吮阌趥鞑ヅc理解,往往會(huì)以序列號(hào)化的話術(shù)來形容技術(shù)范式的迭代演進(jìn)。意義建構(gòu)理論的學(xué)者認(rèn)為,這是將信息的尋求與使用視作一種溝通實(shí)踐模型,幫助人進(jìn)行信息接收的做法。
從互聯(lián)網(wǎng)泡沫后提出的Web1.0和Web2.0到通信領(lǐng)域的4G和5G,以及AI領(lǐng)域,序列號(hào)給人以最直白的觀感,為我們帶來無限的想象空間,這個(gè)視角下的技術(shù)可以在草蛇灰線之中無限升維演進(jìn)。越是這樣帶有技術(shù)革命色彩的故事,越是能吸引關(guān)注與投資,越具備商業(yè)化落地的可能性。
只是能否落地卻是未知數(shù),就像大模型涌現(xiàn)現(xiàn)象的發(fā)生概率只有0%和100%。
在資深機(jī)器學(xué)習(xí)與應(yīng)用開發(fā)者楊軍看來,市場(chǎng)上的“百模大戰(zhàn)”與投資圈的狂熱是在巨量資源投入后,廣譜性質(zhì)的壓強(qiáng)效應(yīng)所致,但是在這之中不可避免泡沫的存在。“我不太認(rèn)可在介紹ChatGPT相關(guān)技術(shù)時(shí)引入的春秋筆法或過于PR的味道,總覺得這會(huì)把一個(gè)原本正常該由技術(shù)驅(qū)動(dòng)的事物的演進(jìn)節(jié)奏變得混亂了。關(guān)鍵的技術(shù)需要回歸到客觀層面理解,才更有利于這個(gè)方向的健康發(fā)展。”
春秋筆法對(duì)新生事物的揠苗助長(zhǎng)在AIGC前一輪Web3風(fēng)口中隨處可見,尤其是結(jié)合了VR、AR后誕生的元宇宙賽道?萍蓟ヂ(lián)網(wǎng)從業(yè)者必須銘記的案例是Facebook更名Meta,梭哈元宇宙后的窘境。反觀國(guó)內(nèi),一直以來商業(yè)化都是我們的強(qiáng)項(xiàng),反之也遭到不少缺乏研發(fā)耐心、忽略底層技術(shù)的詬病。
楊軍透露:“我知道的一些這個(gè)行業(yè)里比較資深的模型從業(yè)人士,似乎很多都因?yàn)楸池?fù)了投資方的壓力,更多考慮的是商業(yè)變現(xiàn),而不是底層技術(shù)的創(chuàng)新和突破。”
在商業(yè)化變現(xiàn)前,大模型需要填滿的洞有多深?
由英偉達(dá)給出的GPT3訓(xùn)練數(shù)據(jù),參數(shù)規(guī)模為1750億,訓(xùn)練語(yǔ)料為30億 tokens,那么訓(xùn)練一個(gè)周期需要26天,采用租賃方式以8卡A100訓(xùn)練的成本超256萬美元/月,即使忽略人力成本,硬件成本最低也需要大約2億人民幣一年。楊軍稱,這已經(jīng)是很保守的估計(jì),系統(tǒng)故障、策略調(diào)整等因素也未曾考慮,人力成本更是在技術(shù)創(chuàng)新領(lǐng)域的大頭,如果希望提高效率,以并行方式實(shí)驗(yàn)探索,那么硬件成本還需追加一倍。
5年時(shí)間,25~30億不計(jì)回報(bào)的總投入,這是客觀技術(shù)視角下做好一個(gè)GPT4前兩代的大模型所需要的準(zhǔn)備。這筆研發(fā)投入已經(jīng)接近于半導(dǎo)體了。
楊軍對(duì)此憂慮頗多,尤其是在風(fēng)投方面。“在我有限的閱歷里,看到了不少風(fēng)投一開始說支持情懷,隨著時(shí)間推移,會(huì)對(duì)變現(xiàn)和尋求接盤退出越來越饑渴,最終以各種方式干預(yù)到項(xiàng)目執(zhí)行層面。不確定性較強(qiáng)的技術(shù)攻關(guān)遭遇的問題,需要行業(yè)層面來克服”。
在技術(shù)革命后的第一次格局重構(gòu)中,狂熱者往往被浪潮無情裹挾,重重拍在淺灘上。好比去年吸收了數(shù)千億美元的Web3,其大本營(yíng)新加坡如今已有不少?gòu)臉I(yè)者租不起房,吃不起飯。
我們對(duì)大模型的暢想究竟是像APUS李濤所言“爭(zhēng)奪下一代操作系統(tǒng)的話語(yǔ)權(quán)”,還是針對(duì)某個(gè)具體場(chǎng)景和領(lǐng)域的賦能,亦或是在浪潮之中尋求資金、博取熱度,無論哪種都需要讓大模型褪去克里斯瑪,客觀地看待與探求。
大模型也可以小而美
在眾人一擁而上的時(shí)候,相對(duì)冷清的路徑反而更有可能成功。
比如在星火上被驗(yàn)證的“送水人”路徑,除華為外,字節(jié)旗下火山引擎、騰訊云等玩家已在4月這個(gè)節(jié)點(diǎn)對(duì)外明確了自身“送水人”的角色,通過提供算法優(yōu)化、算力、數(shù)據(jù)飛輪等技術(shù)棧服務(wù)來做淘金熱中的服務(wù)商。路徑明晰競(jìng)對(duì)少的同時(shí)還可以一定程度上“分?jǐn)?rdquo;大模型的訓(xùn)練成本。
這條商業(yè)路徑早在淘金運(yùn)動(dòng)中便已驗(yàn)證,但成功故事的背后是淘金運(yùn)動(dòng)的“內(nèi)卷”特性,才會(huì)誕生服務(wù)的需求空間,同時(shí)“送水人”還需要在這種上游配套式或衍生周邊式服務(wù)中占據(jù)壟斷地位。“送水人”亞默爾原本只是平平無奇的淘金者之一,直到他第一時(shí)間抓住了淘金者對(duì)水的需求并通過開挖水渠的方式打造了一個(gè)專屬于他自己的飲用水生產(chǎn)線。
在如今的大模型中局,時(shí)間問題無需考慮,也不存在有誰(shuí)能在某項(xiàng)服務(wù)中能占據(jù)壟斷地位。那么討論的重點(diǎn)便在于其提供的服務(wù)。
大模型的服務(wù)需求則可以用AI三要素來概括,分別是算力、算法與數(shù)據(jù),其中算力是相對(duì)最缺乏競(jìng)爭(zhēng)力的領(lǐng)域。因?yàn)樗懔υ谔越鹫叩囊暯窍聝H僅只是成本,而在送水人的視角下卻是商品,單純提供算力難免會(huì)陷入價(jià)格戰(zhàn)的怪圈,反過來掣肘自己的大模型訓(xùn)練。
算法與數(shù)據(jù)則與此相反,兩者均可以提高大模型的訓(xùn)練效率,甚至直接影響訓(xùn)練成果。只是長(zhǎng)遠(yuǎn)看來,這兩項(xiàng)服務(wù)的前景也不甚樂觀。
算法方面,OpenAI就是最好的例子,被開發(fā)者戲稱為“CloseAI”的原因之一便是其堅(jiān)持閉源。大模型訓(xùn)練中的策略、算法是可以作為企業(yè)護(hù)城河的核心資產(chǎn),“送水人”開放給外界使用的程度將直接關(guān)聯(lián)自家大模型的競(jìng)爭(zhēng)強(qiáng)度,數(shù)據(jù)方面也是如此。反之,購(gòu)買大模型服務(wù)的企業(yè)也會(huì)要求算法與數(shù)據(jù)的安全,爭(zhēng)取在“安全線”之下有限的互幫互助。
目前看來,“送水人”們除非退出通用大模型的競(jìng)爭(zhēng),否則送水的動(dòng)作也很可能只是在成本控制上的錦上添花,真正的“送水人”還得是英偉達(dá)。這也意味著,我們需要另尋更切實(shí)的路徑。
日前,OpenAI關(guān)閉付費(fèi)渠道已在業(yè)內(nèi)引起不小的討論,最有可能的原因是GPT4在接入微軟全棧應(yīng)用后算力吃緊,只能暫時(shí)放棄C端增長(zhǎng)來穩(wěn)住大金主。而OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman更是公開表示OpenAI已接近LLM的極限,認(rèn)為L(zhǎng)LM的規(guī)模不再是衡量模型質(zhì)量的重要指標(biāo),未來將有更多的方式來提升模型的能力和效用。
換句話說,大模型中場(chǎng)之際,OpenAI在否決了一昧追求規(guī)模的路徑同時(shí)為行業(yè)指出了大模型的迭代新路,即通過優(yōu)化訓(xùn)練策略、全局調(diào)度以減少投入成本,同時(shí)將笨重的大模型轉(zhuǎn)向小而美的方向發(fā)展。
楊軍對(duì)此頗有研究,并對(duì)此介紹了部分海外已經(jīng)開始的創(chuàng)新案例。
關(guān)注系統(tǒng)優(yōu)化并結(jié)合模型訓(xùn)練策略進(jìn)行全鏈路訓(xùn)練優(yōu)化的公司MosaicML提出,通過將參數(shù)降低至300億同時(shí)將Token數(shù)提升至61億,以256張40GB的A100為資源訓(xùn)練一個(gè)周期,只需要36天即可得到與GPT3相同質(zhì)量的訓(xùn)練結(jié)果,而成本僅需要88萬美元,幾乎是GPT3原始訓(xùn)練成本的三分之一。除了訓(xùn)練策略的優(yōu)化外,通過對(duì)CPU主存+磁盤外存+GPU顯存的使用進(jìn)行全局調(diào)度優(yōu)化,讓低端顯卡serve大模型成為可能。
“一款A(yù)I框架解決的其實(shí)是上層的業(yè)務(wù)模型需求到底層計(jì)算硬件執(zhí)行的映射問題,在性能足夠的情況下,僅拼性能就可能陷入了‘技術(shù)有深度但競(jìng)爭(zhēng)呈紅海’的戰(zhàn)場(chǎng)。”
為了避免這樣的競(jìng)爭(zhēng),不少大模型在推出時(shí)便在宣傳上做了一定的區(qū)分,關(guān)鍵在于是否存在“通用”二字。這其中有源自NPL基底并在數(shù)個(gè)領(lǐng)域直接落地的星火、根植辦公場(chǎng)景的金山“WPS AI”、立足于問答社區(qū)生態(tài)的知乎“知海圖AI”等,其共同點(diǎn)在于針對(duì)具體場(chǎng)景,以對(duì)行業(yè)的縱深理解與數(shù)據(jù)支撐為基礎(chǔ),以大模型的“涌現(xiàn)”能力為跳板,實(shí)際上卻是披著通用大模型外衣的中小模型。
送水人也可以參考這樣的“技術(shù)商人“的思維。在楊軍看來,與其參與無謂的hardcore“內(nèi)卷”,不如去思考自己的技術(shù)點(diǎn)在可以在完整商業(yè)鏈中發(fā)揮什么功能,完成什么閉環(huán),通過能力與方向的差異化發(fā)掘更多價(jià)值。
保持一個(gè)啃硬骨頭的決心,開闊技術(shù)商業(yè)化的視野,是大模型玩家們的必修課。相對(duì)追求規(guī)模,我們與海外在小而美方向上的研究反而在時(shí)間節(jié)點(diǎn)上更相近,這也意味著更大的機(jī)會(huì)。無論是預(yù)算與資源相對(duì)緊張的創(chuàng)業(yè)公司還是有底氣隨時(shí)掏出數(shù)千張A卡的大廠,都需要認(rèn)識(shí)到這點(diǎn)。
原文標(biāo)題 : 從星火看大模型中場(chǎng):祛魅與拷問
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市