哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。
訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。
尤其在多模態(tài)任務(wù)中,這一問(wèn)題尤為突出。
一籌莫展之際,來(lái)自人大系的初創(chuàng)團(tuán)隊(duì),用自家的新模型,率先在國(guó)內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。
而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對(duì)模型本身進(jìn)行數(shù)據(jù)反哺。
模型是啥?
中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker 1.0。
團(tuán)隊(duì)是誰(shuí)?
智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問(wèn)。公司成立時(shí)還是2021年,就早早打入多模態(tài)這條“無(wú)人區(qū)”賽道。
MOE架構(gòu),解決多模態(tài)多任務(wù)訓(xùn)練沖突問(wèn)題
這不是智子引擎第一次發(fā)布模型。
去年3月8日,潛心研發(fā)兩年的團(tuán)隊(duì)對(duì)外發(fā)布了自研的第一個(gè)多模態(tài)模型,百億級(jí)別參數(shù)的ChatImg序列模型,并基于此推出世界首個(gè)公開評(píng)測(cè)多模態(tài)對(duì)話應(yīng)用ChatImg(元乘象)。
后來(lái),ChatImg不斷迭代,新模型Awaker的研發(fā)也在并行推進(jìn)。后者還繼承了前代模型的基礎(chǔ)能力。
相較于前代的ChatImg序列模型,Awaker 1.0采用了MoE模型架構(gòu)。
要說(shuō)原因嘛,是想要解決解決多模態(tài)多任務(wù)訓(xùn)練存在嚴(yán)重沖突的問(wèn)題。
采用MoE模型架構(gòu),可以更好地學(xué)習(xí)多模態(tài)通用能力以及各個(gè)任務(wù)所需的獨(dú)特能力,從而讓整個(gè)Awaker 1.0的能力在多個(gè)任務(wù)上有進(jìn)一步提升。
數(shù)據(jù)勝千言:
鑒于主流多模態(tài)評(píng)測(cè)榜單存在評(píng)測(cè)數(shù)據(jù)泄露問(wèn)題,智子團(tuán)隊(duì)從嚴(yán)構(gòu)建了自有評(píng)測(cè)集,大部分測(cè)試圖片來(lái)自個(gè)人手機(jī)相冊(cè)。
表格顯示,團(tuán)隊(duì)讓Awaker 1.0和國(guó)內(nèi)外最先進(jìn)的3個(gè)多模態(tài)大模型進(jìn)行了評(píng)測(cè)。
多提一嘴,由于GPT-4V和Intern-VL并不直接支持檢測(cè)任務(wù),它們的檢測(cè)結(jié)果是通過(guò)要求模型使用語(yǔ)言描述物體方位得到的。
可以看到,在視覺(jué)問(wèn)答和業(yè)務(wù)應(yīng)用任務(wù)上,Awaker 1.0的基座模型超過(guò)了GPT-4V、Qwen-VL-Max和Intern-VL。
在描述、推理和檢測(cè)任務(wù)上,Awaker 1.0的基座模型達(dá)到了次好效果。
最后來(lái)看平均分,Awaker 1.0處于幾者中的最高值。
因此,上述結(jié)果也印證了多任務(wù)多模態(tài)模型采用MoE架構(gòu)的有效性。
數(shù)據(jù)集評(píng)測(cè)結(jié)果有了,真實(shí)效果還需進(jìn)一步上手體驗(yàn)。
這里主要問(wèn)了它和對(duì)比大模型一些關(guān)于中文OCR(圖片文字識(shí)別)和計(jì)數(shù)問(wèn)題、詳細(xì)描述任務(wù)等問(wèn)題。
這個(gè)主要考計(jì)數(shù):
Awaker 1.0能正確地給出答案,而其它三個(gè)模型均回答錯(cuò)誤。
這個(gè)主要考中文OCR:
正確回答的選手是Qwen-VL-Max和Awaker 1.0。
