①在大語言模型的研發(fā)上,京東更注重的是對(duì)話方向,也在積極推進(jìn)多模態(tài)模型的研發(fā). ②面向行業(yè)應(yīng)用的大模型比通用大模型更難做
《科創(chuàng)板日?qǐng)?bào)》7月9日訊(記者 黃心怡)京東即將于7月13日推出言犀大模型。在2023世界人工智能大會(huì)(WAIC 2023)上,京東探索研究院院長(zhǎng)、京東科技智能服務(wù)和產(chǎn)品部總裁何曉冬博士接受了《科創(chuàng)板日?qǐng)?bào)》記者的采訪。他透露,京東大模型聚焦產(chǎn)業(yè)應(yīng)用,屆時(shí)還會(huì)展示具身智能方面的進(jìn)展。
京東探索研究院院長(zhǎng)、京東科技智能服務(wù)和產(chǎn)品部總裁何曉冬
▍下一步AGI將走向多模態(tài)和具身智能
何曉冬表示,在大語言模型的研發(fā)上,京東更注重的是對(duì)話方向,也在積極推進(jìn)多模態(tài)模型的研發(fā)?!芭c通用語言模型不同,對(duì)話有一定博弈和對(duì)抗性的互動(dòng)。當(dāng)對(duì)方說了一句話,光理解意圖并不夠,還需要知道怎么回答他,要進(jìn)行牽引。因?yàn)樗囊鈭D可能只是一個(gè)表達(dá),要牽引到最后能達(dá)到共識(shí)的結(jié)論、解決方案上。大模型幫助我們更好地獲取背景知識(shí)和上下文知識(shí),更好地做對(duì)話決策?!?/p>
除了通用性的數(shù)據(jù),京東還將零售、金融、健康、物流等廣泛專業(yè)領(lǐng)域的產(chǎn)業(yè)數(shù)據(jù)也融合到基座模型進(jìn)行訓(xùn)練。“某種意義上,我們相當(dāng)于既做了通識(shí)教育,又讀了四年專業(yè)性的本科教育?!?/p>
除了大語言模型,何曉冬稱,京東也在語音、視覺等多模態(tài)模型上進(jìn)行了研發(fā)。
“我們?cè)谡Z音識(shí)別方面的模型做得非常大,用了十萬小時(shí)級(jí)別的數(shù)據(jù)去訓(xùn)練語音模型。在視覺模型上也做了很多,包括視覺的圖象生成、數(shù)字人形象的生成和合成等?!毕嚓P(guān)技術(shù)已運(yùn)用到政務(wù)熱線、數(shù)字人直播、智能客服、AI外呼等場(chǎng)景。
此外,何曉冬還透露,7月13日將會(huì)展示具身智能方面的探索與進(jìn)展?!跋駲C(jī)械臂、無人車這些京東早就在做了。我們有一個(gè)項(xiàng)目,讓智能的機(jī)械臂,在實(shí)際的物流分揀、搬運(yùn)當(dāng)中進(jìn)行操作?!?/p>
GPT 所表現(xiàn)出的超越以往的通用性,讓人類看到實(shí)現(xiàn)通用人工智能(AGI)偉大目標(biāo)的可能性。何曉冬認(rèn)為,目前這種通用性仍停留在語言領(lǐng)域,下一步AGI將走向多模態(tài)和具身智能。
“一個(gè)方向是多模態(tài),必須具有視覺能力,可能嗅覺、觸覺是再進(jìn)一步的,但至少要具有視覺能力。第二是走向具身智能,包括機(jī)器人、機(jī)械臂、無人車,各種各樣的載具,都可以更智能化起來,讓AGI走到物理世界。”
▍面向行業(yè)應(yīng)用的大模型比通用大模型更難做
不少業(yè)內(nèi)分析指出,通用大模型不是模型應(yīng)用的唯一方向,面向垂直產(chǎn)業(yè)的模型會(huì)成為大模型價(jià)值的引爆點(diǎn)。對(duì)此,何曉冬強(qiáng)調(diào),面向產(chǎn)業(yè)應(yīng)用的大模型其實(shí)比普通大模型更難做。
“專有模型、垂直行業(yè)模型的訓(xùn)練成本和難度其實(shí)并不低。因?yàn)樾袠I(yè)模型并不意味著小模型,也不意味著單獨(dú)某一個(gè)領(lǐng)域的數(shù)據(jù),而是通用公域數(shù)據(jù)加上行業(yè)數(shù)據(jù)一起,構(gòu)成了產(chǎn)業(yè)大模型的訓(xùn)練數(shù)據(jù)來源?!?/p>
這是由于,如果只用行業(yè)數(shù)據(jù)訓(xùn)練,會(huì)導(dǎo)致人機(jī)交互能力的不足。產(chǎn)業(yè)模型也需要有足夠的基礎(chǔ)常識(shí)作為背景,才能真正提供較高的溝通交流體驗(yàn)。
“人在跟機(jī)器打交道,哪怕是客服這種服務(wù)時(shí),也會(huì)說一些操作領(lǐng)域之外的話。比如你想退換貨時(shí),可能會(huì)突然想起來,今天不在家,明天才能來取貨。這種常識(shí)性的東西,是以前小模型難以應(yīng)對(duì)的。小模型在專有領(lǐng)域做得很好,但用戶突然說一句跟專有領(lǐng)域無關(guān)的話,小模型就迷茫了?!?/p>
而把產(chǎn)業(yè)數(shù)據(jù)和通用數(shù)據(jù)融合在一起,就能讓基礎(chǔ)模型本身有更多的產(chǎn)業(yè)理解。
“我們并非先把通用數(shù)據(jù)訓(xùn)一個(gè)基礎(chǔ)模型,然后再用專用數(shù)據(jù)微調(diào)。而是一開始訓(xùn)基礎(chǔ)模型的時(shí)候,就讓通用數(shù)據(jù)和專用數(shù)據(jù)、產(chǎn)業(yè)數(shù)據(jù),全部均勻地放在一起,只是采樣的權(quán)重不一樣。因?yàn)槲覀兿MP筒灰a(chǎn)生所謂的遺忘,如果是完全割裂的兩個(gè)階段,會(huì)導(dǎo)致在吸收行業(yè)數(shù)據(jù)知識(shí)的時(shí)候,可能會(huì)把一些常識(shí)沖淡?!?
▍把大模型落到產(chǎn)業(yè)上才能真正發(fā)揮價(jià)值
如何降低大模型使用門檻,讓大模型真正在行業(yè)里用起來,是當(dāng)下企業(yè)用戶和大模型提供商關(guān)注的焦點(diǎn)。
“當(dāng)進(jìn)入產(chǎn)業(yè)的時(shí)候,更多的攔路虎是在更加微妙的細(xì)節(jié)上,這些細(xì)節(jié)往往決定了最后產(chǎn)品的價(jià)值,或者是用戶的體驗(yàn)。現(xiàn)在大家有點(diǎn)冷靜下來,更多從價(jià)值的角度,而不是從暢想未來的角度來看這個(gè)技術(shù)?!?/p>
何曉冬分析,AI技術(shù)不應(yīng)該只是純粹的學(xué)術(shù)推動(dòng),而需要從行業(yè)中凝練出需求。
“今年下半年,大家可能更關(guān)心行業(yè)價(jià)值如何呈現(xiàn)。雖然做高考題也很有意思,但最終的行業(yè)價(jià)值肯定不會(huì)產(chǎn)生在做高考題上。當(dāng)大家樂觀的時(shí)候,可能會(huì)忽視當(dāng)初看起來還不起眼的,但實(shí)際上是攔路虎的問題。當(dāng)把大模型真正落到產(chǎn)業(yè)上的時(shí)候,就一個(gè)個(gè)浮現(xiàn)出來了,需要解決這些問題才能真正用起來?!?/p>
談及國(guó)內(nèi)外大模型的差距,何曉冬判斷,并沒有想象中那么大?!八惴ㄆ鋵?shí)是整個(gè)技術(shù)社區(qū)一起發(fā)明的,每一個(gè)算法都建立在其他人的基礎(chǔ)之上,其中也有很多中國(guó)人的貢獻(xiàn)。我覺得算法一旦發(fā)表之后,是屬于全人類的科學(xué)。值得關(guān)注的反而是一些細(xì)節(jié),從Transformer到GPT,中間還是走過了一段路,怎樣組成這樣的團(tuán)隊(duì),里面各種各樣技能的人都得有。這樣才能把這個(gè)事情做起來,而且還得有足夠的冒險(xiǎn)精神?!?/p>