理光開(kāi)發(fā)出高性能日語(yǔ)大語(yǔ)言模型
新華社東京6月4日電(記者錢(qián)錚)日本理光公司日前表示,該公司利用和日本理化學(xué)研究所共同研發(fā)得到的指令數(shù)據(jù)訓(xùn)練理光的日語(yǔ)大語(yǔ)言模型,提高了模型的指令遵循性能。
理光公司3日發(fā)布新聞公報(bào)說(shuō),他們用10329份指令數(shù)據(jù)對(duì)公司研發(fā)的130億參數(shù)日語(yǔ)大語(yǔ)言模型進(jìn)行了指令調(diào)優(yōu)。與調(diào)優(yōu)前相比,大語(yǔ)言模型的指令遵循性能得分從1.19分大幅提高至3.02分。
指令調(diào)優(yōu)是訓(xùn)練大語(yǔ)言模型的一個(gè)過(guò)程,主要為了縮小模型的下一個(gè)標(biāo)記預(yù)測(cè)目標(biāo)與用戶期望的模型遵循人類指令的目標(biāo)之間差距。
理光公司說(shuō),隨著老齡化和隨之而來(lái)的勞動(dòng)人口減少,許多企業(yè)寄希望于利用人工智能來(lái)提高生產(chǎn)效率,實(shí)現(xiàn)高附加值的勞動(dòng)方法。而要將人工智能應(yīng)用于實(shí)際業(yè)務(wù),需要讓大語(yǔ)言模型追加學(xué)習(xí)包括企業(yè)所處行業(yè)、所經(jīng)營(yíng)業(yè)務(wù)、以及企業(yè)固有用語(yǔ)等在內(nèi)的大量數(shù)據(jù)。
相比英語(yǔ)國(guó)家圍繞大語(yǔ)言模型研發(fā)的競(jìng)爭(zhēng),日語(yǔ)大語(yǔ)言模型的研發(fā)相對(duì)滯后。這主要是因?yàn)槿照Z(yǔ)的語(yǔ)法和表達(dá)與英語(yǔ)完全不同,以英語(yǔ)為基礎(chǔ)的模型難以充分發(fā)揮功能,而研發(fā)適合日語(yǔ)的模型首先必須花時(shí)間研究日語(yǔ)的特征。
大語(yǔ)言模型的研發(fā)還需要大量數(shù)據(jù),而日語(yǔ)的數(shù)據(jù)遠(yuǎn)少于英語(yǔ),品質(zhì)和多樣性方面也存在問(wèn)題,日語(yǔ)數(shù)據(jù)的收集和完善需要大量時(shí)間和成本。大語(yǔ)言模型研發(fā)還需要很高的算力,而日本超算和云等計(jì)算資源原本就不足,能運(yùn)用這些計(jì)算資源的技術(shù)和人才也不足。
(責(zé)任編輯:歐云海)