近年來,以超大規(guī)模模型、海量訓(xùn)練數(shù)據(jù)、自監(jiān)督學(xué)習(xí)準(zhǔn)則為特點的無監(jiān)督預(yù)訓(xùn)練模型備受關(guān)注。具有高通用性的無監(jiān)督預(yù)訓(xùn)練大模型,結(jié)合知識和海量數(shù)據(jù)進行融合學(xué)習(xí),通過提取原始數(shù)據(jù)的深層表征,實現(xiàn)對于下游任務(wù)的通用支撐。
不用重復(fù)“造輪子”,預(yù)訓(xùn)練大模型強大的泛化能力和優(yōu)秀的模型效果,讓AI模型從開發(fā)、部署再到應(yīng)用有“規(guī)”可循,成為實現(xiàn)通用AI技術(shù)落地的有效途徑之一,也讓人看到了AI工業(yè)化、規(guī)模化落地的曙光。
對AI大規(guī)模落地部署應(yīng)用的期待中,有不少來自各行各業(yè)的中小企業(yè),它們也是推進AI走向?qū)嵱玫闹袌粤α俊τ谒鼈兌?,無監(jiān)督預(yù)訓(xùn)練大模型的訓(xùn)練和部署代價過于高昂,例如NLP領(lǐng)域預(yù)訓(xùn)練模型ChatGPT參數(shù)量高達1750億,使得這項熱門技術(shù)的產(chǎn)業(yè)推廣應(yīng)用困難重重。
目前,預(yù)訓(xùn)練模型從比拼參數(shù)和數(shù)據(jù)量級的“秀肌肉”階段已逐漸進入冷靜期,與行業(yè)結(jié)合的輕量化模型應(yīng)運而生。在2022年全球1024開發(fā)者節(jié)上,科大訊飛正式發(fā)布了工業(yè)級預(yù)訓(xùn)練模型,其中包含語音及多模態(tài)兩個輕量級預(yù)訓(xùn)練模型,覆蓋不同領(lǐng)域場景、支持多個任務(wù),在參數(shù)量上遠遠小于業(yè)界公開模型,但在效果上卻在業(yè)界表現(xiàn)優(yōu)異,為預(yù)訓(xùn)練模型工業(yè)化場景應(yīng)用交出了一份全新的答卷。
輕、快、強:直擊預(yù)訓(xùn)練模型行業(yè)應(yīng)用痛點
以智能語音技術(shù)在行業(yè)實際應(yīng)用為例,存在著面臨構(gòu)建多語種、多方言語音系統(tǒng)的數(shù)據(jù)瓶頸,在高噪環(huán)境語音識別、跨信道聲紋識別等跨領(lǐng)域場景下的性能損失明顯,以及語音合成缺乏對于不同聲音屬性維度和用戶期望音色的靈活定制能力等問題;這些技術(shù)問題限制了行業(yè)應(yīng)用的深層拓展,而預(yù)訓(xùn)練大模型作為共性關(guān)鍵技術(shù)的突破,恰是行業(yè)所需。
在此觀察基礎(chǔ)上,科大訊飛研究院所研發(fā)的工業(yè)級中文語音預(yù)訓(xùn)練模型和工業(yè)級多模態(tài)預(yù)訓(xùn)練模型,聚焦“輕、快、強”三個方面,直擊行業(yè)應(yīng)用痛點:
·輕:語音預(yù)訓(xùn)練模型小于100M,多模態(tài)預(yù)訓(xùn)練模型則小于300M,適配云、端等不同場景和不同設(shè)備的工業(yè)化落地需求;
·快:訓(xùn)練數(shù)據(jù)覆蓋近場、遠場、干凈、噪聲等不同場景,教育、車載、政法等不同領(lǐng)域,在實際應(yīng)用階段能夠快速適配落地;
·強:語音預(yù)訓(xùn)練模型支持語音識別、聲紋識別、情感識別等不同任務(wù),多模態(tài)預(yù)訓(xùn)練模型支持多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等不同任務(wù),效果在AISHELL2、Voxceleb、LRS3、DFEW、MISP等權(quán)威開源數(shù)據(jù)上均達到SOTA效果。
融合創(chuàng)新:多模態(tài)等技術(shù)為訊飛工業(yè)級預(yù)訓(xùn)練模型“添彩”
以行業(yè)應(yīng)用落地為關(guān)鍵導(dǎo)向,兼顧實用性與效果,訊飛此次發(fā)布的工業(yè)級預(yù)訓(xùn)練模型在技術(shù)層面融入了多模態(tài)等方向的最新成果,也是“輕、快、強”的有力保障。
以多模態(tài)預(yù)訓(xùn)練模型為例,為了構(gòu)建一套適用于更多下游任務(wù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練框架,訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息,實現(xiàn)了對表情、話術(shù)、身份等表達的面部關(guān)聯(lián)信息的充分利用,從情感、內(nèi)容、身份屬性等層面強化視頻和語音支路的信息互補和信息增強,從而匹配更多的下游任務(wù)使用場景。
例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關(guān)系,通過一致性約束進行身份信息的強化補充,從而在復(fù)雜場景下通過多模態(tài)間的信息融合實現(xiàn)更加魯棒的聲紋識別。
同時,為了充分發(fā)揮訊飛在有監(jiān)督層面的技術(shù)積累和數(shù)據(jù)優(yōu)勢,訊飛研究院利用了有監(jiān)督模型構(gòu)建了情感碼本和內(nèi)容碼本,并對無監(jiān)督數(shù)據(jù)提取的高層次特征表達匹配產(chǎn)生指導(dǎo)標(biāo)簽,加快模型的訓(xùn)練收斂,最終實現(xiàn)訓(xùn)練代價下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績。
在多模態(tài)場景下游任務(wù)遷移中,因為實際使用場景數(shù)據(jù)難以獲取,有標(biāo)注訓(xùn)練數(shù)據(jù)一般只能控制在幾千小時的范圍內(nèi),在這種情況下,多模態(tài)預(yù)訓(xùn)練的優(yōu)勢更加顯著,多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等任務(wù)上,訊飛預(yù)訓(xùn)練框架效果平均相對提升了32%。
實力“說話”:訊飛工業(yè)級預(yù)訓(xùn)練模型應(yīng)用落地開花
目前,訊飛工業(yè)級預(yù)訓(xùn)練模型已在多個技術(shù)方向?qū)崿F(xiàn)了行業(yè)落地應(yīng)用,并取得了實打?qū)嵉暮贸煽儭?br />
在全場景語音識別方面,面向重口音、高噪聲、多人對話等全場景語音識別應(yīng)用,基于訊飛多模態(tài)預(yù)訓(xùn)練框架實現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強和多模態(tài)識別的功能,在噪聲場景較有監(jiān)督方案效果提升了30%-70%,目前已在車載領(lǐng)域落地,在多點噪聲干擾、同向人聲干擾等復(fù)雜場景依然能夠提供良好的交互體驗。
同時,基于訊飛語音預(yù)訓(xùn)練框架的多語種、方言語音識別能力,也已經(jīng)落地翻譯機、錄音筆等,架起了語言溝通無障礙的橋梁。以阿姆哈拉、希伯來、普什圖、塔吉克四個語種為例,和XLS-R預(yù)訓(xùn)練模型相比,訊飛的預(yù)訓(xùn)練模型在預(yù)訓(xùn)練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下,取得了更好的推廣效果。
在細粒度語音情感識別方面,面向不同類別情感定義的情感識別,基于訊飛多模態(tài)預(yù)訓(xùn)練的情感識別系統(tǒng),4種情感類別加權(quán)平均召回率相對提升15%,目前也已在客服、車載、智慧大屏等場景落地。
在高可控語音合成方面,1分鐘個性化合成任務(wù)實現(xiàn)合成自然度3.9MOS分,相似度3.7MOS分,自然度接近一般普通人說話的4.0分。實現(xiàn)合成語音在音色、韻律、口音3個屬性方向上可連續(xù)調(diào)節(jié),屬性調(diào)節(jié)方向主觀感知準(zhǔn)確性達到66%,合成自然度3.6MOS,在訊飛智慧家庭、訊飛電視語音助手、智能車載交互等場景提供更多的用戶選擇。
人工智能技術(shù)的演進和為行業(yè)智能化帶來的革新,離不開企業(yè)和開發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手,基于工業(yè)級預(yù)訓(xùn)練模型加速AI產(chǎn)業(yè)化應(yīng)用落地的步伐,讓AI真正能“潤物細無聲”地浸入各行各業(yè),共享智能化春風(fēng)下的美景。