科大訊飛首發(fā)工業(yè)級中文預(yù)訓(xùn)練模型

2022-12-30 09:30:40來源：科大訊飛關(guān)鍵詞：工業(yè)級中文預(yù)訓(xùn)練模型中文預(yù)訓(xùn)練模型閱讀量：22853

導(dǎo)讀：預(yù)訓(xùn)練大模型強大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開發(fā)、部署再到應(yīng)用有“規(guī)”可循，成為實現(xiàn)通用AI技術(shù)落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)?；涞氐氖锕?。

　　近年來，以超大規(guī)模模型、海量訓(xùn)練數(shù)據(jù)、自監(jiān)督學(xué)習(xí)準(zhǔn)則為特點的無監(jiān)督預(yù)訓(xùn)練模型備受關(guān)注。具有高通用性的無監(jiān)督預(yù)訓(xùn)練大模型，結(jié)合知識和海量數(shù)據(jù)進行融合學(xué)習(xí)，通過提取原始數(shù)據(jù)的深層表征，實現(xiàn)對于下游任務(wù)的通用支撐。

　　不用重復(fù)“造輪子”，預(yù)訓(xùn)練大模型強大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開發(fā)、部署再到應(yīng)用有“規(guī)”可循，成為實現(xiàn)通用AI技術(shù)落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)模化落地的曙光。

　　對AI大規(guī)模落地部署應(yīng)用的期待中，有不少來自各行各業(yè)的中小企業(yè)，它們也是推進AI走向?qū)嵱玫闹袌粤α俊τ谒鼈兌?，無監(jiān)督預(yù)訓(xùn)練大模型的訓(xùn)練和部署代價過于高昂，例如NLP領(lǐng)域預(yù)訓(xùn)練模型ChatGPT參數(shù)量高達1750億，使得這項熱門技術(shù)的產(chǎn)業(yè)推廣應(yīng)用困難重重。

　　目前，預(yù)訓(xùn)練模型從比拼參數(shù)和數(shù)據(jù)量級的“秀肌肉”階段已逐漸進入冷靜期，與行業(yè)結(jié)合的輕量化模型應(yīng)運而生。在2022年全球1024開發(fā)者節(jié)上，科大訊飛正式發(fā)布了工業(yè)級預(yù)訓(xùn)練模型，其中包含語音及多模態(tài)兩個輕量級預(yù)訓(xùn)練模型，覆蓋不同領(lǐng)域場景、支持多個任務(wù)，在參數(shù)量上遠遠小于業(yè)界公開模型，但在效果上卻在業(yè)界表現(xiàn)優(yōu)異，為預(yù)訓(xùn)練模型工業(yè)化場景應(yīng)用交出了一份全新的答卷。

　　輕、快、強：直擊預(yù)訓(xùn)練模型行業(yè)應(yīng)用痛點

　　以智能語音技術(shù)在行業(yè)實際應(yīng)用為例，存在著面臨構(gòu)建多語種、多方言語音系統(tǒng)的數(shù)據(jù)瓶頸，在高噪環(huán)境語音識別、跨信道聲紋識別等跨領(lǐng)域場景下的性能損失明顯，以及語音合成缺乏對于不同聲音屬性維度和用戶期望音色的靈活定制能力等問題；這些技術(shù)問題限制了行業(yè)應(yīng)用的深層拓展，而預(yù)訓(xùn)練大模型作為共性關(guān)鍵技術(shù)的突破，恰是行業(yè)所需。

　　在此觀察基礎(chǔ)上，科大訊飛研究院所研發(fā)的工業(yè)級中文語音預(yù)訓(xùn)練模型和工業(yè)級多模態(tài)預(yù)訓(xùn)練模型，聚焦“輕、快、強”三個方面，直擊行業(yè)應(yīng)用痛點：

　　·輕：語音預(yù)訓(xùn)練模型小于100M，多模態(tài)預(yù)訓(xùn)練模型則小于300M，適配云、端等不同場景和不同設(shè)備的工業(yè)化落地需求；

　　·快：訓(xùn)練數(shù)據(jù)覆蓋近場、遠場、干凈、噪聲等不同場景，教育、車載、政法等不同領(lǐng)域，在實際應(yīng)用階段能夠快速適配落地；

　　·強：語音預(yù)訓(xùn)練模型支持語音識別、聲紋識別、情感識別等不同任務(wù)，多模態(tài)預(yù)訓(xùn)練模型支持多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等不同任務(wù)，效果在AISHELL2、Voxceleb、LRS3、DFEW、MISP等權(quán)威開源數(shù)據(jù)上均達到SOTA效果。

　　融合創(chuàng)新：多模態(tài)等技術(shù)為訊飛工業(yè)級預(yù)訓(xùn)練模型“添彩”

　　以行業(yè)應(yīng)用落地為關(guān)鍵導(dǎo)向，兼顧實用性與效果，訊飛此次發(fā)布的工業(yè)級預(yù)訓(xùn)練模型在技術(shù)層面融入了多模態(tài)等方向的最新成果，也是“輕、快、強”的有力保障。

　　以多模態(tài)預(yù)訓(xùn)練模型為例，為了構(gòu)建一套適用于更多下游任務(wù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練框架，訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息，實現(xiàn)了對表情、話術(shù)、身份等表達的面部關(guān)聯(lián)信息的充分利用，從情感、內(nèi)容、身份屬性等層面強化視頻和語音支路的信息互補和信息增強，從而匹配更多的下游任務(wù)使用場景。

　　例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關(guān)系，通過一致性約束進行身份信息的強化補充，從而在復(fù)雜場景下通過多模態(tài)間的信息融合實現(xiàn)更加魯棒的聲紋識別。

　　同時，為了充分發(fā)揮訊飛在有監(jiān)督層面的技術(shù)積累和數(shù)據(jù)優(yōu)勢，訊飛研究院利用了有監(jiān)督模型構(gòu)建了情感碼本和內(nèi)容碼本，并對無監(jiān)督數(shù)據(jù)提取的高層次特征表達匹配產(chǎn)生指導(dǎo)標(biāo)簽，加快模型的訓(xùn)練收斂，最終實現(xiàn)訓(xùn)練代價下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績。

　　在多模態(tài)場景下游任務(wù)遷移中，因為實際使用場景數(shù)據(jù)難以獲取，有標(biāo)注訓(xùn)練數(shù)據(jù)一般只能控制在幾千小時的范圍內(nèi)，在這種情況下，多模態(tài)預(yù)訓(xùn)練的優(yōu)勢更加顯著，多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等任務(wù)上，訊飛預(yù)訓(xùn)練框架效果平均相對提升了32%。

　　實力“說話”：訊飛工業(yè)級預(yù)訓(xùn)練模型應(yīng)用落地開花

　　目前，訊飛工業(yè)級預(yù)訓(xùn)練模型已在多個技術(shù)方向?qū)崿F(xiàn)了行業(yè)落地應(yīng)用，并取得了實打?qū)嵉暮贸煽儭?br />

　　在全場景語音識別方面，面向重口音、高噪聲、多人對話等全場景語音識別應(yīng)用，基于訊飛多模態(tài)預(yù)訓(xùn)練框架實現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強和多模態(tài)識別的功能，在噪聲場景較有監(jiān)督方案效果提升了30%-70%，目前已在車載領(lǐng)域落地，在多點噪聲干擾、同向人聲干擾等復(fù)雜場景依然能夠提供良好的交互體驗。

　　同時，基于訊飛語音預(yù)訓(xùn)練框架的多語種、方言語音識別能力，也已經(jīng)落地翻譯機、錄音筆等，架起了語言溝通無障礙的橋梁。以阿姆哈拉、希伯來、普什圖、塔吉克四個語種為例，和XLS-R預(yù)訓(xùn)練模型相比，訊飛的預(yù)訓(xùn)練模型在預(yù)訓(xùn)練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下，取得了更好的推廣效果。

　　在細粒度語音情感識別方面，面向不同類別情感定義的情感識別，基于訊飛多模態(tài)預(yù)訓(xùn)練的情感識別系統(tǒng)，4種情感類別加權(quán)平均召回率相對提升15%，目前也已在客服、車載、智慧大屏等場景落地。

　　在高可控語音合成方面，1分鐘個性化合成任務(wù)實現(xiàn)合成自然度3.9MOS分，相似度3.7MOS分，自然度接近一般普通人說話的4.0分。實現(xiàn)合成語音在音色、韻律、口音3個屬性方向上可連續(xù)調(diào)節(jié)，屬性調(diào)節(jié)方向主觀感知準(zhǔn)確性達到66%，合成自然度3.6MOS，在訊飛智慧家庭、訊飛電視語音助手、智能車載交互等場景提供更多的用戶選擇。

　　人工智能技術(shù)的演進和為行業(yè)智能化帶來的革新，離不開企業(yè)和開發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手，基于工業(yè)級預(yù)訓(xùn)練模型加速AI產(chǎn)業(yè)化應(yīng)用落地的步伐，讓AI真正能“潤物細無聲”地浸入各行各業(yè)，共享智能化春風(fēng)下的美景。

上一篇：嵐圖汽車在挪威開啟交付，2023年將再入四國

下一篇：SK Energy與多家公司聯(lián)盟將一站式氫燃料電動汽車充電站商業(yè)化

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關(guān)。

版權(quán)與免責(zé)聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時，必須保留本站注明的作品第一來源，并自負版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問題，請與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

人形機器人奏響“狂歡曲”

高難度！深圳眾擎實現(xiàn)全球首例人形機器人前空翻

宇樹科技王興興：預(yù)計年底H1機器人跑速達10米/秒超博爾特

“智能經(jīng)濟”駛?cè)氚l(fā)展“快車道”

AI智能體Manus橫空出世！中國AI實現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉(zhuǎn)智改，安全先行！“以模制?！弊o航企業(yè)數(shù)智升級

精彩直播/VIDEO更多

回放

【與智造同行】走進華為AI＋制造行業(yè)峰會2025——如何讓智能制造走深走實？華為給你答案！

: 數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟分論壇

推薦產(chǎn)品/PRODUCT 更多

國產(chǎn)兆芯商務(wù)主板
兆芯KX-7000 M-ATX主板,支持4個根DDR5,支持4個PCIE插槽,支持3個立式SATA,集特智能
品牌
集特智能
日本FUJI富士環(huán)形鼓風(fēng)機消音棉
富士鼓風(fēng)機,日本富士鼓風(fēng)機,富士環(huán)形鼓風(fēng)機,高壓富士鼓風(fēng)機,富士漩渦風(fēng)機
品牌
Fujifilm/富士
艾默生GE IC695 PLC模塊
模擬電流輸入模塊。
品牌
GE
產(chǎn)品手冊美國VICKERS威格士液壓控制閥
DGMX2-5-PA-FW-B-30現(xiàn)貨,美國威格士液壓閥,vickers控制閥,美國威格士溢流閥安裝,威格士控制閥操作指導(dǎo)
品牌
威格士/VICKERS
汽車系列設(shè)備線耐刮磨試驗機
耐刮磨試驗機,耐刮磨測試機,耐刮磨設(shè)備,耐刮磨檢測設(shè)備
品牌
湖北高天
噴涂除塵濾芯集塵器
移動式吸塵器,工業(yè)吸塵器,粉塵吸塵機,粉塵吸塵器,干濕兩用吸塵器
品牌
其他品牌

精品乱码一区内射人妻无码-亚洲中文AⅤ中文字幕在线-免费不卡国产福利在线观看-国产综合无码一区二区色蜜蜜

科大訊飛首發(fā)工業(yè)級中文預(yù)訓(xùn)練模型

熱門評論

全部評論