科大訊飛重磅發布星火大模型4.0,整體性能全面領先,打造國產大模型最強平替
首個支持74個語種方言免切換語音大模型破解強干擾場景下語音識別難題
近期科大訊飛作為第一完成單位的《多語種智能語音關鍵技術及產業化》項目,獲得國家科學技術進步獎一等獎。這一次星火語音大模型迎來新突破。
劉慶峰認為,語音將成為萬物互聯時代人機交互的主要方式,人機交互最重要的場景是遠場、噪聲、多人說話、多語言,因此萬物互聯時代的AIUI(人工智能用戶界面)要滿足遠場高噪聲、多語言多方言、全雙工、多模態等標準。科大訊飛也主導制定了全雙工語音交互ISO/IEC國際標準,并于2023年5月發布。
面向萬物互聯時代,本次星火語音大模型發布的多語種多方言免切換語音識別能力,可支持37個語種、37種方言“自由對話”。其中,37個語種識別效果領先OpenAI whisper-V3,37個方言識別效果平均提升30%。現場,科大訊飛演示了訊飛輸入法混合方言和外語的語音輸入效果,能讓輸入效率大大提高。
科大訊飛還發布了軟硬件一體化訊飛同傳系統,可支持大會同傳、會議同傳、展廳同傳、旅游同傳等多場景使用。本次參會的嘉賓座位上同樣配備訊飛同傳的收聽設備,佩戴后即可實時收聽多語種AI同聲傳譯。
針對強干擾場景下的語音識別難題,科大訊飛突破了多人混疊場景下的極復雜場景語音轉寫技術,即使在三人混疊說話場景也能實現86%的語音識別準確率。三位訊飛研究院的研究員現場實測,在噪音場景下同時混疊著說話,正常人耳已難以聽清,只見訊飛星火的多模態能力不但實現了三人重疊語音的角色分離,還能實時轉寫出每個人的語音,準確的效果引發現場掌聲不斷。未來多模態的語音識別技術將應用在訊飛聽見智慧辦公服務平臺、智慧屏等辦公產品中。
大模型正在推動人機交互變革,語音領域的所有應用都值得被重構。在大模型加持下,星火汽車智能座艙全新升級,不但具備了多語種多方言的“自由交互”,還具備多情感多模態的超擬人交互,讓人車交互更有溫度。當前在汽車領域,訊飛語音交互產品國內市占率穩居第一,同時廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長城等車企的眾多車型,賦予了高度智能的交互體驗。
為了讓大模型更好落地,科大訊飛還打造了端云一體和軟硬一體的解決方案,賦能家電、機器人等更多行業場景。面向具身智能和人形機器人企業需求,本次科大訊飛正式發布機器人超腦平臺2.0,業內首個支持多模態交互,目前超400家機器人企業已經采用訊飛機器人超腦平臺。
星火大模型助力“中式”智能座艙走向世界
科大訊飛面向萬物互聯時代,星火語音大模型再突破,發布72個語種/方言免切換對話,破解強干擾場景下語音識別難題,發布國際領先的極復雜場景語音轉寫,并通過云邊端及軟硬一體化解決方案,為汽車智能座艙,開辟出了更廣闊的天地。智能座艙再升級 多模態創造新場景
多模態能力也為車上的硬件開辟了全新的應用空間。傳統的DMS主要用于監測駕駛員疲勞狀況,在大模型的賦能下,視覺判斷能夠高精度獲取包括心跳、呼吸、血壓在內的多項身體健康指標,在用戶無感的狀態下長期記錄跟蹤。訊飛星火健康專家在此基礎上聯動訊飛醫療資源,為車主提供30種以上健康問題的監測診斷,守護車主安全出行。
硬核科技助力 芯算融合讓域控更強勁
以訊飛最具代表性的語音算法為例,通過異構將語音降噪、喚醒、識別、合成從CPU移植到NPU后,能夠降低60%的CPU算力需求。而通過在資源富裕的NPU上部署更大模型,能夠在本地實現媲美云端的語音識別效果。這就是紅旗EH7、蔚來ES8等一批新款車型上,語音識別又快又準背后的技術秘密。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。