多模態人工智能有哪些應用場景?
上一篇文章介紹了什么是生成式人工智能(Generative AI)(http://www.j9360.com/article/202502/467350.htm)。本篇為您介紹與生成式人工智能有關系的多模態人工智能如何實現像人一樣綜合處理多個信息和數據,以及多模態人工智能有哪些常見應用場景。
本文引用地址:http://www.j9360.com/article/202502/467351.htm01 生成式AI與多模態AI
人工智能技術正在迅速發展,不斷改變我們的生活和業務等的存在方式。在這些人工智能技術中,目前特別受到關注的人工智能有“生成式人工智能”和“多模態人工智能”。
生成式人工智能是一種擁有能夠自動生成并輸出文本/圖像/音樂等多種形式的數據的能力,并且能支援迄今為止由人類承擔的創造性作業的人工智能。
多模態人工智能(Multimodal AI)是一種輸入數據(模態)有多種形式的人工智能。例如,輸入“文本”和“圖像”等不同數據,并將這些數據綜合后進行預估,就是多模態人工智能的代表性例子。這里提到的“模態”,意思是指數據的模態(Modality),“多模態”指的是多種形式的模態(文本、圖像、聲音等)。
圖一、多模態可以處理包括輸入和輸出在內的不同數據形式的人工智能。例如,即使輸入數據和輸出數據分別為一個,輸入是聲音,輸出是文本,這種數據形式不同的人工智能有時也被稱為多模態人工智能。
02 多模態AI與單模態AI
既然有多模態人工智能,就不得不解釋一下對應的單模態AI是什么。相對于處理多種形式數據的多模態人工智能,處理傳統人工智能中的單一數據的人工智能就是單模態人工智能。
圖二、多模態人工智能和單模態人工智能的示意圖。
單模態人工智能輸入單一信息(例如僅文本、僅圖像或僅聲音)并分別處理,例如,使用網絡上的文本學習和用戶的文本輸入的生成式人工智能服務就屬于單模態人工智能。
此外,單模態人工智能的另一個例子是使用在網絡末端的傳感器等終端(邊緣設備)進行AI推理的邊緣人工智能處理影像或語音。
另外,人們也在自動駕駛等方面嘗試邊緣人工智能的多模態化,毫無疑問,邊緣人工智能的多模態化今后將在多種領域不斷取得進展。
03 多模態人工智能的演變
與多模態人工智能相關的構想和研究據說始于上個世紀80年代。自2000年代以來,多模態人工智能的研究隨著機器學習中的深度學習而不斷發展。2010年代,多模態人工智能應用程序問世,它讓人工智能學習人類面部表情和文本,畫面上的阿凡達會根據文本改變其表情。
2015年以后,可以有效捕獲多種形式的數據之間關聯性的人工智能模型出現,數據綜進一步發展,因此,復雜處理和高階識別也可以實現。而且,進入2020年代后,多模態人工智能在主要的生成式人工智能服務和人工智能平臺中引進得越來越多。
例如,出現了綜合圖像和文本等數據并通過大語言模型(LLM:Large language Models)提供自然語言應答、根據用戶提的問題輸出圖像和文本這兩種形式的數據、輸出說明圖像的文本等使用方式。而且,還發布了配備多模態人工智能的可穿戴設備等,在日常硬件中也引進得越來越多。
人們預計不斷取得進展的多模態人工智能今后將繼續迅速向多種領域滲透,包括自動駕駛技術、安保、醫療、制造和工程、商業支持和管理、體育及娛樂等。
04 多模態人工智能的應用事例
多模態人工智能可以處理多種數據形式作為輸入,因此是一種能夠用于多種目的的高度靈活的人工智能。下面介紹多模態人工智能的幾個主要應用事例。
1. 網絡領域:識別假冒產品和假視頻
一個為人熟知的應用事例是為識別私人交易中介網站上的假冒產品——根據新銷售產品上附帶的文本(說明文和標簽)和產品影像數據來進行判斷的識別提供支持。此外,它還可以用于在視頻發布網站等處從圖像和語音等多種數據識別假視頻。
通過讓多模態人工智能學習,讓它能夠對容易被偽造的知名產品的真假難辨復制品、模仿各國重要人物和名人的深度偽造視頻進行高精度識別,多模態人工智能的識別能力有望進一步提高。
2. 汽車領域:支持自動駕駛控制
為了讓5級自動駕駛(一種可以在任意地方自動駕駛且不需要方向盤操作的駕駛系統)在未來實現實用化,人們目前正在進行多種研究和驗證工作。多模態人工智能在前沿自動駕駛技術研究中的應用已受到全世界的關注。
從眾多傳感器獲得的汽車內部和外部數據、通過無線通信獲得的與位置、其他車輛和交通狀況相關的數據、與乘客之間說話的語音數據等,多模態人工智能綜合處理多種數據的能力可以說是控制自動駕駛不可或缺的技術。
3. 醫學領域:提出輔助性診斷和治療方案
通過利用多模態人工智能來綜合分析電子病歷和檢查圖像等數據,以實現早期發現疾病和優化治療計劃的研究正在醫學領域不斷推進。例如,可以考慮讓多模態人工智能輸出對疾病的狀態和經過進行的多角度判斷、對癌癥復發時期進行的預估、在診斷和決定治療方法時提供輔助性建議。在本例中,據稱它不僅有助于預估再次就診的時間和選擇適當的治療方法,而且還可以通過提供適當的醫療來降低醫療成本,并通過消除屬人化來減輕醫務人員的負擔。多模態人工智能在醫療領域也有望做出廣范圍的貢獻。
4. 安保和監控領域:狀況判斷
使用傳統人工智能的安保攝像頭通過使用人工智能僅分析影像(圖像)來支持狀況判斷。但是,在實際的人類監控業務中,除了視覺以外,還需要根據聲音、振動、氣味以及與其他監控人員的交流等大量信息來對狀況進行判斷。
人們認為綜合處理圖像和聲音等多種形式數據的多模態人工智能對于噪音和騷亂等滋事行為、打斗、擅自或非法進入等復雜情況也能判斷其處于什么狀況。隨著這些利用方法的研究和實用化的進展,通過人工智能對監控業務提供的支持程度有望大幅提高。
5. 制造和開發領域:對機器人控制和材料開發提供支持
目前,工業機器人在制造現場的引進數量正在顯著增加。這些傳統工業機器人的動作是通過程序指定機械運動角度、速度、強度等,并組合圖像辨別等識別技術來進行控制的。另一方面,使用多模態人工智能的機器人控制的研究不斷取得進展,通過綜合和學習來自多種傳感器的數據等,機器人的判斷能力將變得比傳統機器人更進一步提高,執行更精細的作業的可能性越來越大。作為一項不僅可以應用于制造領域,而且可以應用于醫療、護理、農業機器人等領域的技術而受到關注。
在開發領域也能看到使用多模態人工智能的情況。例如,通過綜合處理自己獲得的實驗數據、論文等當中報告的物質化學構造和組成、測量數據(顯微鏡圖像、光譜等),可以高精度預估該物質的物理和化學特性,利用它可以在虛擬空間中高速進行混合條件和成分的優化等。該技術是材料信息學(MI:Materials informatics)的一種,有望幫助提高新材料探索等研究開發的效率,例如幫助大幅減少時間和成本。
我們認為,除此之外,多模態人工智能在制造和工程中的應用今后也將繼續迅速發展,例如通過綜合來自配置在生產設備中的多種傳感器的數據信息來實現高精度的異常檢測,以及迄今為止一直很難實現的自動化——通過機器人實現質量檢查和維護活動的自動化等。
近年來,主要人工智能平臺上都推出了能夠處理文本、圖像等多種形式數據的多模態人工智能服務。隨著更多此類平臺的出現并變得更加精良,多模態人工智能有望在商業和創意等寬廣的領域擴大應用。除了本文介紹的事例外,它還有望應用于體育、娛樂等多種領域。多模態人工智能及其進步可以說是目前非常值得關注的趨勢技術之一。
敬請期待后續...
評論