迎接AIGC:掌握隱空間(一)
1 前言
上一期里我們曾經談到AI 有3 種型:識別型AI、生成型AI、決策型AI。一般而言,2020 年之前,識別型AI 是主流;而在2020 年之后,生成型AI 和決策型AI 逐漸蔚為主流。尤其是生成型AI 模型,如長江后浪前浪,蒸蒸日上。
因之,本期就來談談生成型AI( 例如AIGC) 的魅力源頭:隱空間(Latent space)。愈擅長于操作隱空間向量(Vector),就愈能生成令人驚訝的創作。現在,我們就來認識隱空間,建立扎實的基礎,以便順暢迎向AIGC新潮流。
2 復習AI基礎概念:特征
大家都知道,科學素養是從“觀察”開始。觀察是認識現象( 如事物) 的起點,也是智力活動的泉源。觀察的目的主要是為了了解事物外部形態和特征。包括區分事物的一般特征(Feature)、發現事物的內在本質特征等,并且加以記錄,并對結果進行描述和對比分析,以便提出新問題,進行創造性的活動。
簡而言之,人們對于周遭的問題或事件常可由不同的角度來觀察或看出不同的特征。所謂特征,就是一件事物或一群事物,其具有與眾不同的特色或表征。例如,人們在辨別其他人的長相時,常常會觀察對方的臉形、眼神、嘴巴、發型等特征來區分和判斷,只要記住對方獨特的長相特征就可以,不必記憶其他細節了。這是人們天賦的觀察和萃取特征的能力。再如,當您一大早從家里出門時,常常會先觀察天氣的特征:“烏云密布”,或是“陽光普照”。這也是天賦特征萃取能力的表現。
了解了特征的意義之后,就可以近一步觀察到,特征與特征之間的可能存在有相互之間的關聯性,這又稱為:相關性(Correlation)。例如,當我們觀察到天氣呈現了一個特征:高空上烏云密布;這時也常常會發現另一個特征:低空中蜻蜓紛飛。而且可能還會發現第3 項特征:快下雨了。
由于您觀察到了這3 項特征:“烏云密布”、“蜻蜓紛飛”和“快下雨了”。您就會趕緊采取行動,例如:趕快去收衣服,以免被淋濕了。所以這3 項特征與您的行動之間,也具有緊密的關聯性。
3 以人臉特征為例
剛才提到了,人們在辨別其他人的長相時,常常會觀察對方的臉形、眼神、嘴巴、頭發的形狀、位置、顏色等特征來區分和判斷。其中,最簡單的就是找出人臉的臉框(Box) 位置,以及其臉部關鍵點(Landmark) 的位置,例如眼睛,鼻子,嘴巴等位置坐標。例如,有一張圖像,里面有兩張人臉( 圖1)。
圖1
請您按下“萃取臉部關鍵點”按鈕,這Excel 畫面就會調用幕后的Python 程序,來萃取各關鍵點的坐標(圖2)。
圖2
圖2 里顯示出兩張臉的臉框和關鍵點特征。其中,男生臉框的左上角坐標為(32, 67),且右下角坐標為(78,126)。而女生臉框的左上角坐標為(274, 52),且右下角坐標為(320, 112)。接著來看看女生的臉部各關鍵點特征。
第1 點:臉部的左邊眼睛坐標為(289, 77)。
第2 點:右邊眼睛坐標為(311, 76)。
第3 點:鼻子坐標為(301, 90)。
第4 點:嘴左角坐標為(290, 99)。
第5 點:嘴右角坐標為(310, 98)。
4 復習:空間映射的概念
在本專欄的前幾期里,已經介紹過空間映射(Space Mapping) 的概念,及其在機器學習的重要功能。請您先復習本專欄第3 期的內容:《ML( 機器學習):理解空間對映觀念》。在這里,簡單復習這項AI( 機器學習)的核心概念和技術。
當人類看到自然空間的實際事物,收集這些事物的特征,提供給AI。而AI 則透過這些( 訓練) 數據來( 間接) 觀察實際事物。這些X 數據則成為X 空間里的坐標,來觀察自然空間里實際事物之間的關聯性( 圖3)。
圖3
然后,AI 會很聰明地探索出兩個空間的對映關系(圖4)。
圖4
人們會在其生活的自然( 實物) 空間里,對其所感興趣的各項事物,并收集其特征,就成為各筆原始資料(Raw data),各對映到X 空間里的一點。然后再映射( 過濾) 到Y 空間;還可再從Y 空間映射( 過濾) 到Z 空間。而ML 的魅力就是它很擅長于探索出對映的規律性。在AI 里,通常會將上述的空間,區分為兩種:可觀察空間(Observable space) 和隱( 藏) 空間(Latent space)。
5 認識可觀察空間
茲舉一個最簡單的范例來說明之。這里有5 只兔和貓,各收集其兩項特征:耳朵長度與尾巴長度。于是總共收集了5 筆原始數據(Raw data)。現在,就來把它們各對映到可觀察空間里的一個點,而且兩項特征各對映到一個維度( 軸)。也就是,每一筆數據各對映到2 維(2-Dimension) 的坐標空間里的一個點( 圖5)。
圖5
由于這個空間的每個維度的意義很明確,人人都可以理解。因此,每一個點所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。
同樣地,這里有3 張臉( 即3 筆數據),含有其臉框和關鍵點的坐標,以及各有14 項特征( 圖6)。
圖6
現在,就來把這3 張臉( 即3 筆數據) 各對映到可觀察空間里的一個點,而且14 項特征各對映到一個維度( 軸)。也就是, 每一筆數據各對映到14 維(14-Dimension) 的坐標空間里的一個點( 圖7)。
圖7
由于這個空間的每個維度的意義很明確,人人都可以理解。因此,每一個點所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。
6 結束語
俗語說:從有招到無招。又說:無招勝有招。這里介紹的“可觀察空間”可以說是有招的空間,人類可以理解空間各數據的含意。那么相對地,無招的空間就是“隱空間”,它是AI 創造出來的數據空間,人類就無法理解其數據的真實含意,所以稱為:隱空間。
由于篇幅的關系,我們下一期就從有招到無招,將詳細介紹神秘的隱空間,它是千變萬化AIGC 創作魅力的源頭。
(本文來源于《電子產品世界》雜志2023年1月期)
評論