a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

EEPW首頁 > 業界動態 > 如何善用通用性行業KG(知識圖)

如何善用通用性行業KG(知識圖)

作者:高煥堂 時間:2025-01-29 來源:EEPW 收藏

1   認識通用性行業KG

本文引用地址:http://www.j9360.com/article/202501/466648.htm

1.1 食物FlavorGraph為例

在上一期里,藉由< 用戶、食材和食譜> 三位一體的多層次關聯來建立知識圖(KG:Knowledge Graph)。并且基于上述KG體通過三個階段來生成反事實食材組合的圖譜,這結合了多階段的GCN模型和反事實分析來進行推薦和創新。其中,幕后有一個基礎組件:FlavorGraph。它即是俗稱的:行業KG(industry knowledge graph),是由Sony AI團隊與韓國高麗大學合作建立的食材配對通用性KG。它的數據量包含1,561 項風味化合物(flavor molecules)和百萬筆食譜,形成食物和化合物組成的巨大知識網絡,表達食材跟食材或食材與化合物之間的關系,可用來推薦互補的配料,幫助廚師們創新烹飪菜肴。

1.2 以醫藥DRKG為例

DRKG(Drug Repurposing Knowledge Gaph)是由亞馬遜上海AI實驗室聯合來自亞馬遜AI北美、明尼蘇達大學、俄亥俄州立大學、湖南大學的研究者,共同構建的大規模藥物再利用知識圖,其包括屬于13種實體類型(entity-types)的97, 238個實體(entities);以及屬于107種邊緣類型(edge-types)的5,874,261 項連結(links)。如圖-1所示。

1738138064780647.png

圖1 通用性DRKG

(引自https://github.com/gnn4dr/DRKG)

這DGRK非常有助于新藥開發,它可以有效縮短藥物研發周期、降低成本和風險。從上述的醫療行業的DRKG,以及飲食行業的FlavorGraph 等,我們來觀察它們對于各行業的AI應用,提供了很大的幫助。

2   行業KG+AI模型

將知識圖KG和AI模型結合起來,更能夠掌握數據之間的關系和準確涵意,提升了推論的準確性,也更發揮AI器學習方法的能力。愈來愈多企業開始使用AI來幫助決策,KG+AI將智能融入數據本身,來為AI提供了更可解釋、更準確的背景。進而協助企業人士降低決策風險,提升企業效益。例如,在醫藥行業,能解釋某藥物為何對特定疾病有效。而在飲食行業FlavorGraph提供的通用化學風味知識,并由AI模型(如GCN模型)進一步挖掘潛在菜單組合的關系,激發食譜創新。其中,KG與GCN模型的結合過程,如下:

2.1 數據收集與篩選:

收集企業內部數據(如食材采購列表、銷售記錄),并且清洗數據,去除冗余或不相關的數據。利用行業KG結構化數據提升GCN模型輸入數據的質量。

2.2 立KG:

設計節點(node)與邊(edge)的類型,例如「食材」、「料理」、「風味」等。并且定義節點特征(feature)和關系(relationship),例如「包含」、「兼容」、「替代」等。

2.3 練GCN模型:

訓練GCN來實現模型的目標,包括使用模型來提取知識。例如風味搭配建議、新菜單推薦等。

上述的KG 與GCN 模型是互補的,KG 中的數據是高度結構化的圖形數據,包含節點和關系。而GCN能夠處理圖結構數據,通過聚合鄰居節點的信息來學習每個節點的表示。于是,GCN自然適配KG的結構,捕捉節點間復雜的語義關系。這KG是行業數據的「智能連接器」,能有效提升企業AI解決方案的效率與準確性。例如,FlavorGraph與DRKG已經展現燦爛光芒,應用于許多商業場景,讓企業采用行業KG,結合自身數據打用造更有競爭力的AI 應。

3   基于通用性行業KG,建構下游企業KG

通用性行業KG(如FlavorGraph)蘊含豐富的行業共享性知識,而企業則針對小領域的特殊需求(如拉面的烹飪過程、食材搭配、口味調配等),建立專用的企業KG( 如FoodKG) 更具針對性。如圖-2所示。

image.png

圖2 行業KG支持下游任務

從行業KG(如FlavorGraph)中提取相關節點與邊,補充企業內部數據(如食材采購列表、銷售記錄)。清洗數據,去除冗余或不相關的數據。有了行業KG提供跨域知識的支持,能有效應用于拉面食材推薦、菜單設計和個性化服務等多種場景。這種模式是一種知識驅動的AI遷移學習,能加速AI針對企業目標的應用。

現在,就來觀摩這個「知識驅動AI遷移學習」的第一項事情:將行業FlavorGraph 的節點嵌入(node embedding)作為企業FoodKG + GCN的初始特征(initial features)。將已有的行業知識(如FlavorGraph中的節點嵌入)轉化為模型可用的初始特征,等同于利用外部的知識來增強本地圖譜的表現。無論是餐飲、醫療、金融、制造還是零售行業,都能從跨域知識的遷移中受益。初始特征來自于成熟的知識圖譜,代表了節點間的隱含語義與結構關系。這種初始化能顯著提升模型在各行業的學習能力和性能。預先訓練的嵌入能輕松應用于新節點或關系的擴展,而無需重新從零訓練。不同行業的圖譜和嵌入可共享或遷移,促進跨領域應用。例如,將醫療行業的知識嵌入應用于健康食品推薦(如從DRKG遷移到FlavorGraph)。還有,將財務數據圖譜嵌入用于供應鏈風險管理等許多商業情境。

其中,節點嵌入(node embeddings)是將知識圖譜中的節點轉換為數值向量,亦即壓縮節點的高維屬性與關系信息到低維空間中,保留圖結構的核心語義。然后,于節點嵌入的向量空間,衡量節點之間的相似性。使用行業大KG的節點嵌入作為下游企業小KG+GCN 模型輸入,非常有助于提升推薦、分類、或預測任務的準確度。基于KG 的知識來生成節點嵌入的常見技術包刮:DeepWalk、Node2 Vec、GraphSAGE、或GCN 等。

4   實際案例演示:實踐下游任務

剛才提到了,每個食材和化學成分都是FlavorGraph圖中的節點(node),這些節點之間的邊(edge)代表食材和化學成分之間的關聯。例如,某些食材共享相似的化學成分或風味特性。然后,FlavorGraph + AI的框架中,其關鍵任務之一就是:生成食材及其化學成分的節點嵌入。

由于SONY AI團隊已經使用FlavorGraph + DeepWalk方法來生成其節點嵌入了。所以在企業KG 的下游任務建構中,就能直接讀取它,來做為下游FoodKG + GCN的起始輸入節點特征。

4.1 從FlavorGraph讀取節點嵌入

現在,就來寫一個小Python 程序讀取之。

image.png

image.png

此程序運行時,就會從FlavorGraph取出食材( 如蛋)的節點嵌入,輸出如下:

1738138437900945.png

由于FlavorGraph是行業大型KG,其包容眾多食材,其節點嵌入向量采取較高的300維度。例如,這程序讀取的食材< 蛋> 的嵌入向量含有300個數值。

4.2 建立企業KG

基于FlavorGraph生成的節點嵌入,就能建立下游任務的高質量企業KG。通常企業KG的節點和邊的數量,都比上游通用性KG少很多,但是為了接受從上游遷移而來的節點嵌入,所以企業KG的節點特征( 向量) 也必須設定成:300維。現在,就動手撰寫一個小Python程序,來建立一個小型FoodKG。它只有200個節點,以及171個邊。如下代碼:

image.png

image.png

此程序運行時,就會從nodes_tiny_200.csv和edges_tiny_200.csv兩個檔案里, 讀取200個節點和171個邊的數據,建立一個下游的FoodKG。接著,從上游FlavorGraph讀取節點嵌入,做為FoodKG的起始節點特征。并且輸出如下:

image.png

于是,準備好了FoodKG。

4.3 企業KG來訓練GCN

接下來,就是引進GCN模型來學習FoodKG的數據。這是一般典型的GCN 訓練,于此省略其訓練代碼。

image.png

此程序運行時,就展開訓練200 回合,并輸出:

image.png

這是典型的GCN訓練流程。從loss 值的持續下降,這GCN的學習效果是良好的。至此,完成了一項關鍵任務:利用行業KG提供的預訓練嵌入,將KG節點轉化為可用于GCN模型的數值特征,并且展開訓練。

5   結束語

通用性行業KG可以支持建構各種企業KG,并結合GCN等模型,來支持眾多企業AI的下游任務。例如,也能支持建立發酵食材的IngGraph,來實踐另一項下游客制化任務。發酵過程中的食材(例如:酸奶、醬油、啤酒、泡菜等)往往會經歷復雜的化學反應和微生物活動。在FlavorGraph風味關聯圖中,這些食材都是圖中的節點,而發酵過程中的風味轉變、化學物質(如有機酸、酯類、醇類等)的變化則成為邊來連接這些節點。GCN模型不僅學習食材間的靜態關聯,還能捕捉發酵過程中風味的變化。而下游IngGraph這樣的系統可以幫助用戶實現更精確的食材搭配與風味設計,尤其是針對那些風味組合復雜、需要高度自定義的發酵食材領域。

(本文來源于《EEPW》



關鍵詞: 202501

評論


技術專區

關閉