用工具彌補AI短板，讓AI答案更精準

作者：Becks 時間：2024-07-18 來源：貿澤電子

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

ChatGPT和GPT-4等大型語言模型 (LLM) 已成為提高工作效率和更好地理解各種主題不可或缺的工具。從教育到軟件開發，再到內容寫作，LLM在眾多領域嶄露頭角，它們在提煉和生成供人類使用的信息方面有著近乎神奇的能力。不過，盡管LLM的能力令人印象深刻，但它們在提供準確答案或執行需要精確知識的特定任務時，卻常常比較吃力。

本文引用地址：http://www.j9360.com/article/202407/461150.htm

例如，對于復雜的數學問題或者晦澀難懂的題目，往往會給出錯誤或不夠充分的答案。出現這些局限性的主要原因是，LLM通常是使用過時的數據進行訓練，以預測句子中下一個在統計上最有可能出現的單詞，而不是通過推理找出正確答案。

為了克服這些挑戰并提高LLM的準確性，研究人員和開發人員正在創建工具，并更新了模型與工具互動的方式，以建立人工智能 (AI) 驅動的代理，使其能夠與世界互動，獲取更豐富的信息和專業知識。

01 在沒有幫助的情況下使用AI

LLM回答各種問題的能力近乎神奇。事實上，由于它們非常好用，人們已經越來越多地將其融入日常生活，以提高工作效率和加深對題目的理解；LLM將這些互動視為傳統搜索引擎更加簡潔明了的濃縮版。

LLM正在進入教育領域，學生可以用它們更好地解釋概念；LLM也在涉足軟件開發領域，程序員可以用它們編寫和理解代碼片段。許多內容創作者和專業寫作人士也在使用它們來完成摘要、文檔寫作和頭腦風暴等任務。

然而，底層AI在這其中的幾種應用中卻舉步維艱，原因通常在于回答問題或完成特定的任務需要非常精確的知識。一些常見的例子包括，LLM無法給出數學問題的正確答案，或者對于一些非常冷門的問題，比如家鄉小鎮的歷史或一些鮮為人知的名人，給出的多個答案往往大相徑庭。

正如前面所說，之所以會出現這些錯誤，是因為LLM是使用互聯網的大范圍數據進行訓練的，其目的是生成詞鏈中下一個在統計上最有可能出現的詞（圖1）。

基本上，它們已經記住了這些信息，但記憶方式極為粗糙 — AI的知識更像是許多主題的粗略近似。在訓練模型的所有數據中，某項信息的代表性越低，模型正確再現該信息的可能性就越小。例如，這些LLM在看過許多文本數據點（如 1+1 = 2）后，會學習加法或減法的模糊表示，通常能用統計上可能的響應給出正確答案。

但是，對于像649 152這樣更復雜的輸入（它們以前可能從未見過），給出的答案往往是錯誤的，原因可能是訓練所使用的數據早于所需的答案，或所需的信息來自不為公眾所知的來源（如網站數據庫）。答案不準的例子可能包括酒店或航班的價格不準確，或者是給出了一年前正確但現在不正確的答案。為了規避這些限制，讓AI能夠在各式各樣的應用中做出更準確的響應，我們正在設計一些工具，讓LLM能夠與周圍的世界互動，以獲取更豐富的信息和更對口的專業知識。

圖片.png

圖1：LLM本身被訓練成預測下一個在統計上最有可能出現的單詞 — 由于擁有大量的訓練數據，它們在這項任務中取得了成功。（圖源：作者）

02 確定工具

在LLM的世界里，工具是外部應用，模型以特定的方式與之交互，從而得出或驗證特定的答案。最初的工具包括計算器、代碼運行器和搜索引擎，但隨著應用編程接口 (API) 插件、數據庫和矢量存儲連接等新工具的加入，以及圖像到文本提取器等其他機器學習程序的出現，這些工具的數量與日俱增。

前面提到的失敗案例（如模型無法正確計算公式或對冷門問題回答錯誤）可以分別通過計算器或搜索引擎等工具來解決。為了正確回答問題，模型將利用可訪問的工具，而不是完全依賴于它所學到的知識。當模型需要做一些計算、運行一些代碼來保證準確性，利用用戶數據回答問題，或響應用戶通常利用網站提出的請求時，就會用到這些工具。

雖然這些工具看似簡單，人類很容易理解并知道如何與之交互，但無論界面如何，AI模型都需要用代碼封裝現有工具（如計算器或網站API）并使之交互。特別是，工具需要受軟件約束，其輸入和輸出可通過代碼完成（圖2）。

例如，可以使用網站的API來代替用戶界面，這樣無需點擊按鈕或選中復選框，就能確保純文本輸入被發送到工具。工具信息的另一個重要部分是關于何時使用工具的說明，這一點很重要，因為它可以讓模型了解工具的用途，以及有關何時不能使用該工具的具體說明。如果工具被過度使用，后者可能會有幫助。

圖片.png

圖2：AI工具看起來就像軟件功能，具有基于代碼的輸入、輸出和使用說明。（圖源：作者）

傳感器與云以及分析軟件配合使工作人員能夠了解生產過程狀況，并簡化查找設備存在的潛在問題，使得工作和流程更加高效，同時提高了制造產品的整體質量和可靠性。

例如，在制藥過程中，無線傳感器可以通過監測溫度、濕度等參數確保生產過程。此外，傳感器還可以通過監測設備的運行狀態，及時發現設備故障，從而提高生產效率。借助智能傳感器，讀取測量屬性，提升工廠智能化水平。在嚴苛環境和條件下進行精確測量能夠將傳感技術的應用范圍擴大到多種工業設備。

03 教AI使用工具

僅僅將面向人類的現有工具改寫或包裝成適合AI使用的工具是不夠的。還要更新LLM用來決定何時與工具交互的提示流。這一過程將模型變成一個代理，它知道如何通過結合輸入、提示指令和可使用的工具來生成正確的答案。

與LLM的典型交互方式是編寫一條供模型執行的特定指令，通常會舉例說明對于特定類型的輸入，響應應該是什么樣的。開發這些指令的過程被稱為“提示工程”。在教AI使用工具時，將擴展“提示工程”以包含模型為完成任務而應做出的一連串決定。

使用像LangChain這樣的軟件庫（在Python、JavaScript和其他編程語言中提供），用戶可以將LLM（例如GPT-4）、一套工具（如計算器、代碼編譯器）與代理結構結合起來，構建可以使用工具的AI應用。更重要的是，它允許增加內存和響應鏈功能，從而實現更強大的能力。

例如，要回答“我們去年的收入除以銷售量是多少？”這樣的問題，就需要這種支持鏈式邏輯、使用多種工具的代理。

首先，除法計算需要一個計算器，還需要一個查詢程序與公司的數據庫進行交互。其次，由于這是一個多步驟的問題，因此在提示代理時，必須觀察它需要采取哪些步驟，比如查詢去年的收入和銷售量。根據這些觀察結果，代理的內部提示將決定一項行動 — 例如，“使用查詢工具搜索答案”。然后根據需要多次重復這一過程，直至獲得最終答案。

在這個案例中，有關去年收入和銷售量的信息會觸發代理的觀察，即應該將二者相除來找到答案。而這反過來又會觸發將二者輸入計算器工具這個操作。由于沒有更多的步驟發生，代理將認為它已經得到了最終答案，并將其提供給用戶（圖3）。將這一系列觀察、操作和響應串聯在一起，意味著LLM驅動的代理可以完成比單獨使用LLM更為復雜的任務。

圖片.png