白話科技｜AI Agent是什麼？它為何是邁向AI界聖杯的關鍵一步？ - 數位時代

長久以來，通用型人工智慧（Artificial General Intelligence，AGI）一直是AI界的聖杯，指的是未來AI可以模仿人類的思維和行為，應對挑戰任何複雜的任務。
而AI Agent（AI代理）被視為有機會實現通用型人工智慧的載體。AI大師吳恩達在今年3月的一場演說中就提到，「在邁向通用型人工智慧的漫長旅程中，AI Agent可以幫助我們邁出一小步。」
到底什麼是AI Agent？跟現有的大型語言模型又有什麼關係？
AI Agent的定義，指的是 能用感測器感知周圍環境，然後採取相對應的行動，做出決策的人工智慧 。
對比現在的大型語言模型可以更清楚了解，現在大家使用大型語言模型，不論是ChatGPT或是其他類型，大多處於「一問一答」的形式，你請它翻譯、它給你答案；你請它總結某篇論文，最終獲得一段結論。
但是現實世界中的人類，可以處理多步驟的複雜工作。舉例來說，記者日常生活中的專訪邀約，必須先知道主題、邀請受訪者、了解受訪者可以接受訪問的時間、選定訪問地點⋯⋯。在這個過程中，如果受訪者突然臨時有事，就必須重新調整時間；或是最後專訪的題目大轉彎，也要調整訪問的方向。
這跟一問一答的狀況完全不一樣。
為了完成更複雜的任務，AI Agent要擁有更多能力，包含4個要素：計畫、記憶、工具與行動。其中計畫、記憶能力要能隨時因應環境狀態的不同修正，使用的工具、行動的方式也會視目標來調整。
修正、調整、選擇適當的行動方式（或工具），就是最大的關鍵。
上圖是由復旦大學自然語言處理實驗室提出的AI Agent場景：在廚房中有一個負責點餐的AI Agent，而另外一個AI Agent負責規劃和解決烹飪任務；在音樂會上，3個AI Agent合作進行演出；戶外也有2個AI Agent在製作燈籠，會自己規劃所需要的材料與財務。
而AI Agent之所以被認為是實現通用型人工智慧的關鍵一步，就是因為它用近乎人類的模式，來處理複雜的任務。
現階段，大型語言模型被視為是AI Agent的大腦。
根據《彭博》的報導，OpenAI把AI的發展階段分為5級：
根據OpenAI發言人的說法，該公司認為它目前處於第1級，不過非常接近第2級，可以像人類一樣解決問題，但還沒有辦法直接地使用工具。
也就是說，大型語言模型就像是一顆可以對話的大腦，慢慢進化成可以解決問題、使用工具，最終執行所有人類的工作。
其實現在就可以做到部分AI Agent的展望，靠的就是把任務拆分出來，交給不同的大型語言模型去執行。同樣以「邀約專訪」來舉例，你可以有一個約時間的AI、一個確認時間的AI、一個寫訪綱的AI⋯⋯.，這個工作流程被稱為代理工作流程（Agentic Workflow），重點在於上述提到的：計畫與記憶能夠修正、使用的工具與行動能夠調整。
「如果你期待GPT-5、Claude4、Gemini 2.0（泛指最新一代大型語言模型），現在透過代理工作流程或許就可獲得接近的表現。」吳恩達說。
所以現階段有許多擁有「垂直能力」的AI，也許目前只有工程師有能力把它們串接在一起，在不久後，或許一般人也可以享受類似AI Agent的服務，只是就像是LangChain共同創辦人暨執行長哈里森．卻斯（Harrison Chase）所說：「人類現在還是要介入，因為AI Agent還不夠可靠；但是介入的太多，代表AI Agent還不夠有用。」但相信在沒有那麼遠的未來，就會有更多成熟的AI Agent出現。
如果想要嘗試一些雛形，現有主打只要下指令就好的AutoGPT、複製自己工作流程的AgentGPT等工具，雖然褒貶不一，也是一窺未來的一道窗口。
另外，最讓人興奮的不只是「虛擬世界」的AI Agent，這一整套系統也可以被放在機器人身上。把任務交給機器人，它可以透過感測器（文字、觸覺、視覺、聽覺）感知環境狀況，去產生完成任務的計畫，然後用文字、圖像，甚至是機械手臂來完成任務，這也是AI近期能帶動機器人產業發展未來的重點原因。
延伸閱讀：白話科技｜晶背供電是什麼？為何是晶圓「埃米戰爭」殺手鐧？概念股有哪些？
責任編輯：林美欣
登入數位時代會員
開啟專屬自己的主題內容，
每日推播重點文章
閱讀會員專屬文章
請先登入數位時代會員
看更多獨享內容
請先登入數位時代會員
開啟收藏文章功能，
請先登入數位時代會員
開啟訂閱文章分類功能，
請先登入數位時代會員

source