白話科技|AI Agent是什麼?它為何是邁向AI界聖杯的關鍵一步? – 數位時代

長久以來,通用型人工智慧(Artificial General Intelligence,AGI)一直是AI界的聖杯,指的是未來AI可以模仿人類的思維和行為,應對挑戰任何複雜的任務。
而AI Agent(AI代理)被視為有機會實現通用型人工智慧的載體。AI大師吳恩達在今年3月的一場演說中就提到,「在邁向通用型人工智慧的漫長旅程中,AI Agent可以幫助我們邁出一小步。」
到底什麼是AI Agent?跟現有的大型語言模型又有什麼關係?
AI Agent的定義,指的是 能用感測器感知周圍環境,然後採取相對應的行動,做出決策的人工智慧
對比現在的大型語言模型可以更清楚了解,現在大家使用大型語言模型,不論是ChatGPT或是其他類型,大多處於「一問一答」的形式,你請它翻譯、它給你答案;你請它總結某篇論文,最終獲得一段結論。
但是現實世界中的人類,可以處理多步驟的複雜工作。舉例來說,記者日常生活中的專訪邀約,必須先知道主題、邀請受訪者、了解受訪者可以接受訪問的時間、選定訪問地點⋯⋯。在這個過程中,如果受訪者突然臨時有事,就必須重新調整時間;或是最後專訪的題目大轉彎,也要調整訪問的方向。
這跟一問一答的狀況完全不一樣。
為了完成更複雜的任務,AI Agent要擁有更多能力,包含4個要素: 計畫記憶工具行動 。其中計畫、記憶能力要能隨時因應環境狀態的不同修正,使用的工具、行動的方式也會視目標來調整。
修正、調整、選擇適當的行動方式(或工具),就是最大的關鍵。
上圖是由復旦大學自然語言處理實驗室提出的AI Agent場景:在廚房中有一個負責點餐的AI Agent,而另外一個AI Agent負責規劃和解決烹飪任務;在音樂會上,3個AI Agent合作進行演出;戶外也有2個AI Agent在製作燈籠,會自己規劃所需要的材料與財務。
而AI Agent之所以被認為是實現通用型人工智慧的關鍵一步,就是因為它用近乎人類的模式,來處理複雜的任務。
現階段,大型語言模型被視為是AI Agent的大腦。
根據《彭博》的報導,OpenAI把AI的發展階段分為5級:
根據OpenAI發言人的說法,該公司認為它目前處於第1級,不過非常接近第2級,可以像人類一樣解決問題,但還沒有辦法直接地使用工具。
也就是說,大型語言模型就像是一顆可以對話的大腦,慢慢進化成可以解決問題、使用工具,最終執行所有人類的工作。
其實現在就可以做到部分AI Agent的展望,靠的就是把任務拆分出來,交給不同的大型語言模型去執行。同樣以「邀約專訪」來舉例,你可以有一個約時間的AI、一個確認時間的AI、一個寫訪綱的AI⋯⋯.,這個工作流程被稱為代理工作流程(Agentic Workflow),重點在於上述提到的:計畫與記憶能夠修正、使用的工具與行動能夠調整。
「如果你期待GPT-5、Claude4、Gemini 2.0(泛指最新一代大型語言模型),現在透過代理工作流程或許就可獲得接近的表現。」吳恩達說。
所以現階段有許多擁有「垂直能力」的AI,也許目前只有工程師有能力把它們串接在一起,在不久後,或許一般人也可以享受類似AI Agent的服務,只是就像是LangChain共同創辦人暨執行長哈里森.卻斯(Harrison Chase)所說:「人類現在還是要介入,因為AI Agent還不夠可靠;但是介入的太多,代表AI Agent還不夠有用。」但相信在沒有那麼遠的未來,就會有更多成熟的AI Agent出現。
如果想要嘗試一些雛形,現有主打只要下指令就好的AutoGPT、複製自己工作流程的AgentGPT等工具,雖然褒貶不一,也是一窺未來的一道窗口。
另外,最讓人興奮的不只是「虛擬世界」的AI Agent,這一整套系統也可以被放在機器人身上。把任務交給機器人,它可以透過感測器(文字、觸覺、視覺、聽覺)感知環境狀況,去產生完成任務的計畫,然後用文字、圖像,甚至是機械手臂來完成任務,這也是AI近期能帶動機器人產業發展未來的重點原因。
延伸閱讀:白話科技|晶背供電是什麼?為何是晶圓「埃米戰爭」殺手鐧?概念股有哪些?
責任編輯:林美欣
登入數位時代會員
開啟專屬自己的主題內容,
每日推播重點文章
閱讀會員專屬文章
請先登入數位時代會員
看更多獨享內容
請先登入數位時代會員
開啟收藏文章功能,
請先登入數位時代會員
開啟訂閱文章分類功能,
請先登入數位時代會員

source