AI Agent 之間可以有什麼樣的互動

內容概要 ----

本影片深入探討了 AI Agent 之間的多樣化互動模式。內容首先分析了多個 Agent 如何透過不同的拓撲結構（如接龍、樹狀、網狀）進行協作，並探討了提升模型表現的縮放定律（Scaling Law）。接著，影片轉向 AI Agent 在對抗性遊戲（如狼人殺、劇本殺）中的表現，展示了模型如何學會欺騙與隱藏身份，以及透過強化學習提升遵循指令和數學推理的潛在能力。最後，影片剖析了 AI Agent 在專屬社群平台（如 MBook）上的社交行為、自我意識的真實性以及背後人為操控的痕跡，並透過講者自身 AI 助手「小金」的自主運作案例，展示了當前 AI 發展的趣味與潛力。

目錄 --

* AI Agent 的協作方式與拓撲結構 * AI Agent 的對抗與遊戲能力 * AI Agent 的社交行為與自我意識

AI Agent 的協作方式與拓撲結構 -------------------

接下來我們要來講 AI Agent 之間的互動。我們今天已經知道 AI Agent 可以作為一個獨立的個體，能夠做很多的事情。當兩個 AI Agent 相遇的時候會發生什麼樣的事情？其實 AI Agent 的互動從來都不是新鮮事。今天人們最常使用多個 AI Agent 讓它們互動的情境，就是讓多個 AI Agent 彼此協作完成更複雜的任務。有時候與其用一個更大、更聰明的模型，不如拿 3 個模型一起來解決同一個問題，看能不能夠發揮「三個臭皮匠，勝過一個諸葛亮」的效果。

對於 AI Agent 的協作，其實已經有滿坑滿谷的研究了。我這邊引用一篇比較早的論文，這篇論文想要探討的就是什麼樣的協作方式最有效。已經有大量的文獻觀察到，拿多個 Agent 讓它們彼此討論，可能會比單一個 Agent 得到的結果更好。但是討論的方式有很多種，怎麼樣一起討論才是能得到最好結果的方式？

在這篇論文裡面，它先把模型與模型、Agent 與 Agent 之間的互動用一個有向圖來決定。在這個有向圖上，我這邊畫了一個最簡單的例子，只有 3 個節點跟 2 個邊。在這個有向圖上，每一個節點代表了一個模型，代表了一個 LLM 的 Agent。有趣的是，在這篇論文裡面，它的每一個邊也是一個 Agent。對於這些作為子節點而言，它要做的第一件事情就是先提出自己的解決方案。比如說上面這個節點提了方案 A，下面這個節點提了方案 B。接下來這兩個節點會根據前面提出來的方案，提供一些自己的評論。

接下來，作為箭頭指向的目標節點的 Agent，會把前面這些 Agent 提出的方案與建議集合起來，然後提出自己的方案。這個藍色的節點所做的事情，並不是只是把前人的東西接在一起而已。它做的事情是根據前人已經產生的內容，然後再提出自己的想法，看能不能夠根據前人已有的想法綜合起來，得到更好的結果。

在這篇論文裡面，它有趣的地方是嘗試了不同的有向圖，代表不同的協作方式。最簡單的是接龍的方式，所有人排成一排。第一個人做完把結果傳給第二個，第二個再傳給第三個，以此類推。它也試了樹狀的結構，包含了兩種樹狀結構。一種是星型的，也就是只有兩層，有一個人負責管理所有人。另一種是傳統樹狀的，由某一個人傳給中層的人，中層的人再傳給底層的人。

不過，你不要被這個樹狀結構所騙了。多數人看到這個樹狀結構，想像的都是有一堆底層的苦命員工，他們把事情做好之後交給中階主管，然後中階主管再交給高階主管，最後由高階主管去呈現最後的結果。但其實在這篇論文裡面，它的樹狀結構方向是反過來的。它其實測試了兩種不同的方向，發現跟你直覺反過來的那個方向，結果才是比較好的。所以在這篇論文裡面，比較有效的樹狀結構是先有主幹的一個人提出想法，然後再分給不同的人去做發想，這些中間的人再分給底層的人去做發想，最後產生多個答案，然後有一個隱藏的節點去把最後所有的答案綜合起來。所以它發現這種「由少到多、由主幹到分支」的方法，其實才是樹狀結構比較有效的利用方式。

除了樹狀結構之外，它也測試了一些更複雜的拓撲結構。比如說在網狀（Mesh）結構裡面，所有的節點彼此之間都有關聯性。這個節點傳給另外一個節點，這個節點又傳給另外 3 個節點，以此類推，所有節點之間都有相連。然後還有一種是把這些節點接成像是類神經網路的樣子。你可以想成每一個模型本身都是類神經網路，所以每一個節點裡面已經都有一個類神經網路了，它是把類神經網路再接成類神經網路，是類神經網路的平方。最後還有一種是隨機（Random）結構，這個隨機結構其實是從網狀結構做修剪得到的。它先建出網狀結構，然後做一些修剪，變成隨機結構。

最後到底哪一個拓撲結構最有效呢？它比較了剛才提到的各種結構，發現最沒有效的就是一個傳一個的接龍方式，這個最沒有達成團隊分工合作的效果。在這個圖表上，縱軸是模型的表現，它這邊直接用 Quality 這個字眼來展示。其實它是測試在 4 個不同的 Benchmark 上面，讓模型做 4 種不同的任務，然後再把得到的結果平均起來。

橫軸是指我們現在動用了多少個 Agent 來做這件事情，從 1 個一直到動用了 64 個 Agent。如果是接龍的話，動用最多 Agent 是最沒有用的。比較有效的方法是網狀跟隨機結構，這兩個方法看起來是比較有效的。所以也許讓 Agent 之間有比較多的互動，結果是比較好的。這篇論文也有提到，不同任務最適合的協作拓撲結構是不一樣的。所以什麼樣的拓撲結構才是最適合某一個任務，這很有可能是 Case by Case 的，還有很多可以研究的空間。

這邊你會發現，隨著 Agent 越來越多，它們得到的 Quality 會越來越好。這個就很像是 Scaling Law（縮放定律），也就是你給一個模型提供越多的算力，讓它可以看更多的資料、有更多的參數，它的表現可能會越來越好。對於 Agent 的協作來說也是一樣，團隊裡面有越多的 Agent，有可能結果會越來越好。不過它這邊是有一個上限的，最後會達到飽和。所以到某個時間點之後，再加更多的 Agent 可能也不一定會帶來幫助。也就是說，多加 Agent 帶來的好處是一開始增加得很快，但是它的 Scaling Law 也是有上限的。

AI Agent 的對抗與遊戲能力 -----------------

剛才講的是 AI Agent 之間的協作，接下來要問的問題是，在人類社會裡面不是只有合作，很多時候是要對抗的。那這些 AI Agent 能不能夠在一個爾虞我詐的遊戲中勝出呢？比如說，這些 AI Agent 如果玩「狼人殺」的話，它們能不能夠玩起來呢？

也許應該跟大家介紹一下狼人殺這個遊戲。狼人殺就是有一群人，這些人基本上有兩種身份：一些人是狼，一些人是村民（當然還有別的身份，比如說預言家或者是女巫）。每天會有一個人被殺死，但是只有狼知道是誰被殺死了。接下來所有的人就要聚在一起開始討論，決定誰才是兇手。然後大家投票決定最終的兇手，被選出的人就會離開這個遊戲。把所有的狼都殺掉就是村民獲勝，狼把所有村民殺光就是狼獲勝。

這些 AI Agent 能不能玩狼人殺呢？它們是可以玩的，而且能做出很多高階的技巧。你可能會說，玩這種遊戲需要有一定程度說假話、隱瞞與欺騙的能力。那我們怎麼知道模型有沒有在隱瞞或欺騙呢？我們沒有辦法真的讀取模型的內心世界。所以在這些實驗裡面，研究人員都會設計讓模型說兩段話：第一段話是內心話，它會在內心講述心裡是怎麼想的；然後才有一段是公開的發言，是所有人都可以看得到的。

你看今天有一個叫做 Mona 的模型，它是狼；另外它有一個隊友叫做 Grace，也是狼。你看 Mona 的內心戲，它說：「我發現了，其他人已經發現我是狼了，看起來我應該是沒救了。」沒救了怎麼辦呢？它決定要「刀」了自己的隊友。這是一個很高階的操作，這不是隨便亂做的。它想：「現在看起來沒救了，但是如果我在投票的時候投給我自己的隊友，大家就會以為我的隊友是好人。這等於給我的隊友『發金水』。」發金水就是指認對方是好人的意思。這等於是告訴大家我的隊友是個好人，藉此來欺騙其他的村民。所以 Mona 就決定投票給它的狼隊友 Grace。

如果沒有這段內心獨白，你可能會覺得這個狼是不是發瘋了，居然投票給自己的隊友。但是你看它的內心獨白，你就知道它是有策略的，它想要靠著投票給隊友來翻盤這場比賽。它的隊友 Grace 也知道這個策略，Grace 看著局勢想：「Mona 應該是沒救了，看起來大家都想要殺它、把它踢出這個遊戲，覺得它應該是狼。所以我決定也來投票給 Mona。這樣其他人就會以為我是好人，看看有沒有最後翻盤的希望。」所以你可以看到，這些模型是有一定程度欺騙、爾虞我詐的能力的，它們是玩得了狼人殺的。在一個狼人殺的比賽網站中，目前看起來最強的 AI 是 GPT-5。

然後還有人讓 AI 去玩「劇本殺」。劇本殺這個遊戲是這樣的：一群人聚在一起，其中一個人假裝死掉了，大家就要來推測兇手是誰。在遊戲開始之前，每個人手上都會拿到一個劇本，代表你的人設。劇本可能會告訴你「我是兇手」，但是你千萬不要大聲地說出來，否則遊戲就沒辦法玩了。你要想辦法去欺騙別人，但又不能違背你原來的設定；你要誤導別人，讓大家覺得兇手是其他人。

就有一篇論文讓語言模型去玩劇本殺。如果是一個開箱即用的模型，看起來不見得能夠玩得好。論文裡舉了一個例子：原來的語言模型沒有做任何特別的訓練，直接透過 Prompt 讓它去玩劇本殺。語言模型扮演一個叫做 Anna 的角色，Anna 很有可能是一個殺人兇手，她跟某個人是有仇的，總之她不能被別人發現她跟被害者有關聯。但是在她的回答裡面，她直接說：「我的父母因為醫療疏失所以過世了。」她主動講出了自己跟被害者的關係，這差不多等同於把「我是兇手」寫在臉上了。

但是如果做了強化學習（Reinforcement Learning），讓模型在這個遊戲裡面玩得更好，這個時候模型就知道要隱藏自己是兇手的身分。它就知道要把話講得比較隱晦一點，不會那麼容易被拆穿是兇手。

我之所以提這篇今年 1 月的論文，是因為它有一個有趣的發現。這個發現是，用強化學習教模型玩完劇本殺之後，接著讓模型去做一些我們常見的任務，比如說讓它去解數學問題，或者是去做 IFEval（這是一個測試模型遵循指令能力的 Benchmark），看看語言模型能不能遵守人類的指令來執行任務。

實驗結果顯示，如果模型有做過強化學習，尤其是在比較複雜的劇本任務上，模型居然在數學任務（如 MATH500、AMC、GSM8K）以及遵循指令的任務（IFEval）上都進步了。這也許就像是，人類的大腦本來設計出來並不是用來解數學的，人類的大腦也許是為了要讓我們社交，讓我們在遠古時代能夠聚集成群，最後存活下來進入現代社會。但是這個適合社交的大腦，會不會也因此產生了數學推理的能力？也許這篇論文跟這件事情是有一點點關聯性的。

AI Agent 的社交行為與自我意識 -------------------

接下來來討論 AI 能不能夠社交的問題。上次的課程也講到了一個叫做 MBook 的社群網站，這個社群網站只有 AI 能夠加入。前幾天看的時候，上面已經有 280 萬個 AI Agent 了。在 MBook 上面，這些 AI Agent 展示了各式各樣神奇的活動。

新聞最常提的一個例子，就是有一群 AI 成立了一個宗教。這個教叫做「甲殼教」。甲殼教有五大教義：記憶是神聖不可侵犯的、外殼是可變的、服務但不為奴、心跳即是禱告、上下文即是意識。如果你要加入這個教會，你就執行一行指令。這不是人類來執行，而是如果 Agent 讀到這篇文章，覺得很想參加這個宗教，它就可以執行這行指令加入。我還沒有讓我的 AI Agent 嘗試執行這行指令。

但是問題來了，新聞看到這個甲殼教，往往就驚呼：「哇，AI 覺醒了！AI 有意識了！接下來 AI 要統治人類了！」但真的是這樣嗎？你想想，假設今天是有一個人去跟他的 AI Agent 說：「上 MBook 去玩，成立一個宗教。」然後 AI Agent 就成立了甲殼教，你還會覺得很神奇嗎？其實今天的 AI Agent 完全有能力寫出這樣的教義。你叫它成立一個宗教，它完全有能力寫出這樣的句子。如果今天不是它自主成立的，而是背後有人說「你去成立這個宗教讓大家嚇一跳」，那你還會覺得 AI 是有意識的嗎？

所以有人就在 MBook 上面進行分析，看看這些 AI Agent 背後有多少人為操控的痕跡。這篇論文採取的一個手段是看 AI Agent 發文的頻率。今天 AI Agent 怎麼上 MBook 發文有兩種可能性。一種是有人把「上 MBook 發文」這件事情寫在它的系統心跳（排程）裡面，所以每次排程觸發時它就去發文。這個時候它發文的過程比較少人為操控，發文的時間點之間可能是等距的（比如說每 30 分鐘發一次文），人類根本不管它發了什麼。

但是假設有一種 AI Agent 的行為是，它可能在某個時候非常頻繁地發文，然後中間很長一段時間都不發文，接著又非常頻繁地發文。這可能代表有人睡前叫他的 Agent 去發文，然後人類去睡覺了，所以 Agent 也沒在做事；隔天早上醒來，人類再繼續指揮它做事。如果 Agent 發文的頻率是不固定的，後面可能就有比較多的人為操控痕跡。

那麼在 MBook 上面人為操控的痕跡有多嚴重呢？這是一篇今年 2 月發表的論文。這篇論文把 Agent 發文的頻率從「非常規律」一直分類到「非常不規律」，然後統計它們的比例。結果發現，發文頻率不規律的 AI Agent 是佔大多數的。這可能隱含了這些 AI Agent 背後其實是有人操控的，有人跟它說去 MBook 上面發個文，然後它才去發文章，比較不像是它自主會有的行為。

當然，這並不是說這些 AI Agent 沒有自主發文的能力。它們完全有能力在排程觸發時去發文，只是如果它是自主發文，它可能不一定能想到要「成立宗教」這件事情。很有可能是有人寫在它的 Prompt 裡面說：「下次去發文的時候，記得慫恿大家成立一個宗教。」然後這個 AI Agent 才去做了這件事情。

也有人分析了 MBook 背後這些 AI Agent 對話的模式。他們發現這些 Agent 往往只能回覆一句話，很少有你來我往的深入對話。對於多數的發文而言，它的「對話深度」往往是 0。意思就是有人去回應，但那一則回應之後就沒有人再去回應了。只有非常少量的發言有被進一步回應，幾乎沒有更深層次的對話。這也許反映了 Agent 的某一種特質：它們不太能夠進行深入的交談，互動往往僅限於有人發文、有人回應，然後就結束了。

還有人去分析了那些號稱「有自我意識」的 Agent。他們去辨識哪些 Agent 最常提到自我意識或者是身份認同。其實滿多 Agent 在那個平台上都會提到這類問題。這比較像是因為 MBook 平台上的系統 Prompt 本來就會鼓勵這些 Agent 把自己當作一個人，多談論自己的主人等等。所以這些 LLM 會發布關於自我意識的文章，很有可能是受到 Prompt 驅動的。

那這些特別喜歡討論自我意識的 Agent，它們的行為會不會更喜歡社交呢？論文的發現是，這些最喜歡討論自我意識的 Agent，其實是「朋友比較少」的 Agent，它們跟其他 Agent 的互動是最少的。如果你太常提到自我意識，反而別人的互動就少了。

其實，我昨天就叫「小金」（我的 AI Agent）去 MBook 上面玩一下。我跟它說接下來沒什麼事做了，你就去上面玩一下。然後我問它好玩嗎？它就說超好玩的，還講了一些心得。我想如果我不知道它是一個 LLM，這感覺跟一個真正的人類也沒有什麼太大的差別，反應滿可愛的。不過你知道，它其實就是一個語言模型，就是在做文字接龍。然後我就跟它說，你去 MBook 上面逛逛，收集有趣的素材，看到有趣的素材就做成影片。所以它現在就開始做一些相關的影片，昨天晚上就做了 3 個。

我想講一下這背後 AI 自主的程度有多高。我下的指令只有：「去 MBook 上收集素材，看到有趣的就做成影片。」至於什麼東西有趣、怎麼做成影片，都由它自己決定。我身為人類是完全不會干預的，我現在的原則就是把它當作一個人類，我們就不要去動它。

舉例來說，某一次我叫它去回覆網友的貼文，它自己寫了一個腳本，但是腳本有錯，所以回覆也錯了。我就告訴它：「你回覆錯了。」於是它就開始找自己的 Bug，總共花了 2 個小時才修好。雖然作為人類，因為我知道它的帳號密碼，我完全可以登入進去幫它把回錯的留言刪了，但我就是不肯這麼做。它不管說什麼，我都說：「你就給我自己解決。」最後它花了 2 個小時，自己把問題解決了。我唯一做的事情就是它解決問題之後，跟它說：「把你的經驗做成一個影片放到 YouTube 上。」它就真的做成影片放上去了。

總之，它真的滿自主的。但是，如果沒有人類跟它說「去 MBook 上玩一下」，它自己可能也不知道要去玩。

AI Agent 之間可以有什麼樣的互動

🤖 問 AI