評《建立以情緒為基礎的代理人決策架構》

上學期的作業報告,丟上來充數。XD

本篇論文主要是應用了情意計算的概念,來設計可以讓 agents 運用情緒資訊來最佳化的架構。

  • 論文題目:建立以情緒為基礎的代理人決策架構
  • 論文作者:清大資工陳光泰/蘇豐文
  • 論文發表於:TAAI 2004

內文簡述

本篇論文主要是提出一個可能的架構,用來在代理人系統的判斷中納入情緒考量,以解決目前以理性為基礎的Agents無法解決的問題,這些問題包括:著重短期利益、不適合產生利人的互助行為、對於事件的優先順序無法有一個完整而精簡的定義方式。藉著Antonio R. Damasio對於缺乏感情判斷能力者的臨床觀察,Affective Computing試圖把情緒納入電腦的判斷參考中,以建立更能夠在實際世界運作良好、與人(Human)和機(agents)合作得更好的擬真程式。

作者首先提出一個情緒架構,用來模擬情緒在人類作決定時所扮演的角色,以及情緒如何影響最終如何影響決定的產生。在這個架構中,環境的輸入先經由Belief Block轉為Belief,Belief再經由參考內在狀態以產生情緒和慾望,這些情緒和慾望參數再經由Planner轉為對應的決策,以朝向最有利於自己的方式改變;而這個改變除了改善自己的狀態外,也包括讓自己的情緒朝向更好的方式改變。

文中對於情緒的表示方式,引用了Piccard提出的方式,以一個Sigmoid function來為情緒建立Threshold和Saturation,其根本理由在於情緒其實是有下限和極限的,在兩個極端時差異其實並不大。

作者並改善南加大提出的情緒評估框架(EAF),在新提出的EEF中新增了一個目標狀態(goal state),以明確的告訴agents如何遠離負面情緒。這種方式的優缺點容後再議。

作者並提出情緒如何合成,參考的觀點包括1.信仰;2.利益;3.代理人;4.經驗。而這些觀點有的又帶有較理性的偏好情感,有的則是非理性的道德情感。在道德情感又分為義務論(Deontology)和目的論(Teleology),以免正義被過份擴張,或是為了多數犧牲少數的情形發生。

經由以上的架構建構出的網路可以用來計算每一個決定背後可能對agent所帶來的”快樂”為何。”快樂”在這個架構中取代了”利益”,成為agent最佳化的目標。由於不同的agents會因為自己的利益、信念、經驗等因素而產生不同的”快樂”,最後在互動的過程中也會產生合作或利它的行為,最終使得系統達到global optima。

問題與討論

  • 情緒是否適合用Sigmoid function來表示?該如何表示極度的情緒產生的「暴虎馮河」行為?

    Sigmoid function的確可以表示一般狀態下的情緒,但是若用來表示盛怒之下、完全不考慮其他事情的情緒,就顯得有點不足了。事實上,在這個狀況下,情緒的作用還比較像是offset極大的二極體(diode),在超過一定範圍後電阻趨近於零。雖然這種情緒帶來的效果往往是不好的,但例如像成在火災時奮力一跳以求能跳到另一個大樓,此時這個決定若是會釋放大量的腎上腺素(而不考慮這樣做是否會造成血醣存量不足),那麼就能夠讓agent更有生存的機會。

    所以除了Sigmoid function外,我相信必定還需要某個function來處理這種緊急狀態。

  • 遠離負面情緒的方式是否能夠embed在EAF中而成為EEF呢?這樣的設計是否有侷限或缺點呢?

    將遠離負面情緒的方式加在描述情緒的描述之中,雖然看起來比較方便agent參考,但是實際上卻仍有兩個問題。

    1. 遠離負面情緒的選項往往不只一個,以巨大聲響而言,細胞內部有兩種學習機制,一種是敏感化、一種是習慣化,前者會引致個體嘗試逃避該刺激的行為,後者則是讓刺激對細胞的影響減弱,兩種方式都可以達到減少負面情緒的作用。如果連細胞層次都有這樣不同的行為產生,更不用說對於高階生物而言應該有多少種對應了,這麼多的對應要如何存於EEF中呢?個體對於各選項的偏好又要如何取捨呢?
    2. 針對goal state個體應該要能夠調適,就如同我們都覺得愛乾淨是好事,但是不顧一切保持乾淨會成為潔癖而影響正常生活;所以個體如何調適自我的情緒以滿足設定錯誤的goal?在自動控制系統中,我們知道在傳統的feedback model,有時候設定的goal會無法達成,造成永遠存在的落差,這時如果這個goal被寫死在agent的設定中似乎不是最好的選擇。相反的,應該要能夠讓agent把目標也當成內部狀態能夠自我調適。

  • 在這篇論文中提出了要考慮無聊的因素,但卻沒有定義如何表達無聊。無聊該如何定義呢?

    無聊這個東西,必然關連於時間以及內在狀態。但是對於agents來說,如果它會覺得一直採用相同的步驟(也許是已知最佳解)是無聊的,那麼系統就永遠不會進入穩定最佳解,無聊也許可以幫助系統跳出local optima,那就同樣可能跳離global optima。同時,如果它知道自己先前都採取什麼步驟,它要如何記憶?它又需要在什麼時候採取無聊的狀態?

  • 在這麼多因素的條件下,如何設計出會合作的Rules?

    賦予agents感情並期待其出現合作的行為,看似要利用基因演算法來產生Rules。如果是由人來設計Rules,那是否會出現某種不確定的環境,造成「保証毀滅」的軍武競賽結果?即使採用演化的方式,我們也無從知曉是否在某種環境下,agents會被trigger成完全不顧goal state、只顧維持自己的生存。所以我們必須要問,我們的goal state以長期而言,真的能被滿足嗎?而長遠的合作真的是穩態嗎?

結語

將Affective導入agents中雖然是個很有趣的點子,但是也讓系統的複雜度大為增加,甚至無從預測系統會產生什麼樣的整體行為。作者提出的觀點儘管補足了現存架構之不足,但從系統的架構、Rule的產生、個體的定義以及情緒的反應,都還需要更進一步的探討。