奈良科學技術(shù)研究所的研究人員基于強化學習原理開發(fā)了一種新的強迫癥模型。該模型可能會導致對強迫癥和相關(guān)疾病的更好治療
奈良科學技術(shù)研究所 (NAIST)、國際先進電信研究所和多摩川大學的科學家已經(jīng)證明,強迫癥(OCD) 可以理解為強化和懲罰之間學習不平衡的結(jié)果。
在對其理論模型的經(jīng)驗測試的基礎(chǔ)上,他們表明,將當前結(jié)果與過去行為聯(lián)系起來的大腦計算不對稱會導致行為紊亂。具體來說,當過去行為的記憶跟蹤信號因好結(jié)果和壞結(jié)果而衰減不同時,就會發(fā)生這種情況。在這種情況下,“好”表示結(jié)果比預期好,“壞”表示結(jié)果比預期差。這項工作有助于解釋強迫癥是如何發(fā)展的。
強迫癥是一種涉及焦慮的精神疾病,其特征是侵入性和重復性的想法,稱為強迫癥,再加上某些重復的行為,稱為強迫癥。強迫癥患者即使知道強迫觀念或強迫行為是不合理的,也常常感到無法改變行為。在嚴重的情況下,這些可能會使人無法過正常的生活。強迫行為,例如過度洗手或在離開家之前反復檢查門是否鎖好,是試圖暫時緩解強迫癥引起的焦慮。然而,迄今為止,人們對強化強迫觀念和強迫循環(huán)的方式還不是很清楚。
現(xiàn)在,由 NAIST 的研究人員領(lǐng)導的一個團隊使用強化學習理論來模擬與強迫癥相關(guān)的無序循環(huán)。在這個框架中,比預期更好的結(jié)果變得更有可能(正預測誤差),而比預期更差的結(jié)果被抑制(負預測誤差)。在強化學習的實施中,考慮延遲以及正/負預測誤差也很重要。一般來說,某個選擇的結(jié)果是在一定的延遲之后才可用的。因此,在一定的時間范圍內(nèi),應該將強化和懲罰分配給最近的選擇。這稱為信用分配,在強化學習理論中作為記憶軌跡實現(xiàn)。
理想情況下,對于正預測誤差和負預測誤差,過去動作的記憶跟蹤信號以相同的速度衰減。然而,這在離散神經(jīng)系統(tǒng)中無法完全實現(xiàn)。通過模擬,NAIST 科學家發(fā)現(xiàn),當與負面預測錯誤(
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!