大型語言模型使用一種非常簡單的機制來檢索一些存儲的知識
大型語言模型(例如為 ChatGPT 等流行人工智能聊天機器人提供支持的語言模型)非常復(fù)雜。盡管這些模型在許多領(lǐng)域被用作工具,例如客戶支持、代碼生成和語言翻譯,但科學(xué)家們?nèi)匀粵]有完全掌握它們的工作原理。
為了更好地了解幕后發(fā)生的事情,麻省理工學(xué)院和其他地方的研究人員研究了這些巨大的機器學(xué)習(xí)模型檢索存儲的知識時的工作機制。
他們發(fā)現(xiàn)了一個令人驚訝的結(jié)果:大型語言模型(LLM)通常使用非常簡單的線性函數(shù)來恢復(fù)和解碼存儲的事實。此外,該模型對相似類型的事實使用相同的解碼函數(shù)。線性函數(shù)是只有兩個變量且沒有指數(shù)的方程,捕獲兩個變量之間簡單的直線關(guān)系。
研究人員表明,通過識別不同事實的線性函數(shù),他們可以探索模型以了解它對新主題的了解,以及知識存儲在模型中的位置。
研究人員使用他們開發(fā)的技術(shù)來估計這些簡單的函數(shù),發(fā)現(xiàn)即使模型錯誤地回答了提示,它通常也存儲了正確的信息。將來,科學(xué)家可以使用這種方法來查找并糾正模型內(nèi)部的錯誤,這可以減少模型有時給出錯誤或無意義答案的傾向。
“盡管這些模型非常復(fù)雜,非線性函數(shù)需要接受大量數(shù)據(jù)的訓(xùn)練,并且很難理解,但有時它們內(nèi)部的工作機制非常簡單。這就是一個例子,”電氣工程師埃文·埃爾南德斯 (Evan Hernandez) 說計算機科學(xué) (EECS) 研究生,也是論文的共同主要作者,該論文詳細(xì)介紹了發(fā)布到arXiv預(yù)印本服務(wù)器上的這些發(fā)現(xiàn)。
埃爾南德斯與東北大學(xué)計算機科學(xué)研究生 Arnab Sharma 共同撰寫了這篇論文。他的導(dǎo)師 Jacob Andreas,EECS 副教授,計算機科學(xué)與人工智能實驗室 (CSAIL) 成員;資深作者 David Bau,東北大學(xué)計算機科學(xué)助理教授;以及麻省理工學(xué)院、哈佛大學(xué)和以色列理工學(xué)院的其他人。該研究將于 5 月 7 日至 11 日在維也納舉行的國際學(xué)習(xí)表征會議 ( ICLR 2024)上發(fā)表。
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
6月25-28日,由中國進出境生物安全研究會、中國國際旅行衛(wèi)生保健協(xié)會主辦,中國青年創(chuàng)業(yè)就業(yè)基金會支持,中國出入...瀏覽全文>>
-
胃腸鏡檢查,聽起來可能有些令人不安,但實際上,它可能是生活中的救命稻草。對于一些人來說,定期進行胃腸鏡...瀏覽全文>>
-
6月16日-20日,2025年優(yōu)秀博士后研究人員(紹興)研學(xué)活動順利舉行。本次活動匯聚了來自全國各地的百余名博士后,...瀏覽全文>>
-
近日,天津松果生物醫(yī)療科技有限公司自主研發(fā)的牛跟腱來源去端肽I型膠原蛋白原材料成功通過國家藥品監(jiān)督管理局...瀏覽全文>>
-
在數(shù)字化產(chǎn)業(yè)轉(zhuǎn)型的浪潮奔涌之際,病理學(xué)正經(jīng)歷著前所未有的革新機遇。奧偉登(Evident)憑借百年光學(xué)技術(shù)積淀,以...瀏覽全文>>
-
6月6-8日,CHINAGUT 2025中國腸道大會在寧波國際會議中心隆重舉辦。大會由南京醫(yī)科大學(xué)第二附屬醫(yī)院、國家消化...瀏覽全文>>
-
在第28屆北京國際口腔展這一行業(yè)風(fēng)向標(biāo)級盛會上,北京易嶺生物科技有限公司(下面簡稱易嶺生物)憑借重磅新品發(fā)...瀏覽全文>>
-
2025款上汽大眾ID 4 X在安徽阜陽地區(qū)的售價會根據(jù)配置和選裝包有所不同?;A(chǔ)版車型的廠商指導(dǎo)價大約在20萬...瀏覽全文>>
-
嵐圖FREE,作為一款集豪華與智能于一體的新能源SUV,正以全新的姿態(tài)迎接每一位渴望高品質(zhì)出行的用戶?,F(xiàn)在,嵐...瀏覽全文>>
-
安徽阜陽的大眾ARTEON 2022新款現(xiàn)已到店,最低售價從34 80萬元起,無疑是近期購車的最佳時機。這款車型以其...瀏覽全文>>