編程客棧()5月10日 消息:在很多人看來(lái),與OjavascriptpenAI 的 ChatGPT類似的大型語(yǔ)言模型 (LLM)就像一個(gè)黑匣子,因?yàn)榧词箤?duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),也很難知道為什么這些模型總是以自己的方式做出反應(yīng),就像憑空捏造事實(shí)一樣。
(相關(guān)資料圖)
為了能夠剖析 LLM 的的行為,OpenAI 正在開(kāi)發(fā)一種工具來(lái)自動(dòng)識(shí)別 LLM 的哪些部分對(duì)其行為負(fù)責(zé)。簡(jiǎn)單的說(shuō),OpenAI在最新的發(fā)布成果中,展示了用 GPT-4解釋 GPT-2的行為,獲編程得了初步的成果。
OpenAI開(kāi)發(fā)的工具通過(guò)調(diào)用 GPT-4來(lái)計(jì)算出其他架構(gòu)更簡(jiǎn)單的語(yǔ)言模型上神經(jīng)元的行為。該工具會(huì)為 LLM 中的每個(gè)神經(jīng)元生成解釋,這些解釋被編譯到與工具代碼一起發(fā)布的數(shù)據(jù)集中。
大模型(LLM)和人腦一樣,由「神經(jīng)元」組成,這些神經(jīng)元會(huì)觀察文本中的特定規(guī)律,進(jìn)而影響到模型本身生產(chǎn)的文本。
比如有一個(gè)針對(duì)「漫威超級(jí)英雄」的神經(jīng)元,當(dāng)用戶向模型提問(wèn)「哪個(gè)超級(jí)英雄的能力最強(qiáng)」時(shí),這個(gè)神經(jīng)元就會(huì)提高模型在回答中說(shuō)出漫威英雄的概率。android開(kāi)始之前,先讓 GPT-2運(yùn)行文本序列,等待某個(gè)特定神經(jīng)元被頻繁「激活」的情況。
OpenAI 開(kāi)發(fā)的工具利用這種規(guī)則將模型進(jìn)行分解。
首先,讓 GPT-4針對(duì)這段文本,生成解釋。比如在下面的案例中,神經(jīng)元主要針對(duì)漫威內(nèi)容。GPT-4接收到文本和激活情況后,判斷這與電影、角色和娛樂(lè)有關(guān)。接著,用 GPT-4模擬這個(gè) GPT-2的神經(jīng)元接下來(lái)會(huì)做什么,并用GPT-4生成的模擬內(nèi)容。最后,進(jìn)行對(duì)比評(píng)估。對(duì)比4代模擬神經(jīng)元和2代真實(shí)神經(jīng)元的結(jié)果,看 GPT-4猜的有多準(zhǔn)。為了確定解釋的準(zhǔn)確性,該工具為 GPT-4提供了文本序列,并讓它預(yù)測(cè)或模擬神經(jīng)元的行為方式。然后將模擬神經(jīng)元的行為與實(shí)際神經(jīng)元的行為進(jìn)行比較。
通過(guò)這樣的方法,OpenAI 對(duì)每個(gè)神經(jīng)元的行為作出了初步的自然語(yǔ)言解釋,并對(duì)這種解釋和實(shí)際行為的匹配程度進(jìn)行了評(píng)分。
研究人員已經(jīng)對(duì) GPT-2中的所有307,200個(gè)神經(jīng)元生成解釋,并將這些解釋匯編成數(shù)據(jù)集,與工具代碼一起在 github 上發(fā)布。
它背后的工程師強(qiáng)調(diào)它還處于早期階段,但其運(yùn)行代碼已經(jīng)可以在 GitHub 上以開(kāi)源方式獲得。OpenAI 的工具可以幫助研究人員更好地理解 LLM 的行為,從而提高性能并減少偏差或毒性。
也有人質(zhì)疑,該工具本質(zhì)上是為 GPT-4做廣告,因?yàn)樗枰?GPT-4才能工作。其他解釋 LLM 工具較少依賴商業(yè) API,例如 DeepMind 的Tracr。
標(biāo)簽: