ChatGPT的橫空出世讓人們認識到了語言模型的強大,其功能也會隨著版本的迭代而進一步完善,也必將更深入地參與到人們的工作與生活之中。然而,我們并不能完全理解這些模型是如何運作的。最近一些研究讓人們厘清了小規模模型的機理,但要完全理解語言模型,則需要分析數百萬個神經元。
OpenAI的研究團隊嘗試使用GPT-4自動編寫大型語言模型中神經元行為的解釋,并對這些解釋進行評分。他們研究的對象是早一代模型GPT-2,研究為GPT-2中的每個神經元給出了(或許不完美的)解釋和評分。
?圖源:OpenAI官網
(資料圖片)
運作過程
在這項研究中,科學家旨在解釋文本中的哪些模式會導致神經元激活。這具體包括解釋、仿真、評分三個步驟。
1. 解釋:使用GPT-4解釋神經元的激活
給出一個GPT-2神經元,通過向GPT-4展示相關文本序列和GPT-2神經元的激活來生成對其行為的解釋。
?在這個例子中,研究者研究了神經元“Marvel comics vibes”。研究者將其展示給GPT-4,GPT-4對此給出的解釋是“references to movies, characters, and entertainment.”
2. 仿真:以上一步的解釋為條件,使用GPT-4模擬神經元激活
再次使用GPT-4進行仿真模擬,以解釋被激活的神經元會做什么。
3. 評分:通過對比神經元的仿真激活和真實激活來對第一步解釋進行評分
?比較仿真激活(左)和真實激活(右)以查看二者的匹配程度,上面例子的“解釋得分”為0.34
上述方法讓研究者可以利用GPT-4來定義定量描述可解釋性的指標(即“解釋得分”)并自動測算,藉此研究者就可以衡量語言模型使用自然語言壓縮和重建神經元激活的能力。使用上述定量評分框架,研究者可以衡量其方法在神經網絡不同部分的工作情況,并針對目前無法充分解釋的部分的方法進行改進。例如,研究者發現現有技術對于較大的模型效果不佳,可能是因為難以對更深層神經網絡進行解釋。
盡管研究中絕大多數解釋的得分很低,但研究者相信現在可以利用機器學習技術來進一步提高其產生解釋的能力。例如,他們發現可以通過以下方式提高解釋分數:
· 迭代解釋。研究者要求GPT-4提出可能的反例,然后據此修改解釋。
· 使用更有效的模型來給出解釋。解釋得分的平均值隨著解釋器模型能力的提高而上升,其中GPT-4獲得的分數最高。然而,即使是GPT-4給出的解釋尚不及人類的表現,這也說明模型還有改進的余地。
· 更改已解釋模型的架構。訓練具有不同激活函數的模型可以提高解釋得分。
研究者們將開源他們的數據集和可視化工具,這些工具可以利用GPT-4對GPT-2中所有的307200個神經元給出解釋,同時將開源解釋和評分所使用的代碼,這些部分使用的是OpenAI API上公開的模型。研究者希望學界能夠開發出新的技術來生成得分更高的解釋,以及可以更好地利用對神經元的解釋來探索GPT-2。
研究人員還發現,超過1000個神經元的解釋得分至少為0.8,這意味著根據GPT-4,它們解釋了神經元的大部分上層激活行為。大多數能被上述方法很好解釋的神經元都不是很有趣。然而,研究人員們也發現了許多GPT-4不理解的有趣神經元。他們希望隨著解釋工作的進一步改進,能夠快速發現對模型計算而言更為有趣的定性理解。
不過值得一提的是,上面的方法目前還有很多局限性:
首先,當前的研究專注于簡短的自然語言解釋,但神經元可能具有非常復雜的行為,無法進行簡潔的描述。例如,神經元可能是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無法用語言表達的某一概念。
其次,研究者希望最終可以實現自動找尋并解釋包括神經元和多頭注意力機制*在內的實現復雜行為的整個神經回路。當前的方法僅僅是將神經元行為解釋為原始文本輸入的函數,而沒有說明其下游影響。例如,一個在句號上激活的神經元可能指示下一個單詞應該以大寫字母開頭,或者遞增某個語句計數器。
*注意力機制是一種模仿人類視覺和認知系統的方法,可幫助神經網絡集中注意力于相關的部分,從而提高模型的性能和泛化能力。多頭注意力機制使用多個獨立的注意力頭,分別計算注意力權重,并將它們的結果進行拼接或加權求和,從而獲得更豐富的表示。
第三,上述研究解釋了神經元的行為,但沒有試圖解釋產生這種行為的機制。這意味著即使是高分解釋在分布外的文本上也可能表現得很差,因為得分本質上只是一種相關性的描述。
此外,整個過程是計算密集型的,需要有強大的算力作為支撐。
未來展望
雖然有以上所述的種種局限性,但研究人員仍然相信這項工作可以大大改進并與其他現有方法進行有效的集成。比如,將常見可解釋性技術(例如多頭注意力機制、消融實驗*等)集成到上述自動化方法中。
*消融實驗類似于“控制變量法”,通過破壞或消除某個特定的組織或結構,以研究其功能、作用或重要性。
從長遠來看,研究者設想解釋器模型可以生成、測試和迭代素材豐富的有關主題模型的假設空間,其作用類似于今天進行可解釋性研究的科研人員所做的工作。這種模型將包括關于神經網絡回路功能和分布外行為的假設。解釋器模型的工作環境可能包括訪問代碼執行、主題模型可視化以及與研究人員交互等。
研究人員相信,上述研究有助于我們建立起高層次的視角,來理解轉換器語言模型內部正在發生的一切。通過可訪問解釋性數據庫的用戶界面,我們可以開啟一種更宏觀的方法,幫助研究人員可視化成千上萬個神經元,進而查看它們之間相互作用的高級模式。
總而言之,科學家希望從使用較小且可信賴的輔助工具出發,擴展到實現完整的可解釋性審核;或者在將這些輔助工具用于可解釋性研究的過程中充分了解模型的工作原理,從而幫助我們開發更強大的審核方法。畢竟,如果我們不知道輔助工具本身是否值得信賴,那么使用強大的輔助工具也可能會使問題變得更加復雜。
參考資料:
[1] Chughtai, B., Chan, L., & Nanda, N. (2023). A toy model of universality: Reverse engineering how networks learn group operations. arXiv preprint arXiv:2302.03025.[2] Wang, K., Variengien, A., Conmy, A., Shlegeris, B., & Steinhardt, J. (2022). Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small. arXiv preprint arXiv:2211.00593.[3] Bills, et al. (2023). Language models can explain neurons in language models. https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html.[4] Zhong, R., Snell, C., Klein, D., & Steinhardt, J. (2022, June). Describing differences between text distributions with natural language. In International Conference on Machine Learning (pp. 27099-27116). PMLR.[5] Singh, C., Morris, J. X., Aneja, J., Rush, A. M., & Gao, J. (2022). Explaining patterns in data with language models via interpretable autoprompting. arXiv preprint arXiv:2210.01848.[6] OpenAI (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.[7] Bau, D., Zhou, B., Khosla, A., Oliva, A., & Torralba, A. (2017). Network dissection: Quantifying interpretability of deep visual representations. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6541-6549).[8] Chan, L., Garriga-Alonso, A., Goldowsky-Dill, N., Greenblatt, R., Nitishinskaya, J., Radhakrishnan, A., ... & Thomas, N. (2022, December). Causal scrubbing: A method for rigorously testing interpretability hypotheses. In Alignment Forum.[9] Hernandez, E., Schwettmann, S., Bau, D., Bagashvili, T., Torralba, A., & Andreas, J. (2022, January). Natural language descriptions of deep visual features. In International Conference on Learning Representations.[10] Hubinger, E. (2021). Automating auditing: An ambitious concrete technical research proposal.[11] Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal misgeneralization: Why correct specifications aren"t enough for correct goals. arXiv preprint arXiv:2210.01790.[12] Ngo, R. (2022). The alignment problem from a deep learning perspective. arXiv preprint arXiv:2209.00626.[13] Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from learned optimization in advanced machine learning systems. arXiv preprint arXiv:1906.01820.
關鍵詞: