Open AI 也放出了对 GPT-4 的大语言模型可解释性研究跟Anthropic竞争。开发了新的大规模自动编码器方法,用于将 GPT-4 的内部表示分解为 1600 万个可解释的模式。终于发了一篇论文详细介绍了一下这个编码器实验的研究。