为什么GPT-4会变"愚蠢":解析性能下降的原因

人工智能(AI)和机器学习(ML)领域不断发展,但也存在着一些阻碍。大型语言模型(LLM)如GPT-4中的性能下降即是一个典型例子。这个问题在AI讨论中引起了广泛关注,尤其是在《任务污染:语言模型可能不再是少样本学习》一文发表后,该文揭示了当前LLM所面临的限制和挑战。

GPT-4

AI社区中的知名人物Chomba Bupe在X(前身为Twitter)上强调了一个重要问题:LLM在它们训练过的任务和数据集上表现出色,但在新的、未知的数据上则遇到困难。问题的关键在于这些模型在训练后是静态的。一旦它们的学习阶段完成,它们适应新的和不断发展的输入分布的能力就受到限制,导致性能逐渐下降。

这种下降在编程等领域尤其令人担忧,因为语言模型在这些领域中被应用,并且编程语言的更新频繁。Bupe指出,LLM的基本设计更多是关于记忆而非理解,这限制了它们在应对新挑战方面的效果。

李畅茂和杰弗里·弗拉尼根的研究进一步支持了这一观点。他们发现,GPT-3等LLM在训练数据之前的数据集上表现出优秀的性能。这一发现表明了一种被称为任务污染的现象,即这些模型的零样本和少样本能力受到它们训练数据的限制。

正如Bupe所讨论的,持续学习成为机器智能的一个关键领域。挑战在于开发出能够适应新信息而不损害其在先前学习任务上性能的ML模型。这一困难与生物神经网络的适应能力形成了对比,后者能够在没有类似缺点的情况下学习和适应。

阿尔文·德·克鲁兹提出了一个不同的观点,认为问题可能不在于模型本身的局限性,而在于人类对模型的期望不断发展。然而,Bupe反驳称这些AI领域中的挑战是长期存在的,尤其是在持续学习的领域。

总而言之,围绕GPT-4等LLM的讨论凸显了AI演进的一个关键方面:需要具备持续学习和适应能力的模型。尽管目前的LLM具有令人印象深刻的能力,但它们在跟上快速变化的世界方面面临着重大限制,这凸显了需要更具动态和演进性的AI解决方案的必要性。