大型语言模型:2023年开源LLMs概览

随着开放源代码替代品的多样性增加,人工智能领域变得更加丰富多彩。在此,我们将介绍一些在2023年产生重大影响的竞争者。

大型语言模型:2023年开源LLMs概览

1. LLaMA 和 LLaMA 2

LLaMA简介

在二月份,Meta发布了LLaMA的第一个版本,该大型语言模型拥有130亿参数。它在大多数基准测试上的表现超过了拥有1750亿参数的GPT-3。初版以开源包形式发布,开发人员可根据非商业许可申请访问。

LLaMA 2的进展

七月份,Meta推出了LLaMA 2,据该公司称,该版本在原始版本的基础上使用了40%的更多数据。此外,还发布了针对人类对话优化的LLaMA 2-Chat版本和专为生成代码而定制的LLaMA Code版本。

相关衍生项目: Alpaca, Alpaca-LoRA, Koala, QLoRA, llama.cpp, Vicuna, Giraffe, StableBeluga

2. Pythia

简介

EleutherAI于四月发布了Pythia,这是一套在公共数据上训练的不同规模的LLMs套件。Pythia旨在成为研究人员理解LLMs训练过程及其产生结果的可解释性工具。

3. MPT

MPT系列

由MosaicML于五月推出,MPT大型语言模型系列起初是7亿参数的模型,随后在六月发布了30亿参数的版本。该公司声称在某些需要更长文本提示的用例中,其性能超过了LLaMA和Falcon。

4. Falcon

Falcon家族

阿布扎比科技创新研究所于六月初推出了Falcon家族,是一系列使用Apache 2.0许可的先进语言模型。首个40亿参数的模型发布后受到了开发人员和研究人员的热烈欢迎。九月,推出了拥有1800亿参数的Falcon版本,使其成为最大的开源LLMs之一。

5. BLOOM

BLOOM模型

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)是由来自60个国家和250个机构的1000多名AI研究人员的协作开发,由Hugging Face、法国GENCI和IDRIS协调。旨在促进大型语言模型的公共研究,最大的BLOOM模型拥有1780亿参数,训练数据来自46种人类语言和13种编程语言。

6. Mistral

Mistral系列

由曾与Meta和Google有过合作的研究人员创建的Mistral于九月发布了首个7亿参数的LLM。团队声称Mistral 7B在许多指标上优于LLaMA 2。本月,他们通过种子链接发布了更新的模型Mixtral 8x7B,引起了比其他大型科技公司发布的消息更多的关注。

结论

开源LLMs领域持续扩展,许多开发人员正寻求通过转向更经济、透明且可调整的开源替代方案来减少对OpenAI API的依赖。尽管专有模型目前略有优势,但开源模型迅速赶上,有些甚至在质量上超越了其更大参数的对手,表明训练数据的质量可能比规模更重要。过去一年见证了开源LLMs领域一些非常令人兴奋的发展,清楚地表明它们将继续在大型语言模型领域发挥重要作用。