大型语言模型：2023年开源LLMs概览

发布于2023年 12月 30日作者:小编

随着开放源代码替代品的多样性增加，人工智能领域变得更加丰富多彩。在此，我们将介绍一些在2023年产生重大影响的竞争者。

1. LLaMA 和 LLaMA 2

LLaMA简介

在二月份，Meta发布了LLaMA的第一个版本，该大型语言模型拥有130亿参数。它在大多数基准测试上的表现超过了拥有1750亿参数的GPT-3。初版以开源包形式发布，开发人员可根据非商业许可申请访问。

LLaMA 2的进展

七月份，Meta推出了LLaMA 2，据该公司称，该版本在原始版本的基础上使用了40％的更多数据。此外，还发布了针对人类对话优化的LLaMA 2-Chat版本和专为生成代码而定制的LLaMA Code版本。

相关衍生项目： Alpaca, Alpaca-LoRA, Koala, QLoRA, llama.cpp, Vicuna, Giraffe, StableBeluga

2. Pythia

简介

EleutherAI于四月发布了Pythia，这是一套在公共数据上训练的不同规模的LLMs套件。Pythia旨在成为研究人员理解LLMs训练过程及其产生结果的可解释性工具。

3. MPT

MPT系列

由MosaicML于五月推出，MPT大型语言模型系列起初是7亿参数的模型，随后在六月发布了30亿参数的版本。该公司声称在某些需要更长文本提示的用例中，其性能超过了LLaMA和Falcon。

4. Falcon

Falcon家族

阿布扎比科技创新研究所于六月初推出了Falcon家族，是一系列使用Apache 2.0许可的先进语言模型。首个40亿参数的模型发布后受到了开发人员和研究人员的热烈欢迎。九月，推出了拥有1800亿参数的Falcon版本，使其成为最大的开源LLMs之一。

5. BLOOM

BLOOM模型

BLOOM（BigScience Large Open-science Open-access Multilingual Language Model）是由来自60个国家和250个机构的1000多名AI研究人员的协作开发，由Hugging Face、法国GENCI和IDRIS协调。旨在促进大型语言模型的公共研究，最大的BLOOM模型拥有1780亿参数，训练数据来自46种人类语言和13种编程语言。

6. Mistral

Mistral系列

由曾与Meta和Google有过合作的研究人员创建的Mistral于九月发布了首个7亿参数的LLM。团队声称Mistral 7B在许多指标上优于LLaMA 2。本月，他们通过种子链接发布了更新的模型Mixtral 8x7B，引起了比其他大型科技公司发布的消息更多的关注。

结论

开源LLMs领域持续扩展，许多开发人员正寻求通过转向更经济、透明且可调整的开源替代方案来减少对OpenAI API的依赖。尽管专有模型目前略有优势，但开源模型迅速赶上，有些甚至在质量上超越了其更大参数的对手，表明训练数据的质量可能比规模更重要。过去一年见证了开源LLMs领域一些非常令人兴奋的发展，清楚地表明它们将继续在大型语言模型领域发挥重要作用。

大型语言模型：2023年开源LLMs概览

1. LLaMA 和 LLaMA 2

LLaMA简介

LLaMA 2的进展

2. Pythia

简介

3. MPT

MPT系列

4. Falcon

Falcon家族

5. BLOOM

BLOOM模型

6. Mistral

Mistral系列

结论

相关文章

发表回复取消回复

最新文章

热门专题

1. LLaMA 和 LLaMA 2

LLaMA简介

LLaMA 2的进展

2. Pythia

简介

3. MPT

MPT系列

4. Falcon

Falcon家族

5. BLOOM

BLOOM模型

6. Mistral

Mistral系列

结论

相关文章

发表回复 取消回复

最新文章

热门专题

发表回复取消回复