LLaMA

LLaMA英語:直译:大语言模型元AI)是Meta AI公司於2023年2月發布的大型語言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLMChinchilla等最先進的模型競爭[1]。雖然其他強大的大語言模型通常只能通過有限的API訪問,但Meta在非商業許可的情況下發布了LLaMA的模型權重,供研究人員參考和使用。[2][3] [4] 2023年7月,Meta推出 Llama 2,这是一种可用于商业应用的开源 AI 模型。[5]

LLaMA2

2023年7月,Facebook母公司Meta推出了LLaMA2,在人工智能 (AI) 行业掀起波澜,LLaMA2是一种开源大语言模型 (LLM),旨在挑战大型科技竞争对手的限制性做法。Meta免费发布 LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格一直直言不讳地强调开源软件对于刺激创新的重要性。[6][5]

Meta 训练并发布了三种模型大小的 Llama 2:70、130 和 700 亿个参数。模型架构与 Llama 1 模型基本保持不变,但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有 34B 参数的模型,该模型可能在未来满足安全目标后发布。

Llama 2 包括基础模型和针对对话进行微调的模型,称为 Llama 2 - 聊天。与 Llama 1 进一步不同的是,所有模型都附带权重,并且对于许多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议组织(以维护开源定义而闻名)的争议。[7]

Code Llama

2023年8月,Meta继发布用于生成文本、翻译语言和创建音频的人工智能模型之后,开源了 Code Llama。这是一个机器学习系统,可以用自然语言(特别是英语)生成和解释代码。 可以免费商用和研究。[8]

Code Llama是从Llama-2基础模型微调而来,共有三个版本:基础版、Python版、以及指令遵循。 类似于 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器,Code Llama 可以跨多种编程语言完成代码并调试现有代码,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[9]

在训练 Code Llama 时,Meta 使用了与训练 Llama 2 相同的数据集——来自网络的公开可用资源的混合。但可以说,它的模型“强调”了包含代码的训练数据的子集。从本质上讲,Code Llama 比它的“父”模型 Llama 2 有更多的时间来学习代码和自然语言之间的关系。每个 Code Llama 模型的大小从 70 亿个参数到 340 亿个参数不等,均使用 5000 亿个代码标记以及与代码相关的数据进行训练。多个 Code Llama 模型可以将代码插入到现有代码中,并且所有模型都可以接受大约 100,000 个代码标记作为输入,而至少一个(70 亿个参数模型)可以在单个 GPU 上运行。(其他模型则需要更强大的硬件。)Meta 声称,340 亿个参数的模型是迄今为止所有开源代码生成器中性能最好的,也是参数数量最多的。[9]

开源/复制

2023年4月17日,GitHub的Together启动了一个名为 RedPajama 的项目,以复制和分发LLaMA数据集的开源版本。[10][11]

外部連結

参见

参考资料

  1. Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. . 2023. arXiv:2302.13971可免费查阅 [cs.CL].
  2. . Meta AI. 24 February 2023 [2023-06-14]. (原始内容存档于2023-03-03).
  3. Vincent, James. . The Verge. 8 March 2023 [2023-06-14]. (原始内容存档于2023-11-03).
  4. . [2023-06-28]. (原始内容存档于2023-06-28).
  5. . [2023-07-21]. (原始内容存档于2023-11-07).
  6. . [2023-07-20]. (原始内容存档于2023-11-03).
  7. Maffulli, Stefano. . Voices of Open Source. 2023-07-20 [2023-08-29]. (原始内容存档于2023-10-10) (美国英语).
  8. Code Llama: Open Foundation Models for Code, URL=https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ 页面存档备份,存于
  9. Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/ 页面存档备份,存于
  10. . GitHub. Together. [4 May 2023]. (原始内容存档于2023-11-07).
  11. . Hugging Face. Together. [4 May 2023]. (原始内容存档于2023-11-03).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.