GPT-3
生成型预训练变换模型 3 (英语:,简称 GPT-3)是一个自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言[1]。GPT-3是由在旧金山的人工智能公司OpenAI训练与开发,模型设计基于谷歌开发的 Transformer 语言模型。GPT-3的神经网络包含1750亿个参数,需要700GB来存储,为有史以来参数最多的神经网络模型[2]。该模型在许多任务上展示了强大的零样本和少样本的能力。[3]
原作者 | OpenAI |
---|---|
首次发布 | 2020年6月11日 | (beta)
当前版本 | 2023年2月13日 |
源代码库 | https://github.com/openai/gpt-3 |
取代 | GPT-2 |
由…取代 | GPT-4 |
类型 |
|
许可协议 | 专有 |
网站 | openai |
OpenAI于2020年5月发表GPT-3的论文,在次月为少量公司与开发人团发布应用程序接口的测试版。微软在2020年9月22日宣布取得了GPT-3的独家授权[4]。
GPT-3被认为可写出人类无法与电脑区别的文章与字符串,GPT-3原始论文的作者们警告了GPT-3有可能对于社会的负面影响,比如利用制造假新闻的可能性。英国《卫报》即使用GPT-3生成了一个关于人工智能对人类无威胁的评论专栏[5]。李开复称卷积神经网络与GPT-3为人工智能重要的改善,两者皆是模型加海量数据的成果[6]。
训练和能力
在2020年5月28日,由OpenAI团队中31名工程师和研究人员撰写的arXiv预印本介绍了第三代“最先进的语言模型”——GPT-3的开发情况。[8]该团队相对于GPT-2,[9] 将GPT-3的容量增加了两个数量级以上,使其成为迄今为止最大的非稀疏语言模型。[10]:14[11]
斯坦福大学的研究发现,GPT3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5(ChatGPT的同源模型),更是解决了93%的任务,心智相当于9岁儿童。但这并不意味着,ChatGPT就真正具备了心智理论。可能它即使不被设计到AI系统中,也可以作为“副产品”通过训练得到。 因此,相比探究GPT-3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身。[12] [13]
迭代版本
参见
参考数据
- Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. . 2020-07-22. arXiv:2005.14165
.
- Ray, Tiernan. . ZDNet. 2020-06-01 [2020-07-31]. (原始内容存档于2020-06-01).
- Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. (PDF): 12. 2018-06-11 [2020-07-31]. (原始内容存档 (PDF)于2021-01-26).
- Hao, Karen. . MIT Technology Review. 2020-09-23 [2020-09-25]. (原始内容存档于2021-02-05) (英语).
The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.
- GPT-3. . The Guardian. 2020-09-08 [2020-09-15]. ISSN 0261-3077. (原始内容存档于2021-02-04) (英国英语).
- Lee, Kai-fu. . 2020-10-09 [2020-10-17].
- . The Economist. 2020-06-11 [2020-07-31]. ISSN 0013-0613. (原始内容存档于2020-07-31).
- Sagar, Ram. . Analytics India Magazine. 2020-06-03 [2020-07-31]. (原始内容存档于2020-08-04).
- (PDF). openai.com. [2019-12-04]. (原始内容存档 (PDF)于2019-12-12).
GPT-2, is a 1.5B parameter Transformer
- Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. , 编. (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). Dec 2020, 33: 1877–1901 [2023-02-16]. (原始内容存档 (PDF)于2023-05-25).
- Shead, Sam. . CNBC. 2020-07-23 [2020-07-31]. (原始内容存档于2020-07-30). Four preprints were released between May 28 and July 22, 2020.
- . [2023-02-16]. (原始内容存档于2023-03-06).
- . [2023-02-16]. (原始内容存档于2023-03-06).
- . OpenAI. 2022-03-15 [2023-01-13]. (原始内容存档于2023-01-13) (英语).