gpt模型(chatgpt模型)

http://www.itjxue.com  2023-02-22 12:55  来源:未知  点击次数: 

GRT-2模型是什么?

GPT-2 language model 是一种人工智能范畴里,机器学习语言能力的模型。

GPT-2模型在文本生成上有着出出色的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT-2 并没有特别新颖的架构,它和只带有解码器的 transformer 模型很像。本质上,它是一个在海量数据集上训练的基于 transformer 的巨大模型。

gpt3.5参数量

1750亿个参数。

GPT3模型有1750亿个参数,ChatGPT是基于GPT3.5。

参数量就是指,模型所有带参数的层的权重参数总量,也叫参变量,是一个变量。我们在研究当前问题的时候,关心某几个变量的变化以及它们之间的相互关系,其中有一个或一些叫自变量,另一个或另一些叫因变量。

GPT 原理解析

GPT(Generative Pre-Training)是一个典型的两阶段式模型:无监督预训练+监督下游任务微调。而在 NLP 任务中,上游的无监督预训练任务多半采用语言模型来实现,下游的监督任务直接对上游的模型进行简单改造即可使用。

GPT 为了能够有效的抓取文本中的语义信息,使用了单向的 Transformer Decoder 模块构建标准的语言模型,再使用预训练得到的网络架构与参数进行下游监督任务的微调,取得了不错的效果。

论文: Improving Language Understanding by Generative Pre-Training

对于语料 ,GPT 构建标准的语言模型:

文章中使用 Transformer Decoder 模块加上前馈神经网络,最后使用 softmax 输出目标词的分布:

对于通过第一阶段的预训练得到的语言模型,对于特定的任务进行 fine-tuning。

对于一个监督数据集 ,其中的数据为一个序列 和一个标签 。将序列输入预训练模型后得到输出向量为 ,接着使用一个线性层来预测标签:

需极大化的似然函数为:

另外,作者发现,使用语言模型来辅助监督学习的任务进行微调,有两个好处:

所以,最终下游使用的监督模型目标函数为:

GPT 使用两阶段式模型的另外一个好处是,作者期望通过第一阶段的预训练语言模型,学习到尽可能多的自然语言信息,且对于大多数下游任务,只需要简单的修改输入而不需要修改模型架构即可完成微调。对于 NLP 中的几种主流任务,GPT 分别做了如下的变换策略:

模型还包括一些细节:

论文: Language Models are Unsupervised Multitask Learners

GPT-2 是 GPT 的直接升级版,效果惊人。相比之下,GPT-2 有如下几点改进:

(责任编辑:IT教学网)

更多

推荐Mail服务器文章