类似ChatGPT的系统是如何工作的?
我们试图在下图中解释它是如何工作的。该过程可以分为两部分。
1.培训。要训练 ChatGPT 模型,有两个阶段:
- 预训练:在这个阶段,我们在大量互联网数据上训练一个 GPT 模型(仅解码器转换器)。目标是训练一个模型,该模型可以预测给定句子的未来单词,其语法正确且语义意义类似于互联网数据。在预训练阶段之后,模型可以完成给定的句子,但无法回答问题。
- 微调:此阶段是一个 3 步过程,将预训练模型转换为问答 ChatGPT 模型:
1). 收集训练数据(问答),并根据这些数据对预训练模型进行微调。该模型将问题作为输入,并学习生成类似于训练数据的答案。
2). 收集更多数据(问题,多个答案)并训练奖励模型,将这些答案从最相关到最不相关进行排名。
3). 使用强化学习(PPO 优化)对模型进行微调,使模型的答案更准确。
2. 回答提示
🔹 第 1 步:用户输入完整的问题,“解释分类算法的工作原理”。
🔹 第 2 步:将问题发送到内容审核组件。此组件可确保问题不违反安全准则并过滤不适当的问题。
🔹 第 3-4 步:如果输入通过内容审核,则将其发送到 chatGPT 模型。如果输入未通过内容审核,则直接生成模板响应。
🔹 步骤 5-6:模型生成响应后,将再次将其发送到内容审核组件。这确保了生成的响应是安全的、无害的、无偏见的等。
🔹 第 7 步:如果输入通过内容审核,则会向用户显示。如果输入未通过内容审核,则会转到模板响应生成,并向用户显示模板答案。