ChatGPT 是 OpenAI 训练的一种人工智能模型,它能以对话方式进行交互。它的对话格式使ChatGPT能够回答后续问题,承认错误,挑战错误的前提,并拒绝不合适的请求。它是InstructGPT的兄弟模型,InstructGPT被训练用于遵循提示中的指令并提供详细的响应。
OpenAI 通过人类反馈强化学习(RLHF)对 ChatGPT 进行了训练。它使用与 InstructGPT 相同的方法,但数据收集设置略有不同。OpenAI 使用监督式微调训练了一个初始模型:人类 AI 训练师提供了对话,其中他们扮演了用户和 AI 助手两个角色。OpenAI 给予训练师访问模型编写的建议,以帮助他们撰写回复。OpenAI 将这个新的对话数据集与 InstructGPT 数据集混合在一起,并将其转换为对话格式。为了创建强化学习的奖励模型,OpenAI 需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,OpenAI 采用了 AI 训练师与聊天机器人进行的对话。OpenAI 随机选择一个模型编写的消息,抽样几个替代完成,并让 AI 训练师对它们进行排名。使用这些奖励模型,OpenAI 可以使用近端策略优化来微调模型。ChatGPT是从GPT-3.5系列中的一个模型微调而来的,在2022年初完成了训练。
总之,如果您希望与人工智能进行对话交互,那么ChatGPT绝对是一个值得考虑的选择。它简单易用、功能强大,可以帮助您更快地完成相关任务。