一、大语言模型RLHF中的PPO主要分哪些步骤?
大语言模型RLHF中的PPO 分为:
对应的实现逻辑如下:
二、举例描述一下 大语言模型的RLHF?
大语言模型的RLHF,实际上是模型先试错再学习的过程。
大语言模型的RLHF 好比是:老师与学生的角色
• 大模型(LLMs)强化学习—— PPO 面
• 一、大语言模型RLHF中的PPO主要分哪些步骤?
• 二、举例描述一下 大语言模型的RLHF?
• 三、大语言模型RLHF 采样篇
• 3.1 什么是 PPO 中 采样过程?
• 3.2 介绍一下 PPO 中 采样策略?
• 3.3 PPO 中 采样策略中,如何评估“收益”?
• 参考
1. 采样
2. 反馈
3. 学习
policy_model = load_model()
for k in range(20000):
# 采样(生成答案)
prompts = sample_prompt()
data = respond(policy_model, prompts)
# 反馈(计算奖励)
rewards = reward_func(reward_model, data)
# 学习(更新参数)
for epoch in range(4):
policy_model = train(policy_model, prompts, data, rewards)
• 我们扮演着老师的角色,给出有趣的问题。模型则会像小学生一样,不断尝试给出答案。
• 模型会根据我们给出的问题,写出它觉得正确的答案,但是这些答案不一定是真的答案,需要我们结合正确
答案进行打分。如果它表现得好,就会给予它高声赞扬;如果它表现不佳,我们则会给予它耐心的指导和反
馈,帮助它不断改进,直到达到令人满意的水平。
评论