非常感谢你们出彩的工作!你们的思路对我目前很有启发,目前做的场景受限于算力。如果使用DPO构建偏好对,来做RL,是一种可行的探索吗?
非常感谢你们出彩的工作!你们的思路对我目前很有启发,目前做的场景受限于算力。如果使用DPO构建偏好对,来做RL,是一种可行的探索吗?