AwesomeRM

本综述将从三方面对奖励模型做一个调研分析。

第一个方面是奖励模型的用处,其提供的偏序信号,可以服务Test-time-scaling,reinforcement learning,以及 llm data cleaning

第二个方面则是介绍LLM的训练,在此我们将首先罗列了近几年的milestone reward model。紧接着从中分析出 奖励模型Training-data的发展脉络,模型结构及训练策略的变化。

第三个方面则是简单介绍下奖励模型目前遇到的挑战,在此,本文将先介绍RM相关的benchmark,以及这些benchmark指出的RM有待改进的地方。