AwesomeRM

本综述将从三方面对奖励模型做一个调研分析。

第一个方面是奖励模型的用处，其提供的偏序信号，可以服务Test-time-scaling，reinforcement learning，以及 llm data cleaning

第二个方面则是介绍LLM的训练，在此我们将首先罗列了近几年的milestone reward model。紧接着从中分析出奖励模型Training-data的发展脉络，模型结构及训练策略的变化。

第三个方面则是简单介绍下奖励模型目前遇到的挑战，在此，本文将先介绍RM相关的benchmark，以及这些benchmark指出的RM有待改进的地方。