Reward Model - Graph View

A neural network trained to predict human preferences, used to provide a scalar reward signal for optimizing language model behavior in RLHF.