Direct Preference Optimization - Graph View

A simplified alternative to RLHF that fine-tunes language models directly on human preference data without training a separate reward model.