TrainingarXiv cs.AI — 8 d ago

STRIDE: Strategic Trajectory Reasoning via Discriminative Estimation for Verifiable Reinforcement Learning

The article introduces STRIDE (Strategic Trajectory Reasoning via Discriminative Estimation), a novel framework for Reinforcement Learning with Verifiable Rewards (RLVR) that enhances reasoning in large language models by providing fine-grained supervision based on verifiable outcomes. STRIDE improves credit assignment by contrasting successful and failed trajectories to estimate the outcome-discriminative preferences of strategic patterns, integrating reasoning saliency entropy for better decision-relevant pattern identification. This method shows consistent improvements in reasoning performance across various models and tasks, making it a significant advancement for practitioners aiming to enhance the reasoning capabilities of AI systems.

reinforcement learningverifiable rewardsstrategic reasoningrelevance 0.00 · engagement 0.00

Read at source ↗← all news