AgentsarXiv cs.AI — 10 d ago

Dual-Uncertainty Guided Policy Learning for Multimodal Reasoning

The article introduces DUPL, a dual-uncertainty guided policy learning approach for reinforcement learning with verifiable rewards (RLVR) aimed at improving multimodal reasoning in large language models. By quantifying perceptual and output uncertainty, DUPL enhances policy updates, achieving accuracy improvements of up to 12.3% for Qwen2.5-VL (3B) and 12.4% for Qwen3-VL-Instruct (8B) across diverse benchmarks, outperforming existing methods like GRPO. This approach is significant for practitioners as it facilitates targeted exploration in environments with high perceptual ambiguity, enhancing model performance and adaptability in complex reasoning tasks.

reinforcement learningmultimodalpolicy learningrelevance 0.00 · engagement 0.00

Read at source ↗← all news