ResearcharXiv cs.AI — 12 d ago

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

The paper introduces SR-REAL, a framework for enhancing spatial vision language models (VLMs) through dual-path reasoning, which incorporates both Language-Only Reasoning (LOR) and Detect-Then-Reason (DTR) approaches. SR-REAL utilizes a cold-start supervised fine-tuning phase followed by reinforcement learning to optimize reasoning paths, achieving superior performance on spatial benchmarks by effectively integrating 3D geometric cues and linguistic deduction. This framework's ability to generalize across datasets and domains without task-specific tuning is significant for practitioners seeking to improve spatial reasoning in AI applications.

spatial reasoningvlmreinforcement learningrelevance 0.00 · engagement 0.00

Read at source ↗← all news