TrainingarXiv cs.AI — 9 d ago

AdaMame: A Training Recipe for Adaptive Multilingual Reasoning

AdaMame introduces a two-stage training recipe for adaptive multilingual reasoning in Large Reasoning Models (LRMs), addressing the issue of language collapse by aligning the reasoning language to the query language without sacrificing accuracy. The first stage involves supervised fine-tuning (SFT) on reasoning traces in five languages, followed by a reinforcement learning stage using AdaMame-GRPO, which progressively conditions the model to explore diverse reasoning languages. Evaluations demonstrate that AdaMame-GRPO achieves Pareto-optimal performance across reasoning accuracy, language fidelity, and token efficiency, particularly benefiting lower-resource languages, making it significant for practitioners aiming to enhance multilingual capabilities in AI models.

multilingualreasoningadaptive trainingrelevance 0.00 · engagement 0.00

Read at source ↗← all news