ResearcharXiv cs.CL — 14 d ago

Continuous Audio Thinking for Large Audio Language Models

The paper introduces Continuous Audio Thinking (CoAT), a framework designed to enhance the capabilities of large audio language models (LALMs) by maintaining acoustic information during response generation. CoAT employs a continuous latent workspace for organizing acoustic data, leveraging expert distillation without incurring extra autoregressive decoding costs. Performance improvements were observed across models such as Qwen2-Audio, Qwen2.5-Omni-7B, and Audio Flamingo 3 on tasks including audio reasoning and emotion recognition, highlighting the framework's potential for practitioners focused on audio-based AI applications.

audiolanguage modelsframeworkrelevance 0.00 · engagement 0.00

Read at source ↗← all news