MultimodalarXiv cs.AI — 9 d ago

Learned Image Compression for Vision-Language-Action Models

The article presents SPARC (SPatially Adaptive Rate Control), a learned image compression framework designed for vision-language-action (VLA) models in robotics, addressing the inefficiencies of traditional codecs in preserving control performance. SPARC utilizes a lightweight temporal mask selector for adaptive bitrate allocation based on task relevance and introduces a tilted rate loss to enhance training stability. Experimental results on benchmarks such as RoboCasa365 and VLABench indicate that SPARC outperforms conventional codecs and recent learned compression methods in maintaining control performance within constrained bitrate budgets, making it significant for practitioners focused on optimizing visual communication in robotic applications.

image compressionroboticsvision-languagerelevance 0.00 · engagement 0.00

Read at source ↗← all news