JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Published in Findings of the Association for Computational Linguistics (ACL Findings), 2025

Recommended citation: M. Li, Z. Wang, K. He, X. Ma, and Y. Liang. (2025). "JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse." Findings of the Association for Computational Linguistics (ACL Findings).