Researchers Develop 'Heima': New AI Framework Boosts Efficiency in Multimodal Language Models' Reasoning

Efficient Reasoning with Hidden Thinking

View PDF HTML (experimental) Abstract:Chain-of-Thought (CoT) reasoning has become a powerful framework for improving complex problem-solving capabilities in Multimodal Large Language Models (MLLMs). However, the verbose nature of textual reasoning introduces significant inefficiencies. In this work, we propose $\textbf{Heima}$ (as hidden llama), an efficient reasoning framework that leverages reasoning CoTs at hidden latent space. We design the Heima Encoder to condense each intermediate CoT int...