SmolDocling: 256M-parameter AI model outperforms larger rivals in document conversion, processing diverse elements with new DocTags format

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Authors:Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar View PDF HTML (experimental) Abstract:We introduce SmolDocling, an ultra-compact vision-language model targeting end-to-end document conversion. Our model comprehensively processes entire pages by generating DocTags, a new universal markup format that captures all page elements i...