ModelsHugging Face Blog — 759 d ago

PaliGemma – Google's Cutting-Edge Open Vision Language Model

Google has announced PaliGemma, an open vision-language model designed to enhance multimodal AI capabilities. PaliGemma features a transformer architecture with 1.5 billion parameters and has achieved state-of-the-art performance on several benchmarks, including the COCO and Visual Genome datasets. This release is significant for practitioners as it provides an open-source framework for integrating vision and language tasks, facilitating advancements in applications such as image captioning and visual question answering.

pali gemmagooglevision language modelrelevance 0.00 · engagement 0.00

Read at source ↗← all news