🖼️ VLM — Description d'image

Florence-2 (270M) et InternVL3-1B tournent 100 % sur CPU. OCR, description détaillée, Q&A libre — pas de cloud, 0 donnée envoyée à un tiers.

Modèle

Mode

Exemples — cliquer pour charger

Image

Glissez ou cliquez pour uploader une image

Chargez un exemple ou uploadez une image pour commencer.

ℹ️ Détails techniques

Florence-2 (florence-community/Florence-2-base, 270M) — architecture vision-language multimodale de Microsoft. Spécialisé OCR et descriptions UI. Utilise transformers ≥ 5.7.

InternVL3-1B (OpenGVLab/InternVL3-1B-hf, 1B) — modèle VLM à architecture InternViT. Mode rapide = 1 tuile (~6 s), mode précis = 12 tuiles (~22 s). Q&A libre en français et anglais.

Les deux modèles tournent sur CPU, hébergés sur le serveur de Brio. Les images ne quittent pas nos serveurs.