--- language: - "it" - "en" thumbnail: "https://img.shields.io/badge/HuggingFace-Model-orange" tags: - multimodal - ai - vision-language - italian license: "apache-2.0" datasets: - "Mattimax/DATA-AI_IT" metrics: - "256M parametri" - "Inferenze con < 1 GB di RAM GPU" base_model: "HuggingFaceTB/SmolVLM-256M-Instruct" --- # Mattimax/DATA-AI_Smol256M-Instruct ![License: Apache-2.0](https://img.shields.io/badge/License-Apache%202.0-blue.svg) ![Hugging Face Model](https://img.shields.io/badge/HuggingFace-Model-orange) --- ## 📜 Licenza Il modello è distribuito sotto la licenza **Apache 2.0**, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza. ## 📚 Dataset - [Mattimax/DATA-AI_IT](https://huggingface.co/datasets/Mattimax/DATA-AI_IT) ## 🌍 Lingue Supportate - it Italiano - en Inglese ## 🏗 Modello Base - [HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct) ## 🛠 Libreria Supportata - 🤗 Transformers --- ## 📝 Descrizione **"Mattimax/DATA-AI_Smol256M-Instruct"** è un modello AI multimodale ottimizzato per l’italiano, basato su **"HuggingFaceTB/SmolVLM-256M-Instruct"** e sottoposto a fine-tuning con il dataset **"Mattimax/DATA-AI_IT"**. Il modello è progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio. --- ## 🚀 Caratteristiche Principali ✅ **Multimodalità** – Supporta l’elaborazione congiunta di testo e immagini. ✅ **Compattezza** – Solo **256M parametri**, con inferenze su immagini che richiedono meno di **1 GB di RAM GPU**. ✅ **Ottimizzazione per l’italiano** – Addestrato su un dataset curato per migliorare la qualità delle risposte in italiano. ✅ **Efficienza Computazionale** – Perfetto per applicazioni su hardware a risorse limitate. ✅ **Supporto Open Source** – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera. --- ## 🏗 Origini del Modello **[HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)** è il modello di base da cui è stato sviluppato **"Mattimax/DATA-AI_Smol256M-Instruct"**. 📌 **SmolVLM-256M-Instruct** è attualmente il modello multimodale più leggero disponibile. 📌 Permette l’elaborazione di testo e immagini con un **bilanciamento ideale tra performance ed efficienza**. 📌 È in grado di operare su **hardware con risorse limitate** senza sacrificare la qualità delle risposte. --- ## 🎯 Applicazioni 🔹 **Image Captioning** – Generazione automatica di descrizioni dettagliate per immagini. 🔹 **Visual Question Answering** – Risposte a domande su contenuti visivi. 🔹 **Trascrizione e Traduzione Multimodale** – Estrazione e conversione di testo da immagini. 🔹 **AI su Dispositivi Edge** – Perfetto per applicazioni mobile o su dispositivi embedded. --- ## 🛠 Come Usarlo Il modello può essere facilmente caricato tramite 🤗 **Transformers**: ```python from transformers import AutoModelForVision2Seq, AutoProcessor import torch from PIL import Image # Carica il modello e il processore model_name = "Mattimax/DATA-AI_Smol256M-Instruct" model = AutoModelForVision2Seq.from_pretrained(model_name) processor = AutoProcessor.from_pretrained(model_name) # Esempio di input con immagine e testo image = Image.open("example.jpg") inputs = processor(images=image, text="Cosa c'è nell'immagine?", return_tensors="pt") # Genera la risposta with torch.no_grad(): outputs = model.generate(**inputs) # Decodifica la risposta response = processor.batch_decode(outputs, skip_special_tokens=True)[0] print("Risposta del modello:", response) ``` --- ## 🏁 Conclusioni ✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano. 💡 Il modello offre prestazioni solide, è leggero ed è open source, perfetto per l’uso in vari contesti.