๐ฎ๐น MINC01/ITA-Mini-60M
MINC01/ITA-Mini-60M รจ un modello linguistico causale da circa 60 milioni di parametri, ottimizzato per la conversazione in lingua italiana.
Il modello รจ stato addestrato su un dataset proprietario di dialoghi istruzione-risposta, con lโobiettivo di offrire buone capacitร conversazionali in un formato leggero e facilmente distribuibile.
๐ Panoramica
- Modello: Decoder-only (stile LLaMA)
- Parametri: ~60M
- Lingua principale: Italiano
- Task principale: Chat / Istruzioni / Generazione testo
- Contesto massimo: 512 token
- Addestramento: Supervised Fine-Tuning (SFT)
๐ฏ Use Cases Previsti
- Chatbot in lingua italiana
- Assistenti locali / embedded
- Prototipi di agenti conversazionali
- Dataset labeling / data augmentation
- Esperimenti di ricerca su modelli piccoli
Non รจ progettato per:
- Ragionamento complesso multi-step
- Applicazioni mission-critical
- Produzione di contenuti ad alta affidabilitร
๐ง Architettura
- Transformer decoder-only
- Causal Language Model
- Embedding e blocchi compatibili con ecosistema LLaMA
- Addestramento con masking delle parti prompt (solo risposta contribuisce alla loss)
๐ Dataset
- Proprietario
- ~30.000 esempi
- Struttura: coppie input โ response
- Dominio: conversazionale generale
- Lingua: italiano
Pulizia applicata
- Rimozione esempi vuoti
- Parsing JSON validato
- Scarto sequenze sopra la lunghezza massima
๐๏ธ Template Conversazionale
<|user|>
{testo_utente}
<|assistant|>
{risposta_modello}</s>
Il modello รจ sensibile a questo formato.
โ๏ธ Procedura di Training (Sintesi)
- Fine-tuning supervisionato
- Mixed Precision (AMP)
- Gradient Accumulation
- Gradient Checkpointing
- AdamW optimizer
- Cosine learning rate schedule con warmup
Parametri principali
| Parametro | Valore |
|---|---|
| Batch size | 8 |
| Gradient accumulation | 4 |
| Learning rate | 2e-5 |
| Epochs | 2 |
| Weight decay | 0.05 |
| Warmup ratio | 0.1 |
| Max grad norm | 1.0 |
| Validation split | 5% |
๐ Valutazione
- Metica: Cross-Entropy Loss su validation set
- Non sono stati eseguiti benchmark standard (es. MMLU, HELM, etc.)
Il modello รจ stato validato esclusivamente tramite loss e test qualitativi manuali.
๐งช Limitazioni Note
- Possibili allucinazioni
- Conoscenza limitata
- Sensibile al prompt
- Ragionamento debole
- Possibili bias presenti nel dataset proprietario
โ ๏ธ Considerazioni Etiche
Il modello:
- Puรฒ generare informazioni errate
- Non deve essere usato come fonte autorevole
- Non ha filtri di sicurezza avanzati
Responsabilitร dโuso interamente a carico dellโutente.
๐ Come Usare
from transformers import AutoTokenizer, AutoModelForCausalLM
tok = AutoTokenizer.from_pretrained("MINC01/ITA-Mini-60M")
model = AutoModelForCausalLM.from_pretrained("MINC01/ITA-Mini-60M")
prompt = "<|user|>\nScrivi una poesia sul mare.\n<|assistant|>\n"
inputs = tok(prompt, return_tensors="pt")
out = model.generate(**inputs, max_new_tokens=200)
print(tok.decode(out[0], skip_special_tokens=True))
๐ Prompting Tips
- Usare sempre il template
- Istruzioni brevi e chiare
- Una richiesta per volta
- Evitare contesti troppo lunghi
๐ค Autore
MINC01
๐ Citazione
@misc{minc01_ita_mini_60m,
title = {MINC01/ITA-Mini-60M},
author = {MINC01},
year = {2026},
publisher = {HuggingFace}
}
- Downloads last month
- 13