๐Ÿ‡ฎ๐Ÿ‡น MINC01/ITA-Mini-60M

MINC01/ITA-Mini-60M รจ un modello linguistico causale da circa 60 milioni di parametri, ottimizzato per la conversazione in lingua italiana.
Il modello รจ stato addestrato su un dataset proprietario di dialoghi istruzione-risposta, con lโ€™obiettivo di offrire buone capacitร  conversazionali in un formato leggero e facilmente distribuibile.


๐Ÿ“Œ Panoramica

  • Modello: Decoder-only (stile LLaMA)
  • Parametri: ~60M
  • Lingua principale: Italiano
  • Task principale: Chat / Istruzioni / Generazione testo
  • Contesto massimo: 512 token
  • Addestramento: Supervised Fine-Tuning (SFT)

๐ŸŽฏ Use Cases Previsti

  • Chatbot in lingua italiana
  • Assistenti locali / embedded
  • Prototipi di agenti conversazionali
  • Dataset labeling / data augmentation
  • Esperimenti di ricerca su modelli piccoli

Non รจ progettato per:

  • Ragionamento complesso multi-step
  • Applicazioni mission-critical
  • Produzione di contenuti ad alta affidabilitร 

๐Ÿง  Architettura

  • Transformer decoder-only
  • Causal Language Model
  • Embedding e blocchi compatibili con ecosistema LLaMA
  • Addestramento con masking delle parti prompt (solo risposta contribuisce alla loss)

๐Ÿ“š Dataset

  • Proprietario
  • ~30.000 esempi
  • Struttura: coppie input โ†’ response
  • Dominio: conversazionale generale
  • Lingua: italiano

Pulizia applicata

  • Rimozione esempi vuoti
  • Parsing JSON validato
  • Scarto sequenze sopra la lunghezza massima

๐Ÿ—๏ธ Template Conversazionale


<|user|>
{testo_utente}
<|assistant|>
{risposta_modello}</s>

Il modello รจ sensibile a questo formato.


โš™๏ธ Procedura di Training (Sintesi)

  • Fine-tuning supervisionato
  • Mixed Precision (AMP)
  • Gradient Accumulation
  • Gradient Checkpointing
  • AdamW optimizer
  • Cosine learning rate schedule con warmup

Parametri principali

Parametro Valore
Batch size 8
Gradient accumulation 4
Learning rate 2e-5
Epochs 2
Weight decay 0.05
Warmup ratio 0.1
Max grad norm 1.0
Validation split 5%

๐Ÿ“ˆ Valutazione

  • Metica: Cross-Entropy Loss su validation set
  • Non sono stati eseguiti benchmark standard (es. MMLU, HELM, etc.)

Il modello รจ stato validato esclusivamente tramite loss e test qualitativi manuali.


๐Ÿงช Limitazioni Note

  • Possibili allucinazioni
  • Conoscenza limitata
  • Sensibile al prompt
  • Ragionamento debole
  • Possibili bias presenti nel dataset proprietario

โš ๏ธ Considerazioni Etiche

Il modello:

  • Puรฒ generare informazioni errate
  • Non deve essere usato come fonte autorevole
  • Non ha filtri di sicurezza avanzati

Responsabilitร  dโ€™uso interamente a carico dellโ€™utente.


๐Ÿš€ Come Usare

from transformers import AutoTokenizer, AutoModelForCausalLM

tok = AutoTokenizer.from_pretrained("MINC01/ITA-Mini-60M")
model = AutoModelForCausalLM.from_pretrained("MINC01/ITA-Mini-60M")

prompt = "<|user|>\nScrivi una poesia sul mare.\n<|assistant|>\n"
inputs = tok(prompt, return_tensors="pt")

out = model.generate(**inputs, max_new_tokens=200)
print(tok.decode(out[0], skip_special_tokens=True))

๐Ÿ” Prompting Tips

  • Usare sempre il template
  • Istruzioni brevi e chiare
  • Una richiesta per volta
  • Evitare contesti troppo lunghi

๐Ÿ‘ค Autore

MINC01


๐Ÿ“Œ Citazione

@misc{minc01_ita_mini_60m,
  title = {MINC01/ITA-Mini-60M},
  author = {MINC01},
  year = {2026},
  publisher = {HuggingFace}
}
Downloads last month
13
Safetensors
Model size
67.1M params
Tensor type
F32
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for MINC01/ITA-Mini-60M

Quantizations
1 model

Dataset used to train MINC01/ITA-Mini-60M