ChatGPT ha rivoluzionato il modo di lavorare e studiare, ma esiste un gap di performance crescente tra i modelli SOTA in inglese e in italiano.

Data Preparation

La qualità dei dati conta più della quantità per il fine-tuning. Dataset di riferimento:

  • ORCA — reasoning traces da GPT-4
  • WizardLM — evoluzione automatica delle istruzioni
  • Alpaca — instruction-following dataset

L’obiettivo: creare coppie istruzione-risposta di alta qualità in italiano.

Il Fine-Tuning

Le scelte chiave:

  1. Modello base — LLaMA2, Mixtral
  2. Tokenizer — cruciale per lingue non-inglesi
  3. Iperparametri — learning rate, batch size, epochs
  4. Tecniche di efficienza — LoRA, QLoRA, Flash Attention
  5. Valutazione — metriche automatiche e umane

La sfida per l’italiano è duplice: meno dati di training disponibili e tokenizzazione meno efficiente rispetto all’inglese.