Una Pipeline per Migliorare gli LLM in Italiano
ChatGPT ha rivoluzionato il modo di lavorare e studiare, ma esiste un gap di performance crescente tra i modelli SOTA in inglese e in italiano.
Data Preparation
La qualità dei dati conta più della quantità per il fine-tuning. Dataset di riferimento:
- ORCA — reasoning traces da GPT-4
- WizardLM — evoluzione automatica delle istruzioni
- Alpaca — instruction-following dataset
L’obiettivo: creare coppie istruzione-risposta di alta qualità in italiano.
Il Fine-Tuning
Le scelte chiave:
- Modello base — LLaMA2, Mixtral
- Tokenizer — cruciale per lingue non-inglesi
- Iperparametri — learning rate, batch size, epochs
- Tecniche di efficienza — LoRA, QLoRA, Flash Attention
- Valutazione — metriche automatiche e umane
La sfida per l’italiano è duplice: meno dati di training disponibili e tokenizzazione meno efficiente rispetto all’inglese.