Un piccolo numero di campioni può avvelenare LLM di qualsiasi dimensione**

macfranc@poliversity.it

Un piccolo numero di campioni può avvelenare LLM di qualsiasi dimensione**

In uno studio congiunto con l'AI Security Institute del Regno Unito e l'Alan Turing Institute, abbiamo scoperto che anche solo 250 documenti dannosi possono produrre una vulnerabilità "backdoor" in un modello linguistico di grandi dimensioni, indipendentemente dalle dimensioni del modello o dal volume dei dati di addestramento. Sebbene un modello con 13 miliardi di parametri venga addestrato su oltre 20 volte più dati di addestramento rispetto a un modello con 600 miliardi di parametri, entrambi possono essere colpiti da una backdoor tramite lo stesso numero limitato di documenti contaminati. I nostri risultati mettono in discussione l'ipotesi comune secondo cui gli aggressori debbano controllare una percentuale dei dati di addestramento; in realtà, potrebbero averne bisogno solo di una piccola quantità fissa. Il nostro studio si concentra su una backdoor ristretta (che produce testo incomprensibile) che difficilmente presenta rischi significativi nei modelli di frontiera. Ciononostante, condividiamo questi risultati per dimostrare che gli attacchi di data poisoning potrebbero essere più pratici di quanto si creda e per incoraggiare ulteriori ricerche sul data poisoning e sulle potenziali difese contro di esso.

https://www.anthropic.com/research/small-samples-poison

La notizia ha un mese, ma ci era sfuggita: grazie a @thatgiga per la segnalazione

@aitech