Come riconoscere Attacco di estrazione del modello — distillazione di LLM proprietario tramite query API?

In breve

L'attaccante interroga un'API LLM proprietaria con prompt creati ad hoc, catturando gli output per addestrare un modello "studente" che approssima l'obiettivo. A volte combinato con l'inversione degli embedding per recuperare dati di...

Come funziona

Indicatori rossi

Pressione urgente a cliccare, pagare o condividere codici subito.
Link o mittente che non corrispondono all'organizzazione ufficiale.
Richiesta di carta, password, OTP, firma wallet o bonifico.

Cosa fare

1Indicatori (per la piattaforma): 1) l'account effettua un volume elevato di prompt vari a bassa temperatura (deterministici); 2) richieste di logprob / probabilità dei token; 3) copertura sistematica del vocabolario; 4) pattern di task di coding che imitano suite di benchmark (HumanEval, MMLU); 5) traffico proveniente da proxy anonimizzanti.
2DA FARE: applicare limiti di velocità per account + punteggio di diversità; non esporre mai i logprob dei token ad account anonimi; ToS legali + ricerca sul watermarking.

Fonte

Anthropic-Research-Sleeper-Agents

Fonte verificata da Mythos Forensic Team

https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms

FAQ

Attacco di estrazione del modello — distillazione di LLM proprietario tramite query API e una truffa reale?

Si. Tratta messaggi, chiamate o richieste di pagamento come sospette finche non le verifichi da un canale ufficiale.

Quali sono i primi segnali?

Pressione urgente a cliccare, pagare o condividere codici subito.; Link o mittente che non corrispondono all'organizzazione ufficiale.; Richiesta di carta, password, OTP, firma wallet o bonifico.

Cosa devo fare subito?

Indicatori (per la piattaforma): 1) l'account effettua un volume elevato di prompt vari a bassa temperatura (deterministici); 2) richieste di logprob / probabilità dei token; 3) copertura sistematica del vocabolario; 4) pattern di task di coding che imitano suite di benchmark (HumanEval, MMLU); 5) traffico proveniente da proxy anonimizzanti.; DA FARE: applicare limiti di velocità per account + punteggio di diversità; non esporre mai i logprob dei token ad account anonimi; ToS legali + ricerca sul watermarking.

LegalAudit puo controllare il mio caso?

Si. Apri la chat gratis e incolla messaggio, link, mittente o dati di pagamento per un triage.