Comment reconnaitre Attaque par extraction de modèle — distillation d'un LLM propriétaire via des requêtes API?

En bref

L'attaquant interroge l'API d'un LLM propriétaire avec des invites soigneusement conçues, capturant les sorties pour entraîner un modèle « étudiant » qui se rapproche de la cible. Parfois combiné à l'inversion d'embeddings pour récupérer...

Comment ca fonctionne

Signaux d'alerte

Pression urgente pour cliquer, payer ou partager des codes immediatement.
Lien ou expediteur qui ne correspond pas a l'organisation officielle.
Demande de carte, mot de passe, OTP, signature wallet ou virement.

Que faire

1Indices (pour la plateforme) : 1) le compte génère un volume élevé d'invites variées à faible température (déterministe) ; 2) demandes de logprobs / probabilités de tokens ; 3) couverture systématique du vocabulaire ; 4) schémas de tâches de codage imitant les suites de benchmarks (HumanEval, MMLU) ; 5) trafic provenant de proxys anonymisants.
2À FAIRE : appliquer des limites de débit par compte + une notation de diversité ; ne jamais exposer les logprobs de tokens à des comptes anonymes ; conditions d'utilisation juridiques + recherche sur le filigrane.

Source

Anthropic-Research-Sleeper-Agents

Source verifiee par Mythos Forensic Team

https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms

FAQ

Attaque par extraction de modèle — distillation d'un LLM propriétaire via des requêtes API est une vraie arnaque ?

Oui. Traitez le message, l'appel ou la demande de paiement comme suspect jusqu'a verification via un canal officiel.

Quels sont les premiers signaux ?

Pression urgente pour cliquer, payer ou partager des codes immediatement.; Lien ou expediteur qui ne correspond pas a l'organisation officielle.; Demande de carte, mot de passe, OTP, signature wallet ou virement.

Que faire en premier ?

Indices (pour la plateforme) : 1) le compte génère un volume élevé d'invites variées à faible température (déterministe) ; 2) demandes de logprobs / probabilités de tokens ; 3) couverture systématique du vocabulaire ; 4) schémas de tâches de codage imitant les suites de benchmarks (HumanEval, MMLU) ; 5) trafic provenant de proxys anonymisants.; À FAIRE : appliquer des limites de débit par compte + une notation de diversité ; ne jamais exposer les logprobs de tokens à des comptes anonymes ; conditions d'utilisation juridiques + recherche sur le filigrane.

LegalAudit peut-il verifier mon cas ?

Oui. Lancez le chat gratuit et collez le message, le lien, l'expediteur ou les details de paiement.