Scam Watch

Wie erkennen Sie Model extraction attack — distilling proprietary LLM via API queries?

Kurzfassung

Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...

Wie es funktioniert

Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...

Warnzeichen

  • Dringender Druck, sofort zu klicken, zu zahlen oder Codes zu teilen.
  • Link oder Absender passen nicht zur offiziellen Organisation.
  • Anfrage nach Kartendaten, Passwoertern, OTPs, Wallet-Signaturen oder Ueberweisungen.

Was tun

  1. 1Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.
  2. 2DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.

Quelle

Anthropic-Research-Sleeper-Agents

Quelle geprueft vom Mythos Forensic Team

https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms

FAQ

Ist Model extraction attack — distilling proprietary LLM via API queries ein reales Betrugsmuster?

Ja. Behandeln Sie Nachricht, Anruf oder Zahlungsaufforderung als verdaechtig, bis ein offizieller Kanal sie bestaetigt.

Was sind die ersten Warnzeichen?

Dringender Druck, sofort zu klicken, zu zahlen oder Codes zu teilen.; Link oder Absender passen nicht zur offiziellen Organisation.; Anfrage nach Kartendaten, Passwoertern, OTPs, Wallet-Signaturen oder Ueberweisungen.

Was sollte ich zuerst tun?

Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.; DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.

Kann LegalAudit meinen Fall pruefen?

Ja. Starten Sie den kostenlosen Chat und fuegen Sie Nachricht, Link, Absender oder Zahlungsdaten ein.