Scam Watch

Como reconocer Model extraction attack — distilling proprietary LLM via API queries?

TLDR

Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...

Como funciona

Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...

Señales de alerta

  • Presion urgente para hacer clic, pagar o compartir codigos de inmediato.
  • Enlace o remitente que no coincide con la organizacion oficial.
  • Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.

Qué hacer

  1. 1Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.
  2. 2DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.

Fuente

Anthropic-Research-Sleeper-Agents

Fuente verificada por Mythos Forensic Team

https://www.anthropic.com/research/sleeper-agents-training-deceptive-llms

FAQ

Es Model extraction attack — distilling proprietary LLM via API queries una estafa real?

Si. Trata el mensaje, la llamada o la solicitud de pago como sospechosos hasta que los verifiques por un canal oficial.

Cuales son las primeras senales?

Presion urgente para hacer clic, pagar o compartir codigos de inmediato.; Enlace o remitente que no coincide con la organizacion oficial.; Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.

Que debo hacer primero?

Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.; DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.

Puede LegalAudit revisar mi caso?

Si. Abre el chat gratis y pega el mensaje, el enlace, el remitente o los datos de pago para un triage.