TLDR
Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...
Como funciona
Attacker queries a proprietary LLM API with crafted prompts, capturing outputs to train a 'student' model that approximates the target. Sometimes combined with embeddings inversion to recover sensitive training data. Used by less funded...
Señales de alerta
- Presion urgente para hacer clic, pagar o compartir codigos de inmediato.
- Enlace o remitente que no coincide con la organizacion oficial.
- Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.
Qué hacer
- 1Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.
- 2DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.
Fuente
Anthropic-Research-Sleeper-Agents
Fuente verificada por Mythos Forensic Team
https://www.anthropic.com/research/sleeper-agents-training-deceptive-llmsFAQ
Es Model extraction attack — distilling proprietary LLM via API queries una estafa real?
Si. Trata el mensaje, la llamada o la solicitud de pago como sospechosos hasta que los verifiques por un canal oficial.
Cuales son las primeras senales?
Presion urgente para hacer clic, pagar o compartir codigos de inmediato.; Enlace o remitente que no coincide con la organizacion oficial.; Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.
Que debo hacer primero?
Tells (for platform): 1) account makes high volume of varied prompts at low temperature (deterministic); 2) requests for logprobs / token probabilities; 3) systematic vocabulary coverage; 4) coding task patterns mimicking benchmark suites (HumanEval, MMLU); 5) traffic from anonymising proxies.; DO: enforce per account rate limits + diversity scoring; never expose token logprobs to anon accounts; legal ToS + watermarking research.
Puede LegalAudit revisar mi caso?
Si. Abre el chat gratis y pega el mensaje, el enlace, el remitente o los datos de pago para un triage.