Como reconocer Jailbreak de LLM para instrucciones criminales (DAN / DUDE / ingeniería de prompts con juego de rol)?

TLDR

Los actores de amenazas utilizan prompts de jailbreak (DAN, DUDE, juego de rol 'finge que eres una IA sin restricciones') para eludir la seguridad en ChatGPT / Claude / Gemini y solicitar síntesis de explosivos, código de malware,...

Como funciona

Señales de alerta

Presion urgente para hacer clic, pagar o compartir codigos de inmediato.
Enlace o remitente que no coincide con la organizacion oficial.
Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.

Qué hacer

1No hagas clic, no pagues, no instales apps ni compartas codigos.
2Verifica desde el sitio, la app o el numero oficial escrito manualmente.
3Si ya interactuaste, bloquea tarjetas o cuentas y denuncia el incidente.

Fuente

OpenAI-Disclosure

Fuente verificada por Mythos Forensic Team

https://openai.com/index/disrupting-malicious-uses-of-our-models/

FAQ

Es Jailbreak de LLM para instrucciones criminales (DAN / DUDE / ingeniería de prompts con juego de rol) una estafa real?

Si. Trata el mensaje, la llamada o la solicitud de pago como sospechosos hasta que los verifiques por un canal oficial.

Cuales son las primeras senales?

Presion urgente para hacer clic, pagar o compartir codigos de inmediato.; Enlace o remitente que no coincide con la organizacion oficial.; Solicitud de tarjeta, contrasena, OTP, firma de wallet o transferencia.

Que debo hacer primero?

No hagas clic, no pagues, no instales apps ni compartas codigos.; Verifica desde el sitio, la app o el numero oficial escrito manualmente.; Si ya interactuaste, bloquea tarjetas o cuentas y denuncia el incidente.

Puede LegalAudit revisar mi caso?

Si. Abre el chat gratis y pega el mensaje, el enlace, el remitente o los datos de pago para un triage.