Fallback de Modelo de IA Inseguro

Cuando el modelo de IA principal falla, tu app hace fallback silenciosamente a un modelo más débil o sin validar que evita tus configuraciones de seguridad.

Cómo Funciona

Configuras cuidadosamente tu modelo principal con system prompts, filtros de seguridad y validación de output. Luego agregas un fallback en un try/catch a un modelo diferente — sin aplicar las mismas configuraciones de seguridad. Un atacante que pueda provocar errores en el modelo principal puede forzar la ejecución por el camino de fallback sin validar.

Código Vulnerable

// MAL: el modelo fallback no tiene system prompt ni config de seguridad
try {
  response = await anthropic.messages.create({ model: 'claude-opus-4-6', system: SAFETY_PROMPT, ...params });
} catch {
  // Fallback sin configuración de seguridad aplicada
  response = await openai.chat.completions.create({ model: 'gpt-4o', messages: [{ role: 'user', content: userInput }] });
}

Código Seguro

// BIEN: aplica la misma config de seguridad tanto al primario como al fallback
const safeParams = { system: SAFETY_PROMPT, maxTokens: 1024 };
try {
  response = await callWithSafetyConfig(anthropic, safeParams, userInput);
} catch {
  // El fallback usa configuración de seguridad idéntica
  response = await callWithSafetyConfig(openai, safeParams, userInput);
}

Ejemplo Real

Un bot de atención al cliente estaba configurado con filtros de temas estrictos en su modelo principal. El camino de fallback, agregado como fix rápido para la confiabilidad, no tenía filtros — los testers descubrieron que podían forzar el fallback mandando inputs muy largos que provocaban un timeout, obteniendo respuestas sin restricciones.

Cómo Prevenirlo

Aplica configuraciones de seguridad idénticas (system prompts, validación de output, rate limits) a todos los modelos fallback
Loguea cada vez que se activa un fallback para poder detectar si está siendo explotado
Prueba tus caminos de fallback explícitamente — frecuentemente tienen comportamiento diferente al primario
Considera fallar de forma cerrada en lugar de hacer fallback si la seguridad es crítica para tu caso de uso
Usa una capa de abstracción única que aplique la config de seguridad independientemente del modelo elegido

Tecnologías Afectadas

Node.jsPython

Data Hogo detecta esta vulnerabilidad automáticamente.

Escanea Tu Repo Gratis

Vulnerabilidades Relacionadas

Inyección de Prompts

high

El input del usuario se concatena directo en el prompt del LLM, permitiendo que atacantes sobreescriban tus instrucciones y hagan que la IA haga lo que ellos quieran.

CWE-77OWASP LLM01:2025

Filtración de PII a Modelos de IA

high

Tu app manda información personal identificable — emails, nombres, contraseñas, teléfonos — a APIs de IA externas, exponiendo datos de usuarios a proveedores de modelos de terceros.

CWE-359OWASP LLM02:2025

Respuesta de IA Sin Validación

medium

El output de un LLM se renderiza o ejecuta directo sin verificar si coincide con el formato esperado o contiene contenido dañino.

CWE-116OWASP LLM02:2025

API Key de IA en el Frontend

critical

Tu API key de OpenAI, Anthropic u otro proveedor de IA está expuesta en el código del cliente, donde cualquiera puede robarla y acumular cargos en tu cuenta.

CWE-312OWASP LLM09:2025