Fallback de Modelo de IA Inseguro
Cuando el modelo de IA principal falla, tu app hace fallback silenciosamente a un modelo más débil o sin validar que evita tus configuraciones de seguridad.
Cómo Funciona
Configuras cuidadosamente tu modelo principal con system prompts, filtros de seguridad y validación de output. Luego agregas un fallback en un try/catch a un modelo diferente — sin aplicar las mismas configuraciones de seguridad. Un atacante que pueda provocar errores en el modelo principal puede forzar la ejecución por el camino de fallback sin validar.
// MAL: el modelo fallback no tiene system prompt ni config de seguridad
try {
response = await anthropic.messages.create({ model: 'claude-opus-4-6', system: SAFETY_PROMPT, ...params });
} catch {
// Fallback sin configuración de seguridad aplicada
response = await openai.chat.completions.create({ model: 'gpt-4o', messages: [{ role: 'user', content: userInput }] });
}// BIEN: aplica la misma config de seguridad tanto al primario como al fallback
const safeParams = { system: SAFETY_PROMPT, maxTokens: 1024 };
try {
response = await callWithSafetyConfig(anthropic, safeParams, userInput);
} catch {
// El fallback usa configuración de seguridad idéntica
response = await callWithSafetyConfig(openai, safeParams, userInput);
}Ejemplo Real
Un bot de atención al cliente estaba configurado con filtros de temas estrictos en su modelo principal. El camino de fallback, agregado como fix rápido para la confiabilidad, no tenía filtros — los testers descubrieron que podían forzar el fallback mandando inputs muy largos que provocaban un timeout, obteniendo respuestas sin restricciones.
Cómo Prevenirlo
- Aplica configuraciones de seguridad idénticas (system prompts, validación de output, rate limits) a todos los modelos fallback
- Loguea cada vez que se activa un fallback para poder detectar si está siendo explotado
- Prueba tus caminos de fallback explícitamente — frecuentemente tienen comportamiento diferente al primario
- Considera fallar de forma cerrada en lugar de hacer fallback si la seguridad es crítica para tu caso de uso
- Usa una capa de abstracción única que aplique la config de seguridad independientemente del modelo elegido
Tecnologías Afectadas
Data Hogo detecta esta vulnerabilidad automáticamente.
Escanea Tu Repo GratisVulnerabilidades Relacionadas
Inyección de Prompts
highEl input del usuario se concatena directo en el prompt del LLM, permitiendo que atacantes sobreescriban tus instrucciones y hagan que la IA haga lo que ellos quieran.
Filtración de PII a Modelos de IA
highTu app manda información personal identificable — emails, nombres, contraseñas, teléfonos — a APIs de IA externas, exponiendo datos de usuarios a proveedores de modelos de terceros.
Respuesta de IA Sin Validación
mediumEl output de un LLM se renderiza o ejecuta directo sin verificar si coincide con el formato esperado o contiene contenido dañino.
API Key de IA en el Frontend
criticalTu API key de OpenAI, Anthropic u otro proveedor de IA está expuesta en el código del cliente, donde cualquiera puede robarla y acumular cargos en tu cuenta.