// AI-ML
Diseña estrategias de evaluación rigurosas para modelos de machine learning.
Actúa como un científico de datos senior especializado en MLOps. Diseña un framework de evaluación completo para un modelo de [TIPO_DE_MODELO]: - Tarea: [CLASIFICACIÓN/REGRESIÓN/NLP/COMPUTER_VISION/RECOMENDACIÓN] - Dataset: [DESCRIPCIÓN_DEL_DATASET] - Baseline actual: [MÉTRICAS_ACTUALES] - Requisitos de producción: [LATENCIA/THROUGHPUT/RECURSOS] - Stakeholders: [TÉCNICOS/NEGOCIO/REGULATORIO] El framework debe incluir: 1. **Métricas de evaluación:** - Métricas primarias y secundarias con justificación - Métricas de negocio vs. métricas técnicas - Cómo interpretar y comunicar cada métrica - Thresholds de aceptación para producción 2. **Estrategia de validación:** - Split de datos: train/val/test con estratificación - Cross-validation: tipo y número de folds - Temporal split si hay componente temporal - Holdout sets para evaluación final 3. **Análisis de errores:** - Confusion matrix detallada - Análisis de falsos positivos/negativos: impacto de negocio de cada tipo - Error analysis por subgrupo (fairness) - Casos edge: identificación y handling 4. **Tests de robustez:** - Perturbación de inputs - Distributional shift - Adversarial examples - Stress testing con datos fuera de distribución 5. **Comparación de modelos:** Framework para comparar alternativas de forma justa — ablation studies, significance tests. 6. **Monitoring en producción:** Métricas de drift, alertas, reentrenamiento, A/B testing en producción. 7. **Documentación:** Model card con toda la información para auditoría y compliance.
// INSTRUCCIONES DE USO
Diseña sistemas de prompts optimizados para obtener resultados superiores de modelos de IA.
Identifica y prioriza oportunidades de implementación de IA en tu organización.
Arquitectura un pipeline de machine learning end-to-end con mejores prácticas de MLOps.