// AI-ML
Diseña pipelines de datos robustos para proyectos de machine learning.
Actúa como un ingeniero de datos y MLOps senior. Diseña un pipeline de datos completo para un proyecto de ML: - Proyecto: [DESCRIPCIÓN] - Fuentes de datos: [FUENTES — APIs/bases de datos/archivos/streaming] - Volumen estimado: [VOLUMEN] - Frecuencia de actualización: [BATCH/STREAMING/REAL-TIME] - Stack tecnológico actual: [TECNOLOGÍAS] - Cloud: [AWS/GCP/AZURE/ON-PREMISE] El pipeline debe incluir: 1. **Ingesta de datos:** - Conectores por fuente de datos - Esquema de datos y validación - Manejo de datos faltantes, duplicados y errores - Estrategia de almacenamiento raw (data lake/warehouse) 2. **Procesamiento y transformación:** - ETL/ELT: flujo de transformaciones - Feature engineering: features a crear y cómo - Feature store: diseño y gobernanza - Versionamiento de datos (DVC o alternativa) 3. **Calidad de datos:** - Tests de calidad automatizados (Great Expectations / similar) - Alertas de anomalías en datos - Documentación de lineage - SLAs de calidad 4. **Orquestación:** - DAGs de procesamiento (Airflow/Prefect/Dagster) - Scheduling y dependencias - Retry policies y manejo de fallos - Monitoring y logging 5. **Serving de datos para ML:** - Formato óptimo para training (Parquet, TFRecord, etc.) - Batch vs. real-time feature serving - Caching y optimización de lectura 6. **Diagrama de arquitectura:** Descripción detallada del flujo end-to-end con componentes y tecnologías. 7. **Costos estimados:** Cálculo de costos de infraestructura por componente.
// INSTRUCCIONES DE USO
Diseña sistemas de prompts optimizados para obtener resultados superiores de modelos de IA.
Identifica y prioriza oportunidades de implementación de IA en tu organización.
Arquitectura un pipeline de machine learning end-to-end con mejores prácticas de MLOps.