Saltar al contenido principal

Arquitectura de godml

godml convierte un YAML declarativo en un pipeline de ML ejecutable, con compliance, tracking y provenance integrados.

Pipeline interactivo

Haz clic en cada servicio para explorar qué hace. El flujo se anima automáticamente.

📄
godml.yml
Declaración del pipeline
Define modelo, datos, proveedor y métricas en un solo archivo YAML declarativo.

Servicios internos

Cada servicio es modular, intercambiable y trazado. El pipeline falla rápido con mensajes claros.

⚙️ config_service

Parsea el YAML, sustituye variables de entorno (${VAR}) y valida el schema completo con Pydantic. Si hay errores, el pipeline se detiene antes de tocar ningún dato.

# El YAML que parsea config_service
name: customer-churn
provider: mlflow
dataset:
path: data/customers.csv
target: churn

🔧 dataprep_service

Ejecuta la receta de transformaciones definida en dataset.dataprep.steps. Opera sobre pandas DataFrame. Cada transform es atómico, reversible y trazado con OpenLineage.

dataprep:
steps:
- drop_columns: [id, timestamp]
- fillna: { strategy: median }
- encode_categoricals: auto
- scale_features: standard

🛡️ compliance_service

Detecta PII por nombre de columna y contenido. Aplica la política (mask_sensitive, drop_sensitive, hash_sensitive) antes de que los datos lleguen al entrenamiento. Nunca entrena con datos sensibles sin tratar.

Compliance obligatorio en producción

Si el dataset contiene columnas como email, ssn, credit_card o phone, godml activa compliance automáticamente — no necesitas configurarlo.

🧠 model_service

Carga el modelo según model.type, aplica el AutoTuner y ejecuta el entrenamiento. Soporta XGBoost, Random Forest, Logistic Regression y LSTM Forecasting.

📊 monitoring_service

Calcula todas las métricas, compara contra los thresholds definidos y registra todo en MLflow. Si algún threshold no se cumple, el modelo no se registra. Siempre puedes ver por qué falló.


AutoTuner

El AutoTuner detecta características del dataset y ajusta hiperparámetros automáticamente — sin configuración manual:

Condición detectadaAjuste automático
Dataset desbalanceado (ratio > 3:1)scale_pos_weight en XGBoost
Pocas filas (< 500)Reduce n_estimators, aumenta regularización
Muchas columnas (> 50)Activa max_features en RF
Multiclase detectadaCambia objective a multi:softmax

Todos los ajustes se logean en MLflow para trazabilidad completa.


Providers

Mismo pipeline YAML — diferente entorno de ejecución. Haz clic para ver la configuración:

🧪
MLflow
Local · Rápido · Sin infra
Recomendado para dev
Setup30 segundos
CostoGratis
InfraestructuraNinguna
EscalabilidadLocal / equipo
CompliancePCI-DSS básico
MLflow UIIncluido
Provenance SLSANo
GPU/Spot trainingNo
Ver configuración →
☁️
SageMaker
AWS · Escala · SLSA L3
Producción
SetupConfig IAM + S3
CostoInstancias AWS
InfraestructuraAWS gestionada
EscalabilidadIlimitada
ComplianceHIPAA · SOC2 · GDPR
MLflow UIVía SageMaker Exp.
Provenance SLSAL3 via release.yml
GPU/Spot trainingSí (ml.p3, ml.g4)
Ver configuración →

Flujo de datos completo


Estructura de archivos generada

mi-proyecto/
├── godml.yml ← pipeline definition
├── data/
│ ├── raw.csv
│ └── clean_pci.csv ← si compliance activo
├── output/
│ ├── predictions.csv ← batch_output
│ └── model.pkl ← model_output
└── mlruns/ ← MLflow tracking
└── [experiment_id]/
└── [run_id]/
├── metrics/
├── params/
└── artifacts/
Siguiente paso

¿Listo para ejecutar tu primer pipeline? Ve a Quickstart →