Provider: MLflow

El provider mlflow ejecuta el pipeline completo en tu máquina local con tracking automático en MLflow. Es el provider por defecto y el recomendado para desarrollo y experimentación.

Configuración

provider: mlflow

dataset:
  uri: ./data/train.csv      # ruta local (CSV o Parquet)
  target: mi_columna_target

model:
  type: xgboost
  hyperparameters:
    max_depth: 6
    eta: 0.3

metrics:
  - name: auc
    threshold: 0.80

deploy:
  batch_output: ./output/predictions.csv

godml run -f godml.yml

Flujo de ejecución

Carga CSV local
      ↓
DataPrep (si dataset.dataprep está definido)
      ↓
Compliance (si governance.compliance está definido)
      ↓
Train/Test split (80/20, estratificado)
      ↓
AutoTuner (ajusta hiperparámetros según dataset)
      ↓
Entrenamiento del modelo
      ↓
Evaluación (AUC, F1, Precision, Recall)
      ↓
Validación de thresholds
      ↓
Registro en MLflow Model Registry
      ↓
Guardado de predicciones (batch_output)

Tracking en MLflow UI

godml registra automáticamente en MLflow:

Hiperparámetros del modelo
Métricas (AUC, F1, precision, recall, accuracy)
El dataset como artefacto
Tags: versión, owner, dataset.target

Para ver la UI:

mlflow ui --host 0.0.0.0 --port 5001
# Abre: http://localhost:5001

AutoTuner

El AutoTuner ajusta hiperparámetros automáticamente según el tamaño y tipo del dataset:

model:
  type: xgboost
  hyperparameters:
    max_depth: 6      # el AutoTuner puede ajustar esto
    eta: 0.3
    n_estimators: 200

Reglas del AutoTuner:

Dataset pequeño (<1K filas): reduce n_estimators, aumenta max_depth
Dataset grande (>100K filas): ajusta learning_rate
Dataset desbalanceado: configura scale_pos_weight

Dataset con DataPrep embebido

dataset:
  uri: ./data/raw.csv
  target: churn
  dataprep:
    steps:
      - op: drop_columns
        params:
          columns: [id, created_at]
      - op: fill_missing
        params:
          strategy: median
      - op: encode_categorical
        params:
          columns: [region, plan_type]

Guardar modelo local

deploy:
  batch_output: ./output/predictions.csv
  model_output: ./output/model.pkl    # guarda joblib .pkl

Variables de entorno

Variable	Descripción
`MLFLOW_TRACKING_URI`	URI del servidor MLflow. Default: `file:./mlruns`
`MLFLOW_EXPERIMENT_NAME`	Nombre del experimento. Default: `godml-experiment`

Requisitos

pip install godml   # MLflow ya incluido

→ SageMaker Provider — ejecuta en AWS

Configuración​

Flujo de ejecución​

Tracking en MLflow UI​

AutoTuner​

Dataset con DataPrep embebido​

Guardar modelo local​

Variables de entorno​

Requisitos​