Saltar al contenido principal

Provider: MLflow

El provider mlflow ejecuta el pipeline completo en tu máquina local con tracking automático en MLflow. Es el provider por defecto y el recomendado para desarrollo y experimentación.

Configuración

provider: mlflow

dataset:
uri: ./data/train.csv # ruta local (CSV o Parquet)
target: mi_columna_target

model:
type: xgboost
hyperparameters:
max_depth: 6
eta: 0.3

metrics:
- name: auc
threshold: 0.80

deploy:
batch_output: ./output/predictions.csv
godml run -f godml.yml

Flujo de ejecución

Carga CSV local

DataPrep (si dataset.dataprep está definido)

Compliance (si governance.compliance está definido)

Train/Test split (80/20, estratificado)

AutoTuner (ajusta hiperparámetros según dataset)

Entrenamiento del modelo

Evaluación (AUC, F1, Precision, Recall)

Validación de thresholds

Registro en MLflow Model Registry

Guardado de predicciones (batch_output)

Tracking en MLflow UI

godml registra automáticamente en MLflow:

  • Hiperparámetros del modelo
  • Métricas (AUC, F1, precision, recall, accuracy)
  • El dataset como artefacto
  • Tags: versión, owner, dataset.target

Para ver la UI:

mlflow ui --host 0.0.0.0 --port 5001
# Abre: http://localhost:5001

AutoTuner

El AutoTuner ajusta hiperparámetros automáticamente según el tamaño y tipo del dataset:

model:
type: xgboost
hyperparameters:
max_depth: 6 # el AutoTuner puede ajustar esto
eta: 0.3
n_estimators: 200

Reglas del AutoTuner:

  • Dataset pequeño (<1K filas): reduce n_estimators, aumenta max_depth
  • Dataset grande (>100K filas): ajusta learning_rate
  • Dataset desbalanceado: configura scale_pos_weight

Dataset con DataPrep embebido

dataset:
uri: ./data/raw.csv
target: churn
dataprep:
steps:
- op: drop_columns
params:
columns: [id, created_at]
- op: fill_missing
params:
strategy: median
- op: encode_categorical
params:
columns: [region, plan_type]

Guardar modelo local

deploy:
batch_output: ./output/predictions.csv
model_output: ./output/model.pkl # guarda joblib .pkl

Variables de entorno

VariableDescripción
MLFLOW_TRACKING_URIURI del servidor MLflow. Default: file:./mlruns
MLFLOW_EXPERIMENT_NAMENombre del experimento. Default: godml-experiment

Requisitos

pip install godml # MLflow ya incluido

SageMaker Provider — ejecuta en AWS