Provider: MLflow
El provider mlflow ejecuta el pipeline completo en tu máquina local con tracking automático en MLflow. Es el provider por defecto y el recomendado para desarrollo y experimentación.
Configuración
provider: mlflow
dataset:
uri: ./data/train.csv # ruta local (CSV o Parquet)
target: mi_columna_target
model:
type: xgboost
hyperparameters:
max_depth: 6
eta: 0.3
metrics:
- name: auc
threshold: 0.80
deploy:
batch_output: ./output/predictions.csv
godml run -f godml.yml
Flujo de ejecución
Carga CSV local
↓
DataPrep (si dataset.dataprep está definido)
↓
Compliance (si governance.compliance está definido)
↓
Train/Test split (80/20, estratificado)
↓
AutoTuner (ajusta hiperparámetros según dataset)
↓
Entrenamiento del modelo
↓
Evaluación (AUC, F1, Precision, Recall)
↓
Validación de thresholds
↓
Registro en MLflow Model Registry
↓
Guardado de predicciones (batch_output)
Tracking en MLflow UI
godml registra automáticamente en MLflow:
- Hiperparámetros del modelo
- Métricas (AUC, F1, precision, recall, accuracy)
- El dataset como artefacto
- Tags: versión, owner, dataset.target
Para ver la UI:
mlflow ui --host 0.0.0.0 --port 5001
# Abre: http://localhost:5001
AutoTuner
El AutoTuner ajusta hiperparámetros automáticamente según el tamaño y tipo del dataset:
model:
type: xgboost
hyperparameters:
max_depth: 6 # el AutoTuner puede ajustar esto
eta: 0.3
n_estimators: 200
Reglas del AutoTuner:
- Dataset pequeño (<1K filas): reduce
n_estimators, aumentamax_depth - Dataset grande (>100K filas): ajusta
learning_rate - Dataset desbalanceado: configura
scale_pos_weight
Dataset con DataPrep embebido
dataset:
uri: ./data/raw.csv
target: churn
dataprep:
steps:
- op: drop_columns
params:
columns: [id, created_at]
- op: fill_missing
params:
strategy: median
- op: encode_categorical
params:
columns: [region, plan_type]
Guardar modelo local
deploy:
batch_output: ./output/predictions.csv
model_output: ./output/model.pkl # guarda joblib .pkl
Variables de entorno
| Variable | Descripción |
|---|---|
MLFLOW_TRACKING_URI | URI del servidor MLflow. Default: file:./mlruns |
MLFLOW_EXPERIMENT_NAME | Nombre del experimento. Default: godml-experiment |
Requisitos
pip install godml # MLflow ya incluido
→ SageMaker Provider — ejecuta en AWS