En la era digital actual, la capacidad para extraer insights valiosos de grandes volúmenes de datos se ha convertido en una ventaja competitiva clave para organizaciones de todos los sectores. Uno de los campos donde el machine learning está demostrando un potencial extraordinario es en la predicción de resultados deportivos, como demuestra el reciente trabajo de Gabriel Pastorello para predecir el campeón de la NBA.

Reformulando el Problema: La Clave del Éxito Predictivo
Cualquier proyecto de machine learning comienza con la definición adecuada del problema. Como señala Pastorello, «la pregunta es simple: ¿Quién va a ser el campeón de la NBA?». Sin embargo, el enfoque para responder esta pregunta requiere una cuidadosa consideración.
El primer instinto podría ser plantear esto como un problema de clasificación binaria: cada equipo es etiquetado como «Campeón» o «No Campeón». Pero esto presenta un desafío significativo: el grave desequilibrio de clases. Con solo un campeón por temporada, de 40 años de datos históricos resultan únicamente 40 ejemplos positivos frente a cientos de negativos.
La solución implementada por Pastorello es brillante en su simplicidad: transformar el problema mediante la creación de un concepto denominado «Champion Share» – la proporción de victorias en playoffs que un equipo logró respecto al total necesario para ganar el título. Esto convierte el problema en una tarea de regresión, donde:
- Un equipo eliminado en primera ronda podría tener un Champion Share de 1/16
- Un finalista derrotado podría alcanzar un Champion Share de 14/16
- El campeón tendría un Champion Share completo de 1.0
Este enfoque permite al modelo aprender los grados de éxito en los playoffs, proporcionando una comprensión más matizada de los factores que contribuyen al campeonato.
Preparación de Datos: Normalización para Comparaciones Históricas
Uno de los aspectos más interesantes del proyecto es la forma en que aborda los cambios históricos en las estadísticas del baloncesto. Como observa Pastorello, «el promedio de puntos por partido (PPG) en la temporada 2023-24 fue de 114.2, mientras que en 2000-01 fue de 94.8 – un aumento de casi el 20%».
Para enfrentar estos cambios significativos en el juego a lo largo de las décadas, el proyecto utiliza métricas relativas en lugar de estadísticas absolutas:
- En lugar del PPG de un equipo, utiliza su ranking en esa temporada
- En vez de contar cuántos jugadores promedian 20+ PPG, considera cuántos están en el top 10 en anotación
Esta normalización permite al modelo capturar la dominancia relativa dentro de cada era, haciendo que las comparaciones a través de las décadas sean más significativas y permitiendo la inclusión de temporadas más antiguas para enriquecer el conjunto de datos.
Modelado y Evaluación: LightGBM para Datos Tabulares
Para la fase de modelado, se utilizó LightGBM, un algoritmo basado en árboles reconocido como uno de los métodos más efectivos para datos tabulares. El rendimiento del modelo se evaluó mediante el error cuadrático medio (RMSE) y el coeficiente de determinación (R²).

Los resultados son impresionantes:
- Un RMSE de 0.184
- Un puntaje R² de 0.537 en el conjunto de prueba
- Predicciones correctas para dos de los últimos tres campeones de la NBA
Estos resultados demuestran la capacidad del modelo para capturar patrones significativos en los datos y realizar predicciones precisas en la mayoría de los casos.
Variables Determinantes: Insights a Través de SHAP Values
Una de las herramientas más poderosas en el arsenal del científico de datos moderno es la capacidad de interpretar los modelos. Utilizando los valores SHAP (SHapley Additive exPlanations), Pastorello identifica las variables más influyentes en el modelo:
- Posición en la clasificación y porcentaje de victorias: Confirman la importancia del rendimiento en temporada regular
- Estadísticas a nivel de equipo: Rating Neto (NRtg), Puntos Permitidos Por Partido (PA/G), Margen de Victoria (MOV) y Rating Ofensivo Ajustado (ORtg/A)
- Métricas avanzadas de jugadores: Número de jugadores en el top 30 de Box Plus/Minus (BPM) y en el top 3 de Win Shares por 48 Minutos (WS/48)
Curiosamente, el modelo también captura tendencias más amplias: los equipos con una edad promedio más alta tienden a desempeñarse mejor en los playoffs, y un buen rendimiento en la postemporada anterior a menudo se correlaciona con el éxito futuro. Ambos patrones señalan la experiencia como un activo valioso en la búsqueda de un campeonato.
Limitaciones y Desafíos: El Factor Lesiones
A pesar de su éxito, el modelo enfrenta una limitación importante: no puede considerar adecuadamente el impacto de las lesiones. Como señala Pastorello, «las lesiones pueden remodelar completamente el panorama de los playoffs, particularmente cuando afectan a jugadores estrella durante los playoffs o al final de la temporada regular».
Esta limitación se hizo evidente en 2023, cuando el modelo predijo erróneamente que los Milwaukee Bucks serían campeones. A pesar de tener el mejor récord de temporada regular, una lesión de Giannis Antetokounmpo afectó su rendimiento en los playoffs, resultando en una sorprendente eliminación en primera ronda.
Aplicaciones Empresariales Más Allá del Deporte
Aunque este proyecto se centra en la predicción de resultados deportivos, las técnicas y enfoques utilizados tienen amplias aplicaciones en múltiples sectores empresariales:

- Finanzas y Gestión de Riesgos: Similar a la predicción de campeones, los modelos pueden evaluar la probabilidad de éxito de inversiones o proyectos, considerando múltiples factores y sus interacciones.
- Recursos Humanos: Las técnicas de normalización utilizadas para comparar estadísticas a través de diferentes eras pueden aplicarse para evaluar el rendimiento de empleados en diferentes departamentos o industrias.
- Marketing y Análisis de Clientes: El enfoque de reformular problemas complejos (de clasificación a regresión) puede mejorar la precisión de los modelos de propensión a la compra o predicción de valor de vida del cliente.
- Cadena de Suministro: La metodología para identificar variables clave que contribuyen al éxito puede aplicarse para optimizar procesos logísticos y reducir retrasos o defectos.
- Planificación Estratégica: Las técnicas de interpretación de modelos pueden proporcionar insights valiosos sobre los factores que realmente impulsan el éxito organizacional.
Conclusión: El Poder del Machine Learning para Decisiones Informadas
Este proyecto demuestra cómo el machine learning puede aplicarse a entornos complejos y dinámicos como los deportes, pero las lecciones son universales. Utilizando un conjunto de datos que abarca cuatro décadas de historia del baloncesto, el modelo pudo descubrir patrones significativos sobre lo que impulsa el éxito en los playoffs.
Más allá de la predicción, herramientas como SHAP permitieron interpretar las decisiones del modelo y comprender mejor los factores que contribuyen al éxito en la postemporada. Este tipo de transparencia e interpretabilidad es crucial para aplicaciones empresariales donde las decisiones basadas en modelos deben ser explicables y defendibles.
Como con cualquier implementación de machine learning, existe un equilibrio entre la precisión del modelo y su capacidad para generalizar. Sin embargo, este análisis muestra que los enfoques basados en datos pueden acercarse mucho a predecir resultados incluso en contextos tan volátiles como el deporte profesional.
Para organizaciones que buscan aprovechar sus datos para obtener ventajas competitivas, la lección es clara: con la formulación adecuada del problema, la preparación cuidadosa de los datos, y la interpretación correcta de los resultados, el machine learning puede proporcionar insights valiosos que informan mejores decisiones estratégicas.
Fuente: Gabriel Pastorello, «Predicting the NBA Champion with Machine Learning», Abril 2025.
Por Julio Hofflinger
https://www.linkedin.com/in/julio-hofflinger/