
El prestigioso Premio A.M. Turing 2024, frecuentemente denominado como el «Nobel de la Computación», ha sido otorgado a Andrew Barto y Richard Sutton por su fundamental contribución al desarrollo del aprendizaje por refuerzo, una tecnología que se ha convertido en piedra angular de la inteligencia artificial moderna.
Los orígenes del aprendizaje por refuerzo
Barto, Profesor Emérito de Ciencias de la Información y Computación en la Universidad de Massachusetts, Amherst, y Sutton, Profesor de Ciencias de la Computación en la Universidad de Alberta e Investigador Científico en Keen Technologies, iniciaron su colaboración en 1978. A partir de la década de 1980, ambos investigadores comenzaron a desarrollar los conceptos y algoritmos fundamentales que darían forma al aprendizaje por refuerzo.
Este enfoque de inteligencia artificial se inspira en principios psicológicos y neurocientíficos, centrándose en cómo las entidades o «agentes» pueden aprender a través de recompensas relacionadas con la calidad de su comportamiento. Aunque la idea de aprender a través de recompensas ha sido familiar para los entrenadores de animales durante milenios, y Alan Turing ya había propuesto un enfoque de aprendizaje automático basado en recompensas y castigos en 1950, fue el trabajo sistemático de Barto y Sutton lo que transformó estas ideas en un marco de trabajo completo.
Contribuciones fundamentales
Entre sus contribuciones más destacadas se encuentra el desarrollo del aprendizaje por diferencia temporal (temporal difference learning), que representó un avance significativo en la resolución de problemas de predicción de recompensa. También desarrollaron métodos de gradiente de política y promovieron el uso de redes neuronales como herramienta para representar funciones aprendidas.
Su libro de texto «Reinforcement Learning: An Introduction» (1998) sigue siendo la referencia estándar en el campo, con más de 75,000 citaciones, y ha permitido a miles de investigadores comprender y contribuir a este campo emergente.

Impacto actual y aplicaciones
Aunque los algoritmos de Barto y Sutton fueron desarrollados hace décadas, los avances prácticos más significativos en la aplicación del aprendizaje por refuerzo ocurrieron en los últimos quince años, al fusionarse con algoritmos de aprendizaje profundo. Esto dio lugar a la técnica conocida como aprendizaje profundo por refuerzo.
Entre los ejemplos más notables de esta tecnología encontramos:
- La victoria del programa AlphaGo sobre los mejores jugadores humanos de Go en 2016 y 2017
- El desarrollo de ChatGPT, que emplea una técnica llamada aprendizaje por refuerzo con retroalimentación humana (RLHF) para capturar expectativas humanas
- Aprendizaje de habilidades motoras en robots
- Control de congestión de redes
- Diseño de chips
- Publicidad en internet
- Optimización de cadenas de suministro globales
Como señaló Jeff Dean, Científico Jefe de Google: «En una conferencia de 1947, Alan Turing declaró ‘Lo que queremos es una máquina que pueda aprender de la experiencia’. El aprendizaje por refuerzo, como lo pioneraron Barto y Sutton, responde directamente al desafío de Turing».
Reconocimiento y legado
El Premio Turing, que conlleva una recompensa de $1 millón con apoyo financiero de Google, Inc., reconoce el impacto duradero del trabajo de Barto y Sutton. Yannis Ioannidis, Presidente de ACM, destacó: «El trabajo de Barto y Sutton demuestra el inmenso potencial de aplicar un enfoque multidisciplinario a desafíos de larga data en nuestro campo».
Este reconocimiento subraya cómo una tecnología parcialmente inspirada en la neurociencia ha devuelto el favor: investigaciones recientes, incluido el trabajo de Barto, han demostrado que algoritmos específicos de aprendizaje por refuerzo desarrollados en IA proporcionan las mejores explicaciones para una amplia gama de hallazgos relacionados con el sistema de dopamina en el cerebro humano.
El legado de Barto y Sutton no es simplemente un hito superado, sino que continúa creciendo y ofrece un gran potencial para futuros avances en la computación y muchas otras disciplinas.

Fuente: ACM, the Association for Computing Machinery, «ACM A.M. Turing Award Honors Two Researchers Who Led the Development of Cornerstone AI Technology», 2024.