
Nascido em 1957, em Ohio, Richard Sutton formou-se na Universidade de Stanford, onde obteve o bacharelado em psicologia em 1978, depois na Universidade de Massachusetts, onde recebeu o doutorado em ciência da computação em 1984. Ele está na origem do desenvolvimento de conceitos fundamentais como Temporal Aprendizagem diferencial e os métodos de gradienteque permitem que as máquinas ajustem gradualmente suas decisões com base em sinais de recompensa.
Aprendizagem de diferença temporal
Durante seus estudos, Richard Sutton ficou interessado em comointeligência funciona. Ele observa que as capacidades do cérebro são fortalecidas pela interação constante com o ambiente, o que lhe permite aprender continuamente por meio de um jogo de comparação entre acertos e erros.
A partir desta base, escreveu, na Universidade de Massachusetts, a tese “ Atribuição de Crédito Temporal em Aprendizagem por Reforço ”, que estabelece as bases Aprendizagem de diferença temporal. Embora os sistemas de raciocínio tenham até agora dependido de processos de aprendizagem complexos, este método funciona graças a um algoritmo de previsão sem modelo, que aprende com base na estimativa de uma recompensa dupla, uma imediata e outra no momento seguinte. No caso de uma mudança, o algoritmo ajusta a sua previsão e, assim, melhora gradualmente a sua precisão.
Métodos de gradiente
Outra contribuição essencial de Richard Sutton, os métodos gradientes, que ampliam o campo da Aprendizagem de diferença temporalpermitem que os agentes se autocorrijam aprendendo com os dados. Concretamente, o gradiente é um vetor que informa à máquina como os parâmetros devem ser modificados com base em uma previsão feita por ela. Este método oferece a possibilidade de redes de neurônios e modelos de aprendizado de máquina para cometer menos erros.
Além disso, em 1990 desenvolveu a arquitetura Dyna, que integra aprendizagem, planejamento e reação em um sistema unificado de aprendizagem por reforço para permitir que os agentes melhorem seu desempenho combinando experiências reais e simuladas.
Uma contribuição fundamental para a IA
Professor da Universidade de Alberta, pesquisador da DeepMind e Keen Technologies, criador do Reinforcement Learning & Artificial Intelligence Lab, coautor com Andrew Barto do livro de referência “ Aprendizagem por Reforço: Uma Introdução », Richard Sutton é um dos cientistas da computação que mais contribuiu para o avanço do comportamento das máquinas.
Em 2024, recebeu o Prêmio Turing, o equivalente ao Nobel da ciência da computação, em reconhecimento ao trabalho que realizou para estabelecer as bases conceituais e algorítmicas da aprendizagem por reforço.