Imagine que você é uma criança que ouve pela primeira vez a buzina de um caminhão de sorvete: você fica intrigado, mas sem nenhuma expectativa particular. Pouco depois, seus pais te surpreendem com um delicioso sorvete. O caminhão de sorvete volta todos os dias e toda vez que seus pais lhe dão sorvete. À medida que esta cena se repete, o gelo torna-se cada vez menos surpreendente e o som da buzina acaba por ser agradável, pois anuncia a recompensa. Esse fenômeno bem conhecido, onde um estímulo neutro (a buzina) se associa a uma resposta (o prazer do sorvete), é chamado de condicionamento pavloviano, em homenagem ao pesquisador que o estudou pela primeira vez em cães.
As teorias clássicas descrevem a formação de associações entre dois eventos como proporcional ao erro de predição, ou seja, à diferença entre o que é esperado e o que realmente ocorre. No exemplo do caminhão de sorvete, no primeiro dia a buzina ainda não prevê a chegada do sorvete: o erro entre a previsão e a recompensa é portanto muito grande, a associação aumenta. Mais tarde, quando o gelo se torna previsível, este erro é reduzido e a associação estabiliza.
Dopamina, reflexo de um “erro de previsão”
“Na década de 1990, os pesquisadores descobriram que o neurotransmissor dopamina (mensageiro químico do cérebro, nota do editor), reflete esse erro de previsão. Experimentos que medem a dopamina mostraram que quando o erro de previsão é grande, o pico de dopamina é grande; inversamente, quando a associação é aprendida e o erro chega a zero, o pico de dopamina desaparece. Observámos inclusive que quando esperamos receber uma recompensa mas esta não se concretiza, o que corresponde a um erro de previsão negativo, observamos uma diminuição da dopamina. explica Noé Hamou, pesquisador em neurociência da University College London (Grã-Bretanha) e autor do trabalho publicado na revista Comunicações da Naturezaem colaboração com pesquisadores das universidades de Harvard e Princeton (Estados Unidos).
“Esta descoberta é uma das grandes “histórias de sucesso” da neurociência moderna: permite ligar uma molécula biológica e uma quantidade psicológica, o erro de previsão“, continua Noé Hamou. Esses erros de previsão possibilitaram uma análise mais precisa dos nossos mecanismos de aprendizagem, mas também inspiraram algoritmos de inteligência artificial. Os modelos de aprendizagem por reforço resultantes tornaram possível vencer os melhores jogadores no xadrez ou, mais recentemente, no Go, e todos fazem uso desses erros de previsão.
Integrar a dimensão temporal da aprendizagem
À medida que a investigação prosseguia, alguns resultados experimentais revelaram-se inconsistentes com esta teoria clássica baseada em erros de previsão. Na verdade, este modelo não consegue explicar experiências que mostram que a aprendizagem é extremamente sensível ao tempo.
Vários laboratórios de psicologia experimental demonstraram que o lapso de tempo entre os eventos (sinal-recompensa ou recompensa-recompensa) tem um impacto significativo na capacidade de aprendizagem. “Ao alterar a duração desses intervalos, a velocidade de aprendizagem também muda. Esta dimensão temporal é um elemento central da aprendizagem, mas permanece ausente dos modelos clássicossublinha Noé Hamou. Desenvolvemos portanto um novo modelo que integra tanto esta dimensão temporal como os erros de previsão, de forma a chegar o mais próximo possível dos resultados experimentais.
O modelo proposto por estes investigadores integra, portanto, uma “distribuição temporal de intervalos” entre o estímulo e a recompensa (a que “distância no tempo” as recompensas ocorrem após um determinado estímulo) e a probabilidade causal de que um determinado estímulo seja a “causa” da recompensa.

A probabilidade de resposta depende tanto de um componente temporal quanto da associação causal entre estímulo e recompensa. Créditos: Hamou et al., 2025
Em outras palavras, a fórmula matemática é a seguinte:
![]()
A probabilidade de resposta P(resposta) é a soma de todos os estímulos considerados i, da probabilidade de distribuição temporal P(Ti) multiplicado pelo probabilidade da associação causal do estímulo P(Ci).
Aprendizagem causal
Mas o que torna este modelo particularmente inovador? “De acordo com o nosso modelo, a aprendizagem requer tanto um sinal temporal preditivo, baseado em erros de previsão clássicos, mas também um sinal retrospectivo, que reflete a causalidade entre dois eventos.resume Noé Hamou. Em outras palavras: “dado que recebi uma recompensa, qual era a probabilidade de um sinal a preceder?” ou: “Tive indigestão; tentarei lembrar o que pode ter causado isso e da próxima vez provavelmente evitarei aquele alimento”.
Resta agora descobrir onde no cérebro este mecanismo de aprendizagem causal está escondido. Outros neurotransmissores como acetilcolina e serotonina estão entre os suspeitos… mas nada está claro ainda.