Monte-Carlo e Temporal-Difference Learning

Nesta seção serão apresentados dois métodos chaves de aprendizado de máquina através de RL: aprendizado de Monte-Carlo (MC) e Temporal-Difference Learning (TD).