Aprendizagem por reforço: como as máquinas aprendem com seus erros

Tempo de leitura: 21 min

Escrito por Jadilson Barros
em abril 9, 2023

aprendizado por reforçoO aprendizado por reforço tem tudo a ver com gamificar o processo de aprendizado.

Esse tipo de aprendizado de máquina usa um método de penalidade de recompensa para ensinar um sistema de IA. Se fizer o movimento certo, é recompensado. Se errar, recebe uma penalidade.

Em outras palavras, o aprendizado por reforço força um sistema a aprender e se adaptar rapidamente, caso contrário, ele perde grandes recompensas numéricas. É um método de aprendizado de máquina baseado em feedback no qual o agente de IA aprende a se comportar (corretamente) em um ambiente, realizando ações e vendo os resultados dessas ações.

Resumindo, o agente aprende com a experiência sem qualquer pré-programação e não requer nenhuma supervisão humana.

É um dos três tipos básicos de aprendizado de máquina. Os outros dois são aprendizado supervisionado e não supervisionado .

O aprendizado por reforço permite que uma máquina aprenda com seus erros, semelhante ao que os humanos fazem. É um tipo de aprendizado de máquina no qual a máquina aprende a resolver um problema usando tentativa e erro. Além disso, a máquina aprende com suas ações, ao contrário do aprendizado supervisionado, em que os dados históricos desempenham um papel crítico.

O sistema de IA que passa pelo processo de aprendizado é chamado de agente ou aprendiz . O sistema de aprendizagem explora e observa o ambiente ao seu redor, assim como nós. Se o agente executar a ação correta, receberá um feedback positivo ou uma recompensa positiva. Se ele realizar uma ação adversa, receberá um feedback negativo ou uma recompensa negativa.

As características notáveis ​​do aprendizado por reforço (RL) são:

  • O tempo desempenha um papel crítico nos problemas de RL.
  • A tomada de decisão do agente é sequencial.
  • Não há um supervisor e o agente não recebe nenhuma instrução. Existem apenas recompensas.
  • As ações do agente afetam diretamente os dados subseqüentes que ele recebe.
  • O agente é recompensado (positivo ou negativo) por cada ação.
  • A melhor solução para um problema é decidida com base na recompensa máxima.

O objetivo do aprendizado por reforço é escolher a ação mais conhecida para qualquer estado. Isso também significa que as ações devem ser classificadas e atribuídas valores relativos umas às outras. Como a melhor ação depende do estado atual do agente, o foco está mais nos valores dos pares estado-ação.

No entanto, o aprendizado por reforço nem sempre é a resposta para todas as situações. Por exemplo, se você tiver dados suficientes para resolver um problema, o aprendizado supervisionado será ideal. Além disso, o aprendizado por reforço é um processo demorado e requer muitos recursos computacionais.

Terminologias usadas no aprendizado por reforço

Se você acabou de entrar na inteligência artificial , as coisas podem ser bastante impressionantes. Especialmente quando você aprende novos termos, embora a maioria deles se torne simples quando explicados. Aqui estão alguns dos termos usados ​​no aprendizado por reforço e o que eles significam para evitar problemas.

Agente: O sistema de IA que passa pelo processo de aprendizagem. Também chamado de aprendiz ou tomador de decisão. O algoritmo é o agente.

Ação: O conjunto de todos os movimentos possíveis que um agente pode fazer.

Ambiente: O mundo através do qual o agente se move e recebe feedback. O ambiente recebe o estado atual e a ação do agente como entrada e, em seguida, gera a recompensa e o próximo estado.

Estado: Uma situação imediata na qual o agente se encontra. Pode ser um momento ou posição específica no ambiente. Também pode ser uma situação atual, bem como uma situação futura. Em palavras simples, é o estado do agente no ambiente.

Recompensa: Para cada ação realizada, o agente recebe uma recompensa do ambiente. Uma recompensa pode ser positiva ou negativa, dependendo da ação.

Política: A estratégia que o agente usa para determinar a próxima ação com base no estado atual. Em outras palavras, ele mapeia estados para ações para que o agente possa escolher a ação com maior recompensa.

Modelo: A visão do agente sobre o ambiente. Ele mapeia os pares estado-ação para as distribuições de probabilidade sobre os estados. Entretanto, nem todo agente de RL utiliza um modelo de seu ambiente.

Função de valor: Em termos simples, a função de valor representa o quão favorável é um estado para o agente. O valor do estado representa a recompensa de longo prazo que o agente receberá a partir desse estado específico até a execução de uma política específica.

Fator de desconto: O fator de desconto (γ) determina o quanto o agente se preocupa com as recompensas no futuro distante quando comparadas com as do futuro imediato. É um valor entre zero e um. Se o fator de desconto for igual a 0, o agente só aprenderá sobre as ações que produzem recompensas imediatas. Se for igual a 1, o agente avaliará suas ações com base na soma de suas recompensas futuras.

Programação dinâmica (DP): Uma técnica algorítmica usada para resolver um problema de otimização dividindo-o em subproblemas. Segue o conceito de que a solução ótima para o problema geral depende da solução ótima para seus subproblemas.

Se esses termos o sobrecarregarem, pense no que seria o aprendizado por reforço na vida real. O agente é você, e o ambiente é o que está ao seu redor e as leis da física, como a gravidade.

Se você está aprendendo a andar, o estado pode ser a posição de suas pernas. Se você fizer a melhor ação, receberá uma recompensa, que é caminhar alguns passos. Caso contrário, você recebe uma penalidade, que neste caso significa que você cai e se machuca.

Tipos de aprendizado por reforço

Existem dois tipos de métodos de aprendizado por reforço: reforço positivo e reforço negativo .

Reforço positivo

O aprendizado por reforço positivo é o processo de encorajar ou adicionar algo quando um padrão de comportamento esperado é exibido para aumentar a probabilidade de o mesmo comportamento ser repetido.

Por exemplo, se uma criança passa em um teste com notas impressionantes, ela pode ser reforçada positivamente com uma casquinha de sorvete.

reforço negativo

O reforço negativo envolve aumentar as chances de um comportamento específico ocorrer novamente, removendo a condição negativa.

Por exemplo, se uma criança falhar em um teste, ela pode ser reforçada negativamente tirando seus videogames. Isso não é exatamente punir a criança por ter falhado, mas remover uma condição negativa (neste caso, videogames) que pode ter causado a reprovação da criança no teste.

Elementos de aprendizado por reforço

Além do agente e do ambiente, existem quatro elementos críticos no aprendizado por reforço: política , sinal de recompensa , função de valor e modelo .

1. Política

A política é a estratégia que o agente usa para determinar a ação a seguir com base no estado atual. É um dos elementos críticos do aprendizado por reforço e pode definir sozinho o comportamento do agente.

Uma política mapeia os estados percebidos do ambiente para as ações tomadas nesses estados específicos. Pode ser determinístico ou estocástico e também pode ser uma função simples ou uma tabela de consulta.

2. Sinal de recompensa

A cada estado, o agente recebe um sinal imediato do ambiente chamado de sinal de recompensa ou simplesmente recompensa. Conforme mencionado anteriormente, as recompensas podem ser positivas ou negativas, dependendo das ações do agente.

O sinal de recompensa também pode forçar o agente a mudar a política. Por exemplo, se as ações do agente levarem a recompensas negativas, o agente será forçado a mudar a política em prol de sua recompensa total.

3. Função de valor

A função de valor fornece informações sobre o quão favoráveis ​​são as ações específicas e quanta recompensa o agente pode esperar. Simplificando, a função de valor determina o quão bom é um estado para o agente. A função de valor depende da política do agente e da recompensa, e seu objetivo é estimar valores para obter mais recompensas.

4. Modelo

O modelo imita o comportamento do ambiente. Usando um modelo, você pode fazer inferências sobre o ambiente e como ele se comportará. Por exemplo, se um estado e uma ação forem fornecidos, você pode usar um modelo para prever o próximo estado e recompensa.

Como o modelo permite considerar todas as situações futuras antes de vivenciá-las, você pode usá-lo para planejamento. A abordagem usada para resolver problemas de aprendizado por reforço com a ajuda do modelo é chamada de aprendizado por reforço baseado em modelo . Por outro lado, se você tentar resolver problemas de RL sem usar um modelo, isso é chamado de aprendizado por reforço sem modelo .

Enquanto o aprendizado baseado em modelo tenta escolher a política ideal com base no modelo aprendido, o aprendizado livre de modelo exige que o agente aprenda com a experiência de tentativa e erro. Estatisticamente, os métodos sem modelo são menos eficientes do que os métodos baseados em modelo.

Como funciona o aprendizado por reforço?

Simplificando, o aprendizado por reforço é a busca de um agente para maximizar a recompensa que recebe. Não há nenhum humano para supervisionar o processo de aprendizado e o agente toma decisões sequenciais.

Ao contrário do aprendizado supervisionado, o aprendizado por reforço não exige que você rotule dados ou corrija ações abaixo do ideal. Em vez disso, o objetivo é encontrar um equilíbrio entre exploração e exploração.

Exploração é quando o agente aprende saindo de sua zona de conforto, e isso pode colocar em jogo sua recompensa. A exploração costuma ser desafiadora e é como entrar em um território desconhecido. Pense nisso como experimentar um restaurante em que você nunca esteve. Na melhor das hipóteses, você pode acabar descobrindo um novo restaurante favorito e dando um prazer ao seu paladar. Na pior das hipóteses, você pode acabar doente devido a alimentos mal cozidos.

A exploração é quando o agente permanece em sua zona de conforto e explora o conhecimento atualmente disponível. É isento de riscos, pois não há chance de penalização e o agente fica repetindo a mesma coisa. É como visitar seu restaurante favorito todos os dias e não estar aberto a novas experiências. Claro, é uma escolha segura, mas pode haver um restaurante melhor por aí.

O aprendizado por reforço é uma troca entre exploração e aproveitamento. Os algoritmos RL podem ser feitos para explorar e explorar em graus variados.

O aprendizado por reforço é um processo iterativo. O agente começa sem nenhuma dica sobre as recompensas que pode esperar de pares de estado-ação específicos. Ele aprende à medida que passa por esses estados várias vezes e, eventualmente, torna-se adepto. Resumindo, o agente começa como um noob e aos poucos se torna um profissional.

Um exemplo da vida real de aprendizagem por reforço

Já que o aprendizado por reforço é como a maioria dos organismos aprende, vamos ver como um cachorro aprende novos truques e compará-los com esse tipo de aprendizado de máquina.

Charlie é um Golden Retriever. Como outros cães, ele não entende inglês ou qualquer linguagem humana per se, embora possa compreender a entonação e a linguagem corporal humana com excelente precisão.

Isso significa que não podemos instruir Charlie diretamente sobre o que fazer, mas podemos usar guloseimas para convencê-lo a fazer algo. Pode ser qualquer coisa tão simples quanto sentar ou rolar sob comando ou apertar as mãos. Para este exemplo, vamos considerar o “ato de apertar as mãos”.

Como você provavelmente sabe, as regras são bem simples. Se Charlie apertar a mão ou fizer algo parecido, ele ganha uma recompensa. Se ele não obedecer ou se comportar mal, não receberá guloseimas.

Em outras palavras, se Charlie realizar a ação desejada, ele ganha uma guloseima; caso contrário, nenhum.

Depois de algumas iterações de “tratar ou não tratar”, Charlie reconhecerá o conjunto certo de ações a serem executadas para obter uma guloseima. Quando ele se comportou mal, percebeu que tais ações desfavoráveis ​​levaram a consequências desfavoráveis. No futuro, quando Charlie enfrentar situações semelhantes, ele saberá qual é a ação mais desejável a ser tomada para maximizar a guloseima ou recompensa.

“RL significa que a IA agora pode ser aplicada a problemas de tomada de decisão sequencial para atingir objetivos estratégicos, em oposição a tarefas perceptivas pontuais, como reconhecimento de imagem”.

Chris Nicholson
Fundador e CEO da Pathmind

Aplicar o conceito de aprendizado por reforço a este exemplo faz de Charlie o agente . A casa em que vive torna-se o seu ambiente, e o mimo que recebe é a sua recompensa . Sentar é um estado , assim como apertar as mãos. A transição de sentar para apertar as mãos pode ser considerada uma ação .

Sua linguagem corporal e entonação desencadeiam a ação (ou, neste contexto, a reação). O método de selecionar uma ação com base no estado que o ajudará a obter o melhor resultado é chamado de política .

Sempre que Charlie faz a ação desejada e passa de um estado (sentado) para outro (aperto de mão), ele recebe um presente. Como Charlie é um bom menino, não o punimos se ele se comportar mal. Em vez de uma penalidade ou punição, ele não receberá uma recompensa se não realizar a ação desejada, o que é algo mais próximo de uma penalidade.

Isso é muito semelhante a como um agente aprende no aprendizado por reforço.

Aprendizagem por reforço em jogos

Os jogos e o aprendizado por reforço compartilham uma longa história. Os jogos são os domínios ideais e desafiadores para testar algoritmos de aprendizado por reforço.

Todos nós já jogamos videogame ou computador em algum momento de nossas vidas. Poderia ter sido um dos jogos Atari de 8 bits, um jogo de console como Halo ou um jogo de tabuleiro como xadrez.

Independentemente do jogo que você jogou, pode ter levado algumas tentativas para entender as regras antes de finalmente ganhar um jogo. Resumindo, leva tempo, estratégia e prática para se tornar um profissional. E, claro, há motivação na forma de pontos ou recompensas no jogo. Você recebe uma recompensa positiva ao concluir uma missão. Você marca pontos negativos se cair de um penhasco ou for preso porque seu nível de procurado é maior do que deveria.

Independentemente da complexidade do jogo, os conceitos acima permanecem universais. Se o seu comportamento no jogo estiver de acordo com as instruções do jogo, você ganhará pontos e vencerá. Caso contrário, você perderá pontos e falhará. As mesmas regras se aplicam ao aprendizado por reforço.

Vamos dar uma olhada em como você pode ensinar uma máquina a jogar.

O cérebro humano pode reconhecer naturalmente o propósito de um jogo, mas é difícil para as máquinas. Você pode aplicar o aprendizado supervisionado para ensinar máquinas, mas isso requer dados de treinamento de jogadores humanos anteriores. Como nosso conjunto de habilidades acabará se estabilizando, isso significa que o agente RL nunca poderia ficar “melhor” do que um humano.

No aprendizado por reforço, não há conjunto de dados de treinamento nem valor de saída. O agente pode naturalmente competir, falhar e aprender com seus erros com base em valores de recompensa e valores de penalidade. Tomemos como exemplo o jogo Pong.

 

O objetivo do Pong é rebater a bola com a raquete para que ela fique atrás do adversário. Inicialmente, o agente não entenderá isso e falhará inúmeras vezes. Mas em algum momento ele fará um movimento correto e será reforçado positivamente para repetir a ação.

Depois de vários jogos Pong, o agente de aprendizado por reforço deve ter uma compreensão geral da probabilidade de mover PARA CIMA com sucesso versus a probabilidade de mover PARA BAIXO . Essas ações são reforçadas até que a recompensa total seja maximizada. Em termos de Pong, isso significa vencer o jogo sem que seu oponente ganhe um único ponto.

Aprendizagem por reforço e AlphaGo

AlphaGo  é o padrão ouro de aprendizado de reforço avançado em jogos. Desenvolvido pela DeepMind, este programa de computador de aprendizado profundo se tornou o melhor jogador de Go do mundo ao derrotar Ke Jie, um dos melhores jogadores de Go do mundo.

Aqui está uma rápida olhada em como AlphaGo se tornou o campeão mundial:

  • O AlphaGo, como qualquer agente de aprendizado, começou com conhecimento zero do jogo.
  • Em seguida, foi fornecida a estrutura e estratégia básicas do jogo usando milhares de exemplos de jogadores amadores e profissionais.
  • Ele alcançou um alto nível de habilidade em três dias e os testadores começaram a jogar o programa contra si mesmo.
  • Isso levou a iteração constante, reforço e emparelhamento com algoritmos de busca.
  • O AlphaGo logo se tornou uma versão diferente e mais avançada de si mesmo – Fan, Lee, Master e, finalmente, Zero.
  • AlphaGo Master competiu contra o melhor jogador humano, 18 vezes campeão mundial Ke Jie.

Em apenas 40 dias de autotreinamento, o AlphaGo Zero superou o AlphaGo Master e alcançou uma classificação Elo acima de 5.000, que é essencialmente um nível sobre-humano.

Processo de decisão de Markov: Representando RL matematicamente

O processo de decisão de Markov (MDP) é como os problemas de aprendizado por reforço são representados matematicamente. É usado para formalizar problemas de RL e, se o ambiente for totalmente observável, pode ser modelado usando MDP.

No MDP, os seguintes parâmetros são usados ​​para obter uma solução para um problema de aprendizado por reforço:

  • Conjunto de estados possíveis – S
  • Conjunto de modelos
  • Conjunto de ações possíveis – A
  • Recompensa – R
  • Política
  • Valor – V

O estado do agente pode ser representado pelo estado de Markov. O estado de Markov segue a propriedade de Markov , o que significa que o estado futuro é independente do passado e só pode ser definido com o presente.

Suponha que o agente RL esteja em um ambiente de labirinto composto por quatro linhas e quatro colunas, o que perfaz um total de 16 blocos. Se o agente estiver em um determinado bloco e seus dois blocos adjacentes tiverem o mesmo valor atribuído (não confundir com recompensa), será difícil para o agente escolher entre eles.

Em tais situações, a equação de Bellman é usada. É um componente crítico do aprendizado por reforço e ajuda na resolução do MDP. Resolver significa encontrar as funções ótimas de política e valor.

Os elementos-chave da equação de Bellman são:

  • Ação
  • Estado
  • Recompensa
  • Factor de desconto

A equação de Bellman também está associada à programação dinâmica. É usado para calcular os valores de um problema de decisão em um determinado ponto, considerando os valores dos estados anteriores. Com a equação, você pode dividir problemas complexos em subproblemas mais simples e recursivos e encontrar soluções ideais.

Abordagens para implementar o aprendizado por reforço

Geralmente, existem três maneiras de implementar um algoritmo de aprendizado por reforço: baseado em valor , baseado em política ou baseado em modelo . Essas abordagens determinam como o agente agirá e interagirá com o ambiente.

Baseado em valor

Essa abordagem trata de encontrar a função de valor ideal, que é essencialmente o valor máximo em um estado sob qualquer política.

Baseado em políticas

Nessa abordagem, o agente tenta desenvolver uma política para que a ação executada em cada estado ajude a maximizar a recompensa futura.

A abordagem baseada em políticas pode ser dividida em duas:

  • Determinístico: Nesta subdivisão, a mesma ação é produzida pela política em qualquer estado.
  • Estocástico: Aqui, a probabilidade determina a ação produzida.

baseado em modelo

Nessa abordagem, um modelo virtual é criado para cada ambiente e o agente o explora para aprender. Como a representação do modelo é diferente para cada ambiente, não existe um algoritmo ou solução de RL específico para essa abordagem.

Algoritmos de aprendizado por reforço

Os algoritmos de aprendizado por reforço podem ser classificados em dois: algoritmos RL sem modelo e algoritmos RL baseados em modelo . Q-learning e deep Q learning são exemplos de algoritmos RL sem modelo.

Q-learning

Q-learning é um método de RL baseado em valor para fornecer informações. É usado para aprendizado de diferença temporal e determina o quão boa é uma ação em um determinado estado. O Q-learning é um aprendiz fora da política, o que significa que o agente aprenderá a função de valor com base na ação derivada de outra política.

O que é aprendizado por diferença temporal?

O aprendizado de diferença temporal é uma abordagem para prever uma quantidade que depende dos valores futuros de um sinal específico.

Q-learning começa com a inicialização do Q-table. Em seguida, o agente seleciona uma ação e a executa. A recompensa pela ação é medida e, em seguida, a tabela Q é atualizada. Uma Q-table é uma tabela ou matriz criada durante o Q-learning. Após cada ação, a tabela é atualizada.

No Q-learning, o objetivo do agente é maximizar o valor de Q. Nesse método, o agente se esforça para encontrar a melhor ação a ser tomada em um determinado estado. O Q significa qualidade, que indica a qualidade da ação realizada pelo agente.

Método Monte Carlo

O método Monte Carlo (MC) é uma das melhores maneiras de um agente obter a melhor apólice para obter a maior recompensa cumulativa. Este método pode ser usado apenas em tarefas episódicas , que são tarefas com um fim definido.

No método MC, o agente aprende diretamente com os episódios de experiência. Isso também significa que o agente inicialmente não tem ideia de qual ação leva à maior recompensa, então as ações são escolhidas aleatoriamente. Depois de selecionar várias políticas aleatórias, o agente ficará ciente das políticas que levam às maiores recompensas e melhorará na escolha de políticas.

MOLHO

Estado-ação-recompensa-estado-ação (SARSA) é um método de aprendizagem de diferenças temporais dentro da política. Isso significa que ele aprende a função de valor com base na ação atual derivada da política usada atualmente.

O SARSA reflete o fato de que a função principal usada para atualizar o valor Q depende do estado atual do agente ( S ), da ação escolhida ( A ), da recompensa que recebe pela ação ( R ), do estado em que o agente entra após realizar a ação ( S ) e a ação que ele executa no novo estado ( A ).

Rede neural Q profunda

Deep Q neural network (DQN) é Q-learning com a ajuda de redes neurais. É ideal quando os espaços de estado e ação são significativos, pois definir uma Q-table será uma tarefa complexa e demorada. Em vez de uma tabela Q, as redes neurais determinam os valores Q para cada ação com base no estado.

Aplicações do aprendizado por reforço

O aprendizado por reforço é usado para ensinar sistemas de IA a jogar. E eles estão ficando melhores nisso exponencialmente. Além disso, é usado em finanças para avaliar estratégias de negociação e também pode ser usado em química para otimizar reações químicas. As empresas também podem usar o aprendizado de reforço profundo para ensinar os robôs a escolher e colocar mercadorias corretamente.

Aqui estão mais aplicações adicionais de RL:

  • Planejamento de estratégia de negócios
  • Controle de aeronaves e controle de movimento de robôs
  • Automação industrial
  • Processamento de dados
  • PNL aumentada
  • Sistemas de recomendação
  • Lances e publicidade
  • Controle de semáforo

Desafios com o aprendizado por reforço

O aprendizado por reforço é um tipo poderoso de aprendizado de máquina. No entanto, também tem alguns desafios relacionados.

Primeiro, o aprendizado por reforço ocorre em um ambiente de retorno atrasado. Se a tarefa em questão for complexa, mais tempo levará para o agente aprender e obter o máximo de recompensas.

Por exemplo, um agente pode levar algumas horas para aprender o jogo Pong, mas o AlphaZero levou 40 dias e milhões de jogos para dominar o Go. Embora ainda seja uma conquista notável, parece uma curva de aprendizado lenta quando se olha para aplicações do mundo real, como a robótica.

Dimensionar ou ajustar as redes neurais que controlam o agente também é um grande desafio. Não há outro meio de comunicação com o agente além das recompensas e penalidades. Isso também significa que o agente pode encontrar uma maneira de maximizar as recompensas sem realmente completar a missão designada.

É hora do jogo para os robôs

Os humanos adoram recompensas. A gamificação é a maneira mais fácil de nos tentar a concluir uma tarefa sem nos sentirmos desmotivados. É por isso que praticar um esporte parece mais divertido do que malhar em uma academia.

O aprendizado por reforço está atraindo agentes de IA para tomar as decisões certas em troca de recompensas. Ainda não ouvimos o que os robôs pensam sobre a gamificação, mas esperamos que gostem.

Alguns dizem que é a última invenção de que precisaremos. Alguns acham que é uma meta inatingível. Chama-se  inteligência artificial geral  e, na verdade, seria nossa maior invenção ou a maior ameaça de todos os tempos.

Agora é a hora de colocar a mão na massa e começar a fazer renda extra como afiliado, trabalhando nas horas vagas ou fazendo disso a sua principal fonte de renda. Clique neste link e assista ao novo curso GRÁTIS em vídeo: Como ser afiliado e vender na Internet, onde você vai saber como sair do seu emprego atual e trabalhar em casa, sem precisar investir, sem precisar aparecer ou até trabalhar apenas nas suas horas vagas.    

 

Avalie este post

Você vai gostar também:

Para enviar seu comentário, preencha os campos abaixo:

Deixe um comentário


*


*


Seja o primeiro a comentar!