Você pode pensar no aprendizado supervisionado como um professor supervisionando todo o processo de aprendizado.
É uma das formas mais comuns de aprendizagem das máquinas e é uma ferramenta inestimável no campo da inteligência artificial . Esse processo de aprendizado é comparável a uma relação aluno-professor, embora as máquinas não sejam tão teimosas quanto os humanos.
Se você acabou de entrar no mundo da inteligência artificial, o aprendizado supervisionado pode não ser um termo que você tenha encontrado anteriormente. Resumindo, é uma estratégia de aprendizado de máquina que permite que os sistemas de IA aprendam e progridam.
O que é aprendizagem supervisionada?
O aprendizado supervisionado é uma subcategoria do aprendizado de máquina que usa conjuntos de dados rotulados para treinar algoritmos. É uma abordagem de aprendizado de máquina na qual o programa recebe dados de entrada rotulados junto com os resultados de saída esperados.
Simplificando, os algoritmos de aprendizado supervisionado são projetados para aprender pelo exemplo. Esses exemplos são chamados de dados de treinamento e cada exemplo é um par de um objeto de entrada e o valor de saída desejado. O par de dados de entrada e saída alimentados no sistema é geralmente referido como dados rotulados .
Ao alimentar dados rotulados, você mostra a uma máquina as conexões entre diferentes variáveis e resultados conhecidos. Com o aprendizado supervisionado, o sistema de IA é informado explicitamente sobre o que procurar nos dados de entrada fornecidos. Isso permite que os algoritmos melhorem periodicamente e criem modelos de aprendizado de máquina que podem prever resultados ou classificar dados com precisão quando apresentados a dados desconhecidos.
Geralmente, três conjuntos de dados são usados em diferentes estágios do processo de criação do modelo:
- Conjunto de dados de treinamento: os dados de amostra usados para treinar o modelo. Em outras palavras, é um conjunto de exemplos de treinamento usados para ajustar os parâmetros do modelo.
- Conjunto de dados de validação: os dados de amostra usados para fornecer uma avaliação imparcial de um ajuste de modelo no conjunto de dados de treinamento
- Conjunto de dados de teste: os dados de amostra usados para fornecer uma avaliação imparcial de um ajuste de modelo final no conjunto de dados de treinamento
O ajuste do modelo refere-se à medida de quão bem o modelo generaliza para dados semelhantes àqueles nos quais foi treinado. Um modelo bem ajustado produz resultados precisos; um modelo superajustado combina muito com os dados; um modelo subajustado não corresponde aos dados de forma suficientemente próxima.
Como funciona o aprendizado supervisionado?
O treinamento desempenha um papel fundamental no aprendizado supervisionado. Durante a fase de treinamento, o sistema de IA é alimentado com grandes volumes de dados de treinamento rotulados. Conforme mencionado anteriormente, os dados de treinamento instrui o sistema sobre como deve ser a saída desejada a partir de cada valor de entrada distinto.
O modelo treinado recebe então os dados de teste . Isso permite que os cientistas de dados determinem a eficácia do treinamento e a precisão do modelo. A precisão de um modelo depende do tamanho e da qualidade do conjunto de dados de treinamento e do algoritmo usado.
No entanto, alta precisão nem sempre é uma coisa boa. Por exemplo, alta precisão pode significar que o modelo está sofrendo de overfitting– um erro de modelagem ou a otimização incorreta de um modelo quando ele fica excessivamente ajustado ao seu conjunto de dados de treinamento e pode até resultar em falsos positivos.
Nesse caso, o modelo pode funcionar notavelmente bem em cenários de teste, mas pode falhar em fornecer resultados corretos em circunstâncias do mundo real. Para erradicar as chances de overfitting, certifique-se de que os dados de teste sejam totalmente diferentes dos dados de treinamento. Além disso, verifique se o modelo não extrai respostas de sua experiência anterior.
Os exemplos de treinamento também devem ser diversos. Caso contrário, diante de casos inéditos, o modelo não funcionará.
No contexto da ciência de dados e da mineração de dados (o processo de transformar dados brutos em informações úteis), o aprendizado supervisionado pode ser dividido em dois tipos: classificação e regressão .
Um algoritmo de classificação tenta determinar a categoria ou classe dos dados com os quais é apresentado. Classificação de spam de e-mail, visão computacional e classificação de drogas são alguns dos exemplos comuns de problemas de classificação.
Por outro lado, os algoritmos de regressão tentam prever o valor de saída com base nas características de entrada dos dados fornecidos. Prever as taxas de cliques de anúncios digitais e prever o preço de uma casa com base em seus recursos são alguns dos problemas comuns de regressão.
Aprendizagem supervisionada vs. não supervisionada vs. aprendizagem semi-supervisionada
Uma das melhores maneiras de entender a diferença entre aprendizado supervisionado e não supervisionado é observar como você aprenderia a jogar um jogo de tabuleiro – digamos xadrez.
Uma opção é contratar um professor de xadrez. Um tutor irá ensiná-lo a jogar xadrez, explicando-lhe as regras básicas, o que cada peça de xadrez faz e muito mais. Depois de conhecer as regras do jogo e o alcance de cada peça, você pode ir em frente e praticar jogando contra o tutor.
O tutor supervisionaria seus movimentos e o corrigiria sempre que você cometesse erros. Depois de reunir conhecimento e prática suficientes, você pode começar a jogar competitivamente contra outros.
Este processo de aprendizado é comparável ao aprendizado supervisionado . No aprendizado supervisionado, um cientista de dados atua como um tutor e treina a máquina alimentando as regras básicas e a estratégia geral.
Se você não quiser contratar um tutor, ainda pode aprender o jogo de xadrez. Uma maneira é observar outras pessoas jogando. Você provavelmente não pode fazer perguntas, mas pode assistir e aprender como jogar.
Apesar de não saber os nomes de cada peça de xadrez, você pode aprender como cada peça se move observando o jogo. Quanto mais jogos você assiste, melhor você entende e mais conhecedor você se torna sobre as diferentes estratégias que pode adotar para vencer.
Esse processo de aprendizado é semelhante ao aprendizado não supervisionado . O cientista de dados permite que a máquina aprenda observando. Embora a máquina não conheça os nomes ou rótulos específicos, ela será capaz de encontrar padrões por conta própria.
Simplificando, o aprendizado não supervisionado é quando um algoritmo recebe um conjunto de dados de treinamento que contém apenas os dados de entrada e nenhum dado de saída correspondente.
Como você pode ver, ambos os métodos de aprendizado têm pontos fortes e fracos notáveis.
Para aprendizado supervisionado, você precisa de um tutor experiente que possa ensinar à máquina as regras e a estratégia. No exemplo do xadrez, isso significa que você precisa de um tutor para aprender o jogo. Caso contrário, você pode acabar aprendendo o jogo de forma errada.
No caso de aprendizado não supervisionado, você precisa de grandes volumes de dados para a máquina observar e aprender. Embora os dados não rotulados sejam baratos (e abundantes) e fáceis de coletar e armazenar, eles devem ser desprovidos de dados duplicados ou inúteis. Dados defeituosos ou incompletos também podem resultar em viés de aprendizado de máquina– um fenômeno no qual os algoritmos produzem resultados discriminatórios.
No exemplo do xadrez, se você está aprendendo observando outros jogadores, isso significa que você precisa assistir dezenas de jogos antes de entender. Além disso, se você estiver observando jogadores que jogam incorretamente, pode acabar fazendo o mesmo.
Depois, há o aprendizado semi-supervisionado .
Como você deve ter adivinhado, o aprendizado semissupervisionado é uma mistura de aprendizado supervisionado e não supervisionado. Nesse processo de aprendizado, um cientista de dados treina um pouco a máquina para que ela obtenha uma visão geral de alto nível. A máquina então aprende as regras e a estratégia observando padrões. Uma pequena porcentagem dos dados de treinamento será rotulada e o restante não será rotulado.
No exemplo de aprender xadrez, o aprendizado semi-supervisionado seria semelhante a um tutor explicando apenas o básico para você e permitindo que você aprenda jogando competitivamente.
Outro processo de aprendizagem é o aprendizado por reforço (RL) . É uma estratégia de aprendizado de máquina na qual um sistema de IA enfrenta uma situação semelhante a um jogo. Para ensinar a IA, um programador usa uma técnica de recompensa-penalidade, na qual o sistema deve se concentrar em tomar ações adequadas para maximizar a recompensa e evitar penalidades.
Algoritmos de aprendizado supervisionado
Numerosas técnicas de computação e algoritmos são usados no processo de aprendizado supervisionado.
Ao escolher um algoritmo de aprendizado de máquina supervisionado, os seguintes fatores são geralmente considerados:
- A complexidade do modelo que o sistema está tentando aprender
- Viés e variação que existe dentro do algoritmo
- Tamanho dos dados de treinamento
- Precisão, heterogeneidade, redundância e linearidade dos dados
- Tempo disponível para treinar
Aqui estão alguns dos algoritmos comuns de aprendizado de máquina supervisionado que você encontrará.
Regressão linear
A regressão linear é tanto um algoritmo estatístico quanto um algoritmo de aprendizado de máquina . É um algoritmo que tenta modelar a relação entre duas variáveis anexando uma equação linear aos dados observados. Das duas variáveis, uma é considerada variável explicativa e a outra variável dependente.
A regressão linear também pode ser usada para identificar a relação entre uma variável dependente e uma ou mais variáveis independentes. No domínio do aprendizado de máquina, a regressão linear é usada para fazer previsões.
regressão logística
A regressão logística é um modelo matemático usado para estimar a probabilidade de um evento com base nos dados anteriores fornecidos. Pontuação de crédito e detecção de fraude em transações online são algumas das aplicações do mundo real desse algoritmo. Em outras palavras, é um algoritmo de análise preditiva baseado nos conceitos de probabilidade usados para resolver problemas de classificação binária.
Assim como a regressão logística, a regressão linear também foi emprestada do campo da estatística. No entanto, ao contrário da regressão linear que trabalha com variáveis dependentes contínuas, a regressão logística trabalha com dados binários, como “verdadeiro” ou “falso”.
Redes neurais
As redes neurais artificiais (ANNs) são usadas principalmente por algoritmos de aprendizado profundo . São uma série de algoritmos que imitam as funções do cérebro humano para reconhecer relações entre grandes volumes de dados. Como você deve ter adivinhado, as RNAs são críticas para sistemas de inteligência artificial.
As redes neurais são formadas por camadas de vários nós. Cada nó consiste em entradas, pesos, viés e saídas. Uma RNA é treinada ajustando os pesos de entrada com base no desempenho da rede. Por exemplo, se a rede neural classificar uma imagem corretamente, os pesos que contribuem para a resposta correta são aumentados enquanto outros pesos são diminuídos.
Baías ingénuas
Naive Bayes é um método de classificação baseado no princípio de independência condicional de classe do Teorema de Bayes . Em termos mais simples, a abordagem do classificador Naive Bayes assume que a presença de um recurso específico em uma classe não afeta a presença de nenhum outro recurso.
Por exemplo, uma fruta pode ser considerada uma maçã se for de cor vermelha, redonda e tiver aproximadamente sete centímetros de diâmetro. Mesmo que essas características dependam umas das outras, todas essas propriedades contribuem individualmente para a probabilidade de que a própria fruta seja uma maçã.
O modelo Naive Bayes é útil ao lidar com grandes conjuntos de dados. É fácil de construir, rápido e é conhecido por ter um desempenho ainda melhor do que os métodos de classificação avançados.
Máquina de vetores de suporte (SVM)
Support vector machine (SVM) é um conhecido algoritmo de aprendizado de máquina supervisionado desenvolvido por Vladimir Vapnik. Apesar de serem usados predominantemente para problemas de classificação, os SVMs também podem ser usados para regressão.
Os SVMs são construídos com base na ideia de encontrar um hiperplano que melhor divida um determinado conjunto de dados em duas classes. Tal hiperplano é referido como um limite de decisão e separa os pontos de dados em ambos os lados. Detecção de face, categorização de texto, classificação de imagem são algumas das muitas aplicações do mundo real do SVM.
K-vizinhos mais próximos (KNN)
O algoritmo K-vizinhos mais próximos (KNN) é um algoritmo de aprendizado de máquina supervisionado usado para resolver problemas de regressão e classificação. É um algoritmo que agrupa pontos de dados com base em sua proximidade e relacionamento com outros dados.
É fácil de entender, simples de implementar e tem um tempo de cálculo baixo. No entanto, o algoritmo torna-se notavelmente lento à medida que o tamanho dos dados em uso aumenta. KNN é geralmente usado para sistemas de recomendação e reconhecimento de imagem .
floresta aleatória
A floresta aleatória é um método de aprendizado que consiste em um grande número de árvores de decisão operando como um conjunto (o uso de vários algoritmos de aprendizado para obter melhor desempenho preditivo). Cada árvore de decisão fornece uma predição de classe e a classe com os votos mais altos torna-se a predição do modelo.
O algoritmo de floresta aleatória é amplamente utilizado no mercado de ações, bancos e área médica. Por exemplo, pode ser usado para identificar clientes com maior probabilidade de pagar suas dívidas no prazo.
Exemplos de aprendizado supervisionado
Como mencionado anteriormente, prever os preços das casas, as taxas de cliques de anúncios on-line e até mesmo a disposição do cliente de pagar por um determinado produto são alguns dos exemplos notáveis de modelos de aprendizado supervisionado.
Aqui estão mais alguns exemplos que você pode encontrar na vida diária.
- Análise de sentimento : uma técnica de processamento de linguagem natural usada para determinar o sentimento do produto e entender as necessidades do cliente
- Reconhecimento de imagem: uma técnica usada para localizar, identificar e categorizar objetos em vídeos e imagens
- Detecção de spam: o método de classificação de conteúdo de spam e não spam, reconhecendo padrões e anomalias nos dados
Ensinar máquinas a pensar
Ao aproveitar os dados rotulados, os algoritmos de aprendizado supervisionado podem criar modelos que podem classificar big data com facilidade e até mesmo fazer previsões sobre resultados futuros. É uma técnica de aprendizado brilhante que introduz as máquinas no mundo humano.
Deixe um comentário