Aprendizado não supervisionado: como as máquinas aprendem por conta própria

Tempo de leitura: 14 min

Escrito por Jadilson Barros
em abril 8, 2023

Aprendizado não supervisionadoO aprendizado não supervisionado permite que as máquinas aprendam por conta própria.

Esse tipo de aprendizado de máquina (ML) concede aos aplicativos de IA a capacidade de aprender e encontrar padrões ocultos em grandes conjuntos de dados sem supervisão humana. O aprendizado não supervisionado também é crucial para alcançar a inteligência geral artificial .

A rotulagem de dados é trabalhosa e demorada e, em muitos casos, impraticável. É aí que o aprendizado não supervisionado traz uma grande diferença ao conceder aos aplicativos de IA a capacidade de aprender sem rótulos e supervisão.

O que é aprendizagem não supervisionada?

O aprendizado não supervisionado (UL) é uma técnica de aprendizado de máquina usada para identificar padrões em conjuntos de dados contendo pontos de dados não classificados e não rotulados. Nesse método de aprendizado, um sistema de IA recebe apenas os dados de entrada e nenhum dado de saída correspondente.

Ao contrário  do aprendizado supervisionado , o aprendizado de máquina não supervisionado não requer que um humano supervisione o modelo.

O cientista de dados permite que a máquina aprenda observando dados e encontrando padrões por conta própria. Em outras palavras, esta subcategoria de aprendizado de máquina permite que um sistema atue sobre as informações fornecidas sem qualquer orientação externa.

Técnicas de aprendizagem não supervisionadas são críticas para a criação de sistemas de inteligência artificial com inteligência humana. Isso porque as máquinas inteligentes devem ser capazes de tomar decisões (independentes) analisando grandes volumes de dados não marcados.

Em comparação com os algoritmos de aprendizado supervisionado, os algoritmos UL são mais hábeis na execução de tarefas complexas. No entanto, os modelos de aprendizado supervisionado produzem resultados mais precisos, pois um tutor diz explicitamente ao sistema o que procurar nos dados fornecidos. Mas no caso de aprendizado não supervisionado, as coisas podem ser bastante imprevisíveis.

As redes neurais artificiais, que tornam o aprendizado profundo uma realidade, podem parecer apoiadas pelo aprendizado não supervisionado. Embora seja verdade, os algoritmos de aprendizado das redes neurais também podem ser supervisionados se a saída desejada já for conhecida.

O aprendizado não supervisionado pode ser um objetivo em si. Por exemplo, os modelos UL podem ser usados ​​para encontrar padrões ocultos em grandes volumes de dados e até mesmo para classificar e rotular pontos de dados. O agrupamento de pontos de dados não classificados é realizado identificando suas semelhanças e diferenças.

Algumas razões pelas quais o aprendizado não supervisionado é essencial.

  • Dados não rotulados estão em abundância.
  • Rotular dados é uma tarefa tediosa que requer trabalho humano. No entanto, o próprio processo pode ser alimentado por ML, tornando a rotulagem mais fácil para os humanos envolvidos.
  • É útil para explorar dados desconhecidos e brutos.
  • É útil para realizar o reconhecimento de padrões em grandes conjuntos de dados.

O aprendizado não supervisionado pode ser dividido em duas categorias: aprendizado não supervisionado paramétrico e aprendizado não supervisionado não paramétrico .

Como funciona o aprendizado não supervisionado

Simplificando, o aprendizado não supervisionado funciona analisando dados não categorizados e não rotulados e encontrando estruturas ocultas neles.

No aprendizado supervisionado, um cientista de dados alimenta o sistema com dados rotulados, por exemplo, as imagens de gatos rotulados como gatos, permitindo que ele aprenda pelo exemplo. No aprendizado não supervisionado, um cientista de dados fornece apenas as fotos, e é responsabilidade do sistema analisar os dados e concluir se são imagens de gatos.

O aprendizado de máquina não supervisionado requer grandes volumes de dados. Na maioria dos casos, o mesmo se aplica ao aprendizado supervisionado, pois o modelo se torna mais preciso com mais exemplos.

O processo de aprendizado não supervisionado começa com os cientistas de dados treinando os algoritmos usando os conjuntos de dados de treinamento. Os pontos de dados nesses conjuntos de dados não são rotulados nem categorizados.

O objetivo de aprendizado do algoritmo é identificar padrões dentro do conjunto de dados e categorizar os pontos de dados com base nos mesmos padrões identificados. No exemplo de imagens de gatos, o algoritmo de aprendizado não supervisionado pode aprender a identificar as características distintas dos gatos, como bigodes, caudas longas e garras retráteis.

Se você pensar bem, o aprendizado não supervisionado é como aprendemos a identificar e categorizar as coisas. Suponha que você nunca provou ketchup ou molho de pimenta. Se você receber duas garrafas “sem rótulo” de ketchup e molho de pimenta e pedir para prová-las, poderá diferenciar entre seus sabores. 

Também será capaz de identificar as peculiaridades de ambos os molhos (um azedo e outro picante), mesmo que não saiba o nome de nenhum deles. Provar cada um mais algumas vezes o deixará mais familiarizado com o sabor. Em breve, você poderá agrupar pratos com base no molho adicionado apenas saboreando-os.

Ao analisar o sabor, é possível encontrar características específicas que diferenciam os dois molhos e os pratos do grupo. Você não precisa saber o nome dos molhos ou dos pratos para categorizá-los. Você pode até acabar chamando um de molho doce e outro de molho picante .

Isso é semelhante a como as máquinas identificam padrões e classificam pontos de dados com a ajuda do aprendizado não supervisionado. No mesmo exemplo, o aprendizado supervisionado seria alguém dizendo a você os nomes de ambos os molhos e como eles provam de antemão.

Tipos de aprendizado não supervisionado

Os problemas de aprendizado não supervisionado podem ser classificados em problemas de agrupamento e associação .

Agrupamento

Clustering ou análise de cluster é o processo de agrupar objetos em clusters. Os itens com mais semelhanças são agrupados, enquanto o restante se enquadra em outros clusters. Um exemplo de agrupamento seria agrupar usuários do YouTube com base em seu histórico de exibição.

Dependendo de como eles funcionam, o clustering pode ser categorizado em quatro grupos da seguinte forma:

Clustering exclusivo: como o nome sugere, o clustering exclusivo especifica que um ponto de dados ou objeto pode existir apenas em um cluster.

Agrupamento hierárquico: Hierárquico tenta criar uma hierarquia de agrupamentos. Existem dois tipos de agrupamento hierárquico: aglomerativo e divisivo . Agglomerative segue a abordagem de baixo para cima, inicialmente trata cada ponto de dados como um cluster individual e os pares de clusters são mesclados à medida que sobem na hierarquia. Divisivo é exatamente o oposto de aglomerativo. Cada ponto de dados começa em um único cluster e é dividido à medida que desce na hierarquia.

Clusterização sobreposta: a sobreposição permite que um ponto de dados seja agrupado em dois ou mais clusters.

Agrupamento probabilístico: o probabilístico usa distribuições de probabilidade para criar agrupamentos. Por exemplo, “meias verdes”, “meias azuis”, “camiseta verde” e “camiseta azul” podem ser agrupadas em duas categorias “verde” e “azul” ou “meias” e “camiseta “.

Associação

O aprendizado de regra de associação (ARL) é um método de aprendizado não supervisionado usado para encontrar relações entre variáveis ​​em grandes bancos de dados. Ao contrário de alguns algoritmos de aprendizado de máquina, o ARL é capaz de lidar com pontos de dados não numéricos.

Em um sentido mais simples, ARL trata de descobrir como certas variáveis ​​estão associadas umas às outras. Por exemplo, as pessoas que compram uma motocicleta têm maior probabilidade de comprar um capacete.

Encontrar tais relações pode ser lucrativo. Por exemplo, se os clientes que compram o Produto X tendem a comprar o Produto Y, um varejista on-line pode recomendar o Produto Y para qualquer pessoa que compre o Produto X.

O aprendizado de regras de associação usa instruções if/then em seu núcleo. Essas declarações podem revelar associações entre dados independentes. Além disso, os padrões ou relacionamentos se/então são observados usando suporte e confiança .

O suporte especifica com que frequência o relacionamento se/então aparece no banco de dados. A confiança define o número de vezes que o relacionamento se/então foi considerado válido.

A análise de cesta de mercado  e a mineração de uso da web são possíveis com a regra de associação.

Algoritmos de aprendizado não supervisionado

Tanto o agrupamento quanto o aprendizado de regras de associação são implementados com a ajuda de algoritmos.

Algoritmo apriori, algoritmo ECLAT e algoritmo de crescimento de padrão frequente (FP) são alguns dos algoritmos notáveis ​​usados ​​para implementar a regra de associação. O clustering é possível por meio de algoritmos como o clustering k-means e a análise de componentes principais (PCA).

algoritmo a priori

O algoritmo Apriori é construído para mineração de dados. É útil para minerar bancos de dados contendo um grande número de transações, por exemplo, um banco de dados contendo a lista de itens comprados por compradores em um supermercado. É usado para identificar os efeitos nocivos das drogas e na análise da cesta de compras para encontrar o conjunto de itens que os clientes têm maior probabilidade de comprar juntos.

Algoritmo ECLAT

Equivalence Class Clustering e bottom-up Lattice Traversal , ou ECLAT para abreviar, é um algoritmo de mineração de dados usado para obter a mineração de conjuntos de itens e encontrar itens frequentes.

O algoritmo a priori usa o formato de dados horizontal e, portanto, precisa verificar o banco de dados várias vezes para identificar itens frequentes. Por outro lado, ECLAT segue uma abordagem vertical e geralmente é mais rápida, pois precisa escanear o banco de dados apenas uma vez.

Algoritmo de crescimento de padrão frequente (FP)

algoritmo de crescimento de padrão frequente (FP) é uma versão melhorada do algoritmo Apriori. Esse algoritmo representa o banco de dados na forma de uma estrutura de árvore conhecida como árvore ou padrão frequente .

Essa árvore frequente é usada para minerar os padrões mais frequentes. Enquanto o algoritmo Apriori precisa varrer o banco de dados n+1 vezes (onde n é o comprimento do modelo mais longo), o algoritmo FP-growth requer apenas duas varreduras.

agrupamento K-means

Muitas iterações do algoritmo k-means são amplamente usadas no campo da ciência de dados. Simplificando, o algoritmo de clustering k-means agrupa itens semelhantes em clusters. O número de clusters é representado por k . Portanto, se o valor de k for 3, haverá três clusters no total.

Esse método de agrupamento divide o conjunto de dados não rotulado de modo que cada ponto de dados pertença a apenas um único grupo com propriedades semelhantes. A chave é encontrar K centros chamados centróides de cluster .

Cada cluster terá um centróide de cluster e, ao ver um novo ponto de dados, o algoritmo determinará o cluster mais próximo ao qual o ponto de dados pertence com base em métricas como a distância euclidiana.

Análise de componentes principais (PCA)

análise de componentes principais (PCA) é um método de redução de dimensionalidade geralmente usado para reduzir a dimensionalidade de grandes conjuntos de dados. Ele faz isso convertendo um grande número de variáveis ​​em uma menor que contém quase todas as informações do grande conjunto de dados.

Reduzir o número de variáveis ​​pode afetar um pouco a precisão, mas pode ser uma troca aceitável pela simplicidade. Isso ocorre porque conjuntos de dados menores são mais fáceis de analisar e os algoritmos de aprendizado de máquina não precisam se esforçar muito para obter informações valiosas.

Aprendizado supervisionado x não supervisionado

A aprendizagem supervisionada é semelhante a ter um professor supervisionando todo o processo de aprendizagem. Há também um conjunto de dados de treinamento rotulado semelhante a ter as respostas corretas para cada problema que você está tentando resolver.

Fica mais fácil entender se sua resposta está correta ou não, e o professor também vai te corrigir quando você errar. No caso do aprendizado não supervisionado, não há professor ou respostas certas.

Do ponto de vista computacional, o aprendizado não supervisionado é mais complicado e demorado do que o aprendizado supervisionado. No entanto, é útil para mineração de dados e para obter informações sobre a estrutura dos dados antes de atribuir qualquer classificador (um algoritmo de aprendizado de máquina que classifica os dados automaticamente).

Apesar de ser útil quando os dados não rotulados são enormes, o aprendizado não supervisionado pode causar poucos inconvenientes aos cientistas de dados.

Como o conjunto de dados de validação usado no aprendizado supervisionado também é rotulado, é mais fácil para os cientistas de dados medir a precisão dos modelos. Mas o mesmo não é verdade para modelos de aprendizado não supervisionados.

Em muitos casos, o aprendizado não supervisionado é aplicado antes do aprendizado supervisionado. Isso ajuda a identificar recursos e criar classes.

O processo de aprendizado não supervisionado ocorre online, enquanto o aprendizado supervisionado ocorre offline. Isso permite que os algoritmos UL processem dados em tempo real. 

Enquanto os problemas de aprendizado não supervisionado são divididos em problemas de associação e agrupamento, o aprendizado supervisionado pode ser categorizado em regressão e classificação.

Além do aprendizado supervisionado e não supervisionado, há o aprendizado semissupervisionado e o aprendizado por reforço .

O aprendizado semissupervisionado é uma mistura de aprendizado supervisionado e não supervisionado. Nesta técnica de aprendizado de máquina, o sistema é treinado apenas um pouco para obter uma visão geral de alto nível. Uma fração dos dados de treinamento será rotulada e o restante não será rotulado.

No aprendizado por reforço (RL) , o sistema de inteligência artificial encontrará um ambiente de jogo no qual deve maximizar a recompensa. O sistema deve aprender seguindo o método de tentativa e erro e melhorar sua chance de ganhar a recompensa a cada passo.

Aqui está uma rápida olhada nas principais diferenças entre aprendizado supervisionado e não supervisionado.

Aprendizagem não supervisionada Aprendizagem supervisionada
É um processo complexo, requer mais recursos computacionais e é demorado. É relativamente simples e requer menos recursos computacionais.
O conjunto de dados de treinamento não tem rótulo. O conjunto de dados de treinamento é rotulado.
Menos preciso, mas não necessariamente Altamente acurado
Dividido em associação e agrupamento Dividido em regressão e classificação
É complicado medir a precisão do modelo juntamente com a incerteza. É mais fácil medir a precisão do modelo.
O número de classes é desconhecido. O número de classes é conhecido.
A aprendizagem ocorre em tempo real. A aprendizagem ocorre offline.
Apriori, ECLAT, agrupamento k-means e algoritmo de crescimento de padrão frequente (FP) são alguns dos algoritmos usados. Regressão linear, regressão logística, Naive Bayes e máquina de vetores de suporte (SVM) são alguns dos algoritmos utilizados.

Exemplos de aprendizado de máquina não supervisionado

Como mencionado anteriormente, o aprendizado não supervisionado pode ser um objetivo em si e pode ser usado para encontrar padrões ocultos em grandes volumes de dados – uma tarefa irreal para os humanos.

Algumas aplicações do mundo real de aprendizado de máquina não supervisionado.

  • Detecção de anomalias: é um processo de encontrar pontos de dados atípicos em conjuntos de dados e, portanto, útil para detectar atividades fraudulentas.
  • Visão computacional: Também conhecida como reconhecimento de imagem , essa façanha de identificar objetos em imagens é essencial para carros autônomos e até valiosa para o setor de saúde para segmentação de imagens.
  • Sistemas de recomendação: analisando dados históricos, algoritmos de aprendizado não supervisionados recomendam os produtos que um cliente provavelmente comprará.
  • Persona do cliente: o aprendizado não supervisionado pode ajudar as empresas a criar personas precisas do cliente, analisando dados sobre hábitos de compra.

Deixando os algoritmos por conta própria

A capacidade de aprender por conta própria torna o aprendizado não supervisionado a maneira mais rápida de analisar grandes volumes de dados.

Claro, escolher entre aprendizado supervisionado ou não supervisionado (ou mesmo semi-supervisionado) depende do problema que você está tentando resolver e do tempo e vastidão dos dados disponíveis. No entanto, o aprendizado não supervisionado pode tornar todo o seu esforço mais escalável.

Agora é a hora de colocar a mão na massa e começar a fazer renda extra como afiliado, trabalhando nas horas vagas ou fazendo disso a sua principal fonte de renda. Clique neste link e assista ao novo curso GRÁTIS em vídeo: Como ser afiliado e vender na Internet, onde você vai saber como sair do seu emprego atual e trabalhar em casa, sem precisar investir, sem precisar aparecer ou até trabalhar apenas nas suas horas vagas.    

 

 

Avalie este post

Você vai gostar também:

Para enviar seu comentário, preencha os campos abaixo:

Deixe um comentário


*


*


Seja o primeiro a comentar!