⛏️Introdução ao Data Mining: A Inteligência da Empresa


🇺🇸 View this post in English version
Bem Vindo(a)!
Por Felipe Lamounier, Minas Gerais, Brasil – powered by 🙂My Easy B.I.


Datamining, ou Mineração de Dados em nosso idioma, trata-se de um conjunto de técnicas reunidas da Estatística e da Inteligência Artificial (IA) com o objetivo específico de descobrir conhecimento novo que por ventura esteja escondido em grandes massas de dados.

Datamining são técnicas para descobrir conhecimento novo escondido em grandes massas de dados



📑 Índice:

  1. Datamining: A Inteligência da Empresa
  2. As Fases do Datamining na Empresa
    1. Identificação do Problema
    2. Descoberta de Conhecimento
    3. Análise das Relações Descobertas
    4. Uso das Relações Descobertas
    5. Avaliação dos Resultados
  3. A Metodologia do Datamining
    1. Descoberta Não-supervisionada de Relações
    2. Testagem de Hipótese
    3. Modelagem Matemática dos Dados
  4. As Técnicas do Datamining
    1. Classificação
    2. Estimativa
    3. Previsão
    4. Análise de Afinidade
    5. Análise de Agrupamentos
    6. Implementação de um Protocolo de Data Mining
  5. Inteligência Artificial
    1. A Metodologia da Inteligência Artificial
    2. Processamento de Linguagem Natural
    3. Sistemas Especialistas
    4. Planejamento
    5. Solução de Problemas
    6. Reconhecimento de Padrões
    7. Aprendizado de Máquina
  6. Ferramentas do Datamining
    1. Mapas Auto-Organizáveis no Datamining
    2. Redes Neurais de Aprendizado por Retropropagação de Erros
    3. Análise Estatística de Agrupamentos
      1. Medidas de Semelhança
    4. Aprendizado de Máquina
      1. O Conceito de Entropia
      2. A Construção de Árvores de Decisão
  7. Conclusão

🔭 Veja também Páginas:
🏠Home Page
💡Blog



Datamining: A Inteligência da Empresa

A mineração dos dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras

Definimos datamining como o uso de técnicas automáticas de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertas a olho nu pelo ser humano.

Os algoritmos e fórmulas que são bases para as técnicas do datamining são antigas, porém apenas nos últimos anos que passaram a ser usadas como exploração de dados, por vários motivos:

  • O volume de dados disponível é enorme atualmente: Datamining é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados conclusões confiáveis.
  • Os dados estão sendo organizados.
  • Os recursos computacionais são potentes: O datamining necessita de muitos recursos computacionais para operars seus algoritmos sobre grandes quantidades de dados. O avanço em bancos de dados distribuídos também auxiliou

As Fases do Datamining na Empresa

Datamining é transformar “bytes” em retorno empresarial $. As técnicas de mineração de dados fornecem meios de se descobrir relações interessantes, mas para que elas sejam realmente úteis, a empresa deve se dirigir como um todos para o seu uso, sendo proativo ao invés de reativa.


Identificação do Problema

A primeira fase do processo de Datamining, é a identificação do problema, ou seja, a definição de um objetivos a ser alcançado


Descoberta de Conhecimento

Segunda fase do processo de Datamining que é a descoberta de novas relações, não identificáveis a olho nu, mas que podem ser visualizadas com procedimentos mecânicos de Inteligência Artificial, através de uma análise sistemática e exaustiva sobre os milhares de registros de clientes nos bancos de dados da empresa.


Análise das Relações Descobertas

Terminada a fase do datamning relativa à descoberta de novas relações, inicia-se a fase de análise das relações descobertas. Geralmente esta fase depende do raciocínio humano para ser avaliada, porém, com a escalada do poder das Inteligências Artificiais, em alguns casos esta análise pode ocorrer de maneira automatizada.


Uso das Relações Descobertas

Concluída a fase de análise das relações descobertas, inicia-se a fase de uso das relações descobertas, na qual decisões são tomadas de forma a utilizar da melhor forma possível as relações fornecidas pela mineração de dados realizada.


Avaliação dos Resultados

A última fase do processo de datamining é a avaliação dos resultados, pois só após uma avaliação criteriosa podemos realmente afirmar que as causas do problema a ser resolvidos foram sanadas ou o objetivos da empresa alcançado.


Em resumo, as Fases são:

  1. Identificação de um problema ou definição de um objetivo a ser alcançado;
  2. Descoberta de novas relações por técnicas de datamining;
  3. Análise humana das novas relações descobertas;
  4. Uso racional das novas relações descobertas;
  5. Avaliação dos resultados.


A Metodologia do Datamining

A mineração de dados pode ser realizada de três diferentes formas, em função do nível de conhecimento que se tenha do problema estudado. Se nada se sabe sobre o comportamento do fenômeno, pode-se simplesmente deixar que as técnicas automáticas do datamining procurem nos dados relações “novas” escondidas e que a olho nu não se poderia localizar com facilidade. Chamamos esse método de descoberta não-supervisionada de relações. Quando se possui algum conhecimento sobre o campo de atuação da empresa ou alguma ideia sobre que relação nova se está buscando, pode-se definir uma hipótese e verificar sua confirmação ou refutação através da metodologia do datamining denominada testagem de hipótese. Finalmente, quando se tem um nível maior do conhecimento da área e da relação que se deseja estudar, procede-se com a metodologia de modelagem dos dados.


Descoberta Não-supervisionada de Relações

Quando não se dispõe de nenhum problema em específico a ser resolvido, deixar que os computadores vasculhem livremente seus bancos de dados, através de algoritmos de datamining. Este “vasculhar” é descompromissado com qualquer relação pré-determinada, representando apenas uma observação exaustiva sobre os dados de forma, quem sabe, a descobrir-se uma relação nova e útil. O descompromisso nesta busca de algo novo justifica o adjetivos “não-supervisionado” usado no nome da técnica. Cada vez que a técnica de descoberta não -supervisionada é utilizada, muitas relações “novas” surgem. Estas relações são impressas e um analista humano precisará se debruçar sobre elas para separar aquelas realmente interessantes daquelas inúteis.


Testagem de Hipótese

O indivíduo que analisa as relações descobertas pode levantar alguma hipótese associada a elas, por exemplo que, notando a preocupação dos consumidores de chocolate com sua estética e saúde, consumindo, assim, produtos dietéticos em quantidade razoável, pensa se não é também possível que estes consumidores se utilizem comumente de produtos de beleza. Para verificar se sua hipótese é verdadeira, lança mão da metodologia do datamining denominada testagem de hipóteses. O datamining conclui que realmente este grupo de consumidores investe razoavelmente em produtos de beleza. Pode-se, então, utilizar esta nova informação para se colocar a estante de produtos de beleza próxima da estante de chocolates e produtos dietéticos, aumentando as vendas, facilitando e lembrando ao consumidor os seus hábitos de consumo.


Modelagem Matemática dos Dados

Finalmente, o analista poderia desejar conhecer melhor este consumidor obtendo dados sobre seu nível econômico, pois seria interessante avaliar se esta consumidor possui condições de investir em chocolates finos, importados e mais caros, além dos nacionais já vendidos pelo supermercado. Para isto, o analista precisa utilizar a metodologia do datamining chamada de modelagem de dados e avaliar se a quantidade de consumidores deste tipo e seu poder aquisitivo compensaria lucrativamente que uma nova seção de chocolates importados fosse criada.

Relações matemáticas entre os dados serão então criadas, permitindo que o analista verifique margens de lucro e previsões de vendas para estes potenciais consumidores de chocolate importado em função de seu perfil e poder aquisitivo.


As Técnicas do Datamining

Qualquer uma das três possíveis metodologias do datamining necessita basicamente das mesmas técnicas para a sua realização As técnicas são de caráter genérico e pode ser implementadas através de ferramentas diferentes como Redes Neurais Artificiais, Estatística ou Inteligência Artificial Simbolista.

Há um grande número de técnicas básicas, contudo 5 técnicas gerais abraçam didaticamente doas as outras formas de apresentação e permitem uma visão mais global e apropriada para uma introdução ao assunto:

  • Classificação
  • Estimativa
  • Previsão
  • Análise de Afinidade
  • Análise de Agrupamentos

Classificação

A classificação é uma das mais utilizadas técnicas do datamining, simplesmente porque é uma das mais realizadas tarefas cognitivas humanos no auxílio à compreensão do ambiente em que vivemos. O ser humano está sempre classificando o que percebe à sua volta, criando classes de relações. O homem, ao receber qualquer estímulo do meio-ambiente, e preparando-se para uma reposta ao mesmo, busca, por analogia, classificar este estímulo em categorias de outros estímulos já recebidos no passado e para os quais possuiu uma resposta pronta e imediata.

A tarefa de classificar normalmente exige a comparação de um objeto ou dados com outros dados ou objetos que supostamente pertençam a classes anteriormente definidas. Para comparar dados ou objetos utiliza-se uma métrica ou forma de medida de diferenças entre eles.

No datamining são comuns as tarefas de classificação, por exemplo, de clientes em baixo, médio ou alto risco de empréstimo bancário; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transações financeiras como legais, ilegais ou suspeitas em sistema de proteção e fiscalização do mercado financeiros dentro diversos outros.

Redes Neurais Artificiais, Estatística e Algoritmos Genéticos são algumas das ferramentas muito utilizadas para classificar dados.

Classificar um objeto é determinar com que grupo de entidades, já classificadas anteriormente, este objeto apresenta mais semelhança.


Estimativa

Estimar algum índice é determinar seu valor mais provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se tem conhecimento. A arte de estimar é exatamente esta: determinar da melhor forma possível um valor baseando-se em outros valores de situações idênticas mas nunca exatamente iguais.

Redes Neurais Artificias, Estatística, Algoritmos Genéticos e Simulated Annealing são algumas das ferramentas muito utilizadas para estimar grandezas.

Estimar uma grandeza é avaliá-la tendo como base casos semelhantes nos quais esta grandeza esteja presente.


Previsão

A técnica da Previsão resume-se na avaliação do valor futuro de algum índice baseando-se em dados do comportamento passado deste índice. O único meio de verificarmos se uma previsão foi bem feita é aguardar o acontecimento e verificar o quanto foi acertada ou não a previsão realizada.

Sem dúvida, a previsão é uma das tarefas mais difíceis não somente no datamining mas também em nossa vida.
Redes Neurais Artificiais e Estatística são ferramentas utilizadas em previsão.

A Previsão consiste na determinação do futuro de uma grandeza


Análise de Afinidade

Determinar que fatos ocorrem simultaneamente com probabilidade razoável (co-ocorrência) ou que itens de uma massa de dados estão presente juntos com uma certa chance (correlação) são tarefas típicas da análise de afinidade.

O exemplo mais fácil talvez seja o do carrinho de supermercado do qual se pode extrair muita informação sobre que produtos os consumidores consome em conjunto com grande chance. Isto possibilita a realização de vendas dirigidas nas quais os itens são oferecidos já em conjunto (kits). Dos números obtidos da análise de afinidade pode-se extrair “regras” que regem o consumo de alguns itens.

A análise de afinidade preocupa-se em descobrir que elementos dos eventos têm relações no tempo.


Análise de Agrupamentos

Agrupar é classificar uma massa de dados em classes desconhecidas a priori em número ou forma. Uma tarefa é, dadas várias categoria ou classes conhecidas, dizer a qual delas um certo dado pertence; outra tarefa semelhante em objetivos porém muito mais complexa é, de posse de uma massa de dados, dizer em quantas classes esses dados se distribuem e como são estas classes. Na análise de agrupamentos os grupos ou classes são construídos com base na semelhança entre os elementos, cabendo ao analisador das classes resultantes avaliar se estas significam algo útil.

A análise de agrupamentos é normalmente uma técnica preliminar utilizadas quando nada ou pouco se sabe sobre os dados, como na metodologia da descoberta não-supervisionada de relações. Redes Neurais Artificiais, Estatística e Algoritmos Genéticos são ferramentas utilizadas para a análise de agrupamentos.

Agrupar é, baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de entidades.


Implementação de um Protocolo de Data Mining

Podemos estabelecer um protocolo genérico para implantação do datamining seguindo as fases:

  1. Definição do Problema
  2. Descoberta de Relações Novas
  3. Análise das Novas Relações
  4. Aplicação das Novas Relações
  5. Avaliação dos Resultados

Definição do Problema
Se há pouco conhecimento, faz-se a descoberta não-supervisionada;
Se há suspeita de alguma relação interessante, faz-se a testagem de hipótese;
Se há muito conhecimento, faz-se a modelagem matemática da relação.

Descoberta de Relações Novas
Em função do problema definido, escolhe-se a técnica (classificação, estimativa, previsão, etc.) e a ferramenta (redes neurais artificiais, algoritmos genéticos, etc.) capaz de executá-la;

Faz-se a preparação dos dados (seleção, complementação, etc.) de acordo com a ferramenta a ser usada;

Aplica-se a ferramenta, gerando-se “novas” relações.

Análise de Relações Novas
Uma equipe de especialistas analisa e escolhe as relações viáveis e promissoras.

Aplicação de Relações Novas
As novas relações são aplicadas (ou explicadas) em caráter experimental.

Avaliação dos Resultados
Os resultados da aplicação (ou explicação) da relação nova são contrapostos aos objetivos iniciais. Eventualmente, retorna-se para a redefinição do problema.



Inteligência Artificial

Uma definição de Inteligência Artificial seria o estudo de como criar máquinas que realizam tarefas em que, no momento, as pessoas são melhores. Portanto, se não há hoje nenhuma máquina capaz de fazer algo melhor que o ser humano, então é objetivo da Inteligência Artificial gerar tal máquina. Isto, porém coloca a Inteligência Artificial dentro de um paradoxo insolúvel: Se gerarmos uma máquina capaz de realizar uma dada tarefa semelhante ao ser humano, esta máquina, no momento que ela existe, já não é mais objetivo de estudo da Inteligência Artificial pois a tarefa já foi mecanizada. Em outras palavras, a Inteligência Artificial considera que uma tarefa inteligente que já foi mecanizada não é mais inteligente justamente por te sido mecanizada.


A Metodologia da Inteligência Artificial

Processos inteligentes são sempre realizados por um sequencia de operações controladas por um elemento centralizador ou supervisor. Estas operações devem ser representadas por símbolos, que seriam as raízes da inteligência. A inteligência propriamente dita estaria armazenada em símbolos especiais de alto nível denominados de heurísticas. A inteligência se expressaria quando a máquina estivesse envolvida na solução de um problema específico, podendo ser sua eficiência medida.

A metodologia da Inteligência Artificial Simbolista pode ser descrita em 3 fases:

  1. Escolher uma atividade inteligente para estudo;
  2. Desenvolver uma estrutura lógico-simbolista capaz de imitá-la;
  3. Comparar a eficiência desta estrutura com a atividade inteligente real.

Devido ao fato de que a metodologia da Inteligência Artificial se fundamenta na escolha de uma atividade inteligente, surgem as subdivisões do paradigma em especialidades, como por exemplo:

Processamento de Linguagem Natural

É a sub-área da Inteligência Artificial que trata de criar algoritmos capazes de entender a linguagem humana escrita e falada. A linguagem envolve mecanismos computacionais complexos ainda não entendidos até hoje. Sistema de processamento da linguagem devem possuir um conhecimento embutido muito grande, bem representado, de fácil acesso, além da capacidade de realizar inferências. Alguns sistemas já desenvolvidos podem dialogar dentro de certos contextos, resumir textos, e “entender” perguntas feitas para consultas a banco de dados

O grande exemplo é o ChatGPT. Mais informações no post: 🤖Como funciona o ChatGPT? Entenda por debaixo do capô!


Sistemas Especialistas

São sistemas que imita o raciocínio de um especialista em um certo ramo do conhecimento. Vários especialistas são consultados e seus procedimentos diante de situações específicas são representados e programados no sistema. O sistema passa, então, a responder a perguntas e sugerir ações como se fosse o especialista. Muitos sistemas especialistas já foram desenvolvidos na área médica, financeira, gerencial, entre outras.


Planejamento

Planejar ações ou política é uma tarefa que realizamos em nosso dia-a-dia. Alguns sistemas são capazes de planejar estratégias na área administrativa, outros pode gerar planos de como ligar e desligar redes de equipamentos sem causar danos, problema comum nas refinarias de petróleo. Como programas de computados são planos, dentro desta subárea da inteligência Artificial encontramos a Programação Automática que é o estudo de como criar programas capazes de programar o computador com um mínimo de interferência humana.


Solução de Problemas

Esta área da Inteligência Artificial busca desenvolver novas metodologias para resolver problemas matemáticos. Muitos problemas matemáticos são tão complexos que não podem ser resolvidos com exatidão em tempo razoável. A Inteligência Artificial busca, então, metodologias aproximativas para resolver o problema de forma aproximada e não exta, porém em tempo curto.


Reconhecimento de Padrões

Quando enxergarmos um objeto ou escutamos uma palavra, estamos reconhecendo um padrão visual e auditivos, respectivamente. Máquinas que reconhecem padrões auditivos podem ser usadas para receberem comandos de voz diretamente de seu operador. Também as máquinas que reconhecem padrões visuais pode ser utilizada para perceber peças defeituosas em uma linha de montagem, um alvo a ser atacado, uma anormalidade em uma chapa de Raio X, etc. Padrões econômicos de falências de bancos ou empresas também pode ser detectados por técnicas de reconhecimento de padrões.


Aprendizado de Máquina

Esta sub-área se preocupa com a criação de algoritmos que permitam ao computador aprender com o ambiente ao qual está exposto. Ser fornecermos a um algoritmo de aprendizado uma grande massa de dados, ele será capaz de regirar algumas conclusões sobre as relações existentes nestes dados. Os algoritmos de aprendizado de máquina transformam dados em regras que expressam o que há de importante nos dados.


Ferramentas do Datamining

Mapas Auto-Organizáveis no Datamining

Mapas auto-organizáveis têm papel importante no datamining quando se deseja determinar agrupamentos de dados com padrões de semelhança (pacientes, cliente, produtos etc). Após a determinação dos agrupamentos, podemos utilizá-los para marketing, fazendo ofertas específicas aos clientes com o perfil mais apropriado à compra do produto em questão, por exemplo.

Sempre que desejarmos descobrir conhcimento novo em uma massa de dados, devemos pensar na possibilidade de apresentar esta massa à uma rede neural de mapeamos auto-organizáveis. Os mapas são uma forma geométrica simples de verificar se há algo de interessante ou organizado da massa de dados. Muitos programas comerciais de mineração de dados já possuem rotinas prontas de mapas auto-organizáveis. Este tipo de rede neural possui poucos parâmetros de controle, sendo também computacionalmente eficiente pela simplicidade de sua regra de aprendizado.


Redes Neurais de Aprendizado por Retropropagação de Erros

O nome “retropropagação de erros” vem do fato de que ao se aplicar a regra de aprendizado, os erros de aprendizados dos neurônios das camadas intermediária e de entrada são calculados em função dos erros dos neurônios da camada de saída. Ou seja, os erros dos neurônios da camada de saída são “propagados para trás” em direção à entrada, possibilitando a alteração das sinapses para o aprendizado. O aprendizado da rede neural possui uma variável propagada no sentido inverso ao fluxo normal de informação no seus neurônios.

As aplicações desta rede neural são inúmeras nos mais variados campos de trabalho. Sempre que se tem dados do passado que se relacionam entre si, podemos utilizar uma rede neural de aprendizado por retropropagação de erros para aprender as relações supervisionadamente. Posteriormente, quando novos dados lhes forem apresentados, a rede neural fornecerá na sua camada de saída as respostas associadas segundoa as relações já aprendidas por ela. Assim, podemos ensinar a rede neural, por exemplo, a associar dados de transações bancárias na camada de entrada ao grau de suspeita de sua legalidade ou não na camada de saída, para um conjunto de transações do passado para os quais se conhece a legalidade ou não. Para cada nova transação bancária que se deseje avaliar o grau de legalidade, basta estimular os neurônios da camada de entrada com seus detalhes e na camada de saída um neurônio fornecerá o nível de legalidade da transação.


Análise Estatística de Agrupamentos

Análise de agrupamentos engloba uma variedade de técnicas e algoritmos cujo objetivo é classificar, com respeito a algum critério predeterminado, uma amostra de entidades (indivíduos ou objetos) em grupos mutuamente exclusivos baseado nas similaridades entre as entidades. Os grupos de objetos resultantes deve exibir alta homogeneidade interna (dentro do grupo) e alta heterogeneidade externa (entre os grupos). Logo, se houver sucesso na classificação, os objetos dentro dos grupos estarão todos juntos quando representados geometricamente, e diferentes grupos estarão separados.

Desse modo, o problema que a análise de agrupamentos pretende resolver é dado uma amostra de n objetos (ou indivíduos), cada um deles medido segundo p variáveis, procurar um esquema de classificação que agrupe os objetos em g grupos em função de suas similaridades. Devem ser determinados também o número e as caraterísticas desses grupos.

Também possuímos a análise multivariada de dados, que consiste a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas de cada indivíduo ou objeto sob investigação. A análise multivariadas é um sempre expansível conjunto de técnicas para análise de dados. Dentre as técnicas mais estabelecidas estão:

  • Regressão múltipla e correlação múltipla;
  • Análise múlplica de discriminante;
  • Componentes principais e análise de fator comum;
  • Análise multivariada da variância e co-variância;
  • Correlação canônica;
  • Análise de agrupamentos;
  • Escala multidimensional;
  • Análise conjunta;
  • Análise de correspondência;
  • Modelos de probabilidade linear;
  • Modelagem simultânea/estrutural de equacão

Medidas de Semelhança

Um conceito fundamental na utilização das técnicas de análise de agrupamentos é a escolha de um critério que meça a distancia entre dois objetos, ou que quantifique o quanto eles são parecidos. Esta medida será chamada de coeficiente de semelhança. Tecnicamente pode se dividir em duas categorias: medidas de similaridade e de dissimilaridade. Na primeira quanto maior o valor observado mais parecidos são os objetos. Já para a segunda quanto maior o valor observado menos parecidos são os objetos.

Coeficientes de correlação é um exemplo de medida de similaridade, enquanto distância euclidiana é um exemplo de dissimilaridade. A maioria dos algoritmos de análise de agrupamentos estão programados para operarem com o conceito de distancia (dissimilaridade).

Os algoritmos mais comumente usados para formar agrupamentos pode ser classificado em duas categorias gerais: (1) técnicas hierárquicas e (2) técnicas não-hierárquicas ou métodos de partição.


Aprendizado de Máquina

Aprendizado de Máquina é uma área de pesquisa da Inteligência Artificial Simbolista cujo objetivo é extrair regras heurísticas que por ventura existam embutidas em grandes massas de dados. Os algoritmos de aprendizado de máquina são muito interessantes pois, além de modelarem bem os dados permitindo previsões e classificações, fornecem regras heurísticas que explicam os padrões existentes nos dados. Um dos muito algoritmos de aprendizado de máquina, e dos mais utilizados, são os chamados algoritmos de particionamento sucessivo. Estes algoritmos partem da massa de dados original e a particionam gerando subgrupos que são, por sua vez, também particionados até que se atinja o nível de detalhe desejado para extrair regras heurísticas precisas sobre os padrões encontrados nos dados. Normalmente, estes subgrupos são gerados a partir de um grupo através de uma regra heurística que classifica os dados do grupo em um ou outro subgrupo. Sendo assim, uma boa representação para o particionamento sucessivo é uma árvore binária chamada de árvore de decisão pois em cada um dos seus nós é preciso tomar a decisão de como dividir os dados para um dos dois lados ou subgrupos. Uma vez construída a árvore de decisão, um dado novo pode ser classificado por ela em um de seus subgrupos, desde que, iniciando seu trajeto no nó raiz da árvore, este seja dirigido para a esquerda ou direta a cada nó de acordo com a regra heurística (decisão) associada ao mesmo até chegar a um nó terminal (folha) da árvore, com o objetivo de tornar os subgrupos resultantes cada vez mais homogêneos de forma a chegar em folhas com classes de dados bem definidas e organizadas.

O Conceito de Entropia

Para medir homogeneidade dos grupos, os algoritmos se utilizam do conceito de variância ou de entropia. Na Física, especialmente na Termodinâmica, o conceito de entropia está associado à desordem.

Entropia é uma medida de diversidade, degeneração, desordem, desorganização e caos. A entropia mínima (zero), representando a organização total, é definida como aquela de um cristal de forma geométrica perfeita a uma temperatura de zero absoluto na qual nenhum átomo se movimenta, portanto a entropia zero significa inércia, ordem total e morte.

Sistemas organizados (como um cristal perfeito a zero graus absolutos) são tão previsíveis que não necessitam de informação nenhuma para seu entendimento. Ou seja, sistemas com entropia zero não necessitam de informação pois já são entendidos. Porém, se o fenômeno é complexo, torna-se mais difícil entendê-lo e, consequentemente, qualquer informação sobree o fenômeno passa a ter valor. Em outras palavras, sistemas desorganizados, caóticos, com muita entropia, necessitam de muita informação para seu esclarecimento. Chamamos de entropia da informação a quantidade de informação adicional necessária para se entender um fenômeno ou sistema.

Definimos a entropia da informação como a quantidade média de informação necessária pra entendermos um fenômeno. Se um fenômeno complexo e desorganizado depende de vários eventos de difícil previsão, a quantidade de informação para prevermos cada evento é alta e, certamente, a média dessas quantidade também será alta, resultando em uma grande entropia da informação.

Na Ciência da Computação, a entropia é a falta de conhecimento no presente que deve ser suprida no futuro, a entropia é a desordem por falta de conhecimento. Os métodos computacionais do datamining são exatamente a realização da busca de ordem ou do conhecimento e sua consequente diminuição da entropia.

A Construção de Árvores de Decisão

Entendido este importante conceito da entropia, podemos facilmente entender como as árvores de decisão são construídas. A cada nível da árvore de decisão, precisamos definir regras heurísticas que separem os dados em subgrupos cujas entropias sejam as menores possíveis. Ou seja, cada subgrupo é mais homogêneo e mais óbvio em seu padrão de comportamento, daí sua entropia ser menor. Nas folhas da árvore de decisão, teremos grupos tão homogêneos que abraçarão apenas um tipo de dado não deixando dúvida sobre o que são e, assim, qualquer informação adicional será desnecessária (entropia zero).

Um outro aspecto bem interessante das árvores de decisão é seu poder de extrair heurísticas dos dados classificados por ela. Basta para isto conjugar as perguntas feitas em cada nível da árvore. Permitir que algoritmos geradores de árvores de decisão vasculhe livremente o data warehouse da empresa em busca de heurísticas é uma boa técnica de descoberta não-supervisionada.

Os algoritmos para árvore de decisão são bastante difundidos e podem ser facilmente encontrados em programas comerciais de Estatística e Inteligência Artificial, facilitando seu uso no datamining. A extração de heurísticas de grandes massas de dados não se faz apenas través de árvores de decisão. Muitas outras ferramentas, incluindo as redes neurais artificiais, fazem parte da oficina do Aprendizado de Máquina. No entanto, pela sua grande difusão, as árvores de decisão acabam por ser a primeira opção quando se trata de extração de heurísticas.


Conclusão

Em conclusão, o datamining é uma poderosa técnica que utiliza métodos estatísticos e de inteligência artificial para descobrir conhecimento escondido em grandes massas de dados.

Através da mineração de dados, é possível identificar relações entre produtos, classificar consumidores, prever vendas e até mesmo localizar áreas geográficas lucrativas para novas filiais. As fases do datamining na empresa incluem a identificação do problema, a descoberta de novas relações, a análise humana dessas relações, o uso racional das mesmas e a avaliação dos resultados.

Além disso, o datamining pode ser realizado de diferentes formas, como a descoberta não-supervisionada de relações, a testagem de hipótese e a modelagem matemática dos dados. Entre as técnicas utilizadas no datamining, destacam-se os mapas auto-organizáveis, redes neurais de aprendizado por retropropagação de erros, análise estatística de agrupamentos e construção de árvores de decisão. O aprendizado de máquina é uma área essencial dentro do datamining, permitindo a extração de regras heurísticas dos dados e a análise de padrões complexos.

Em resumo, o datamining é uma ferramenta valiosa para as empresas que desejam aproveitar ao máximo as informações contidas em seus dados, melhorando a tomada de decisões e impulsionando o sucesso nos negócios.


Referência Bibliográfica

Datamining – a Mineracao de Dados no Marketing, Medicina, Economia, Engenharia e Administração


Keywords: Data Mining; Mineração de Dados; Introdução ao Data Mining: Descobrindo Relações Ocultas nos Dados; Data Mining na Prática: Guia Fundamental para Análise de Dados; Primeiros Passos em Data Mining: Como Transformar Dados em Decisões; Explorando Data Mining: Estratégias Essenciais para Análise de Dados Empresariais; introdução data mining; análise de dados empresariais; fundamentos de data mining; data mining para negócios; como iniciar com data mining em sua empresa; benefícios do data mining para empresas; estratégias eficazes de data mining para análise de mercado

Gostou do conteúdo? Quer receber mais dicas? Se inscreva ↗ grátis!


Siga nas redes sociais:


Um comentário em “⛏️Introdução ao Data Mining: A Inteligência da Empresa

Deixe um comentário