Aplicações de extração de dados para negócios digitais
Na economia da informação, os dados são uma moeda florescente. Todas as empresas procuram recolher o enorme fluxo de matéria-prima que constitui os seus processos de recolha e análise de informação. No entanto, os números e os factos descontextualizados estão por todo o lado, sem qualquer razão de ser. É aqui que entra a extração de dados.
A prospeção de dados é um conjunto de processos que permite às empresas analisar grandes bases de dados como forma de gerar informações úteis sobre os dados. Embora as tarefas básicas de prospeção de dados possam variar entre os diferentes departamentos, todo o campo é útil para muitos sectores de comercial. Esta tecnologia em expansão também registou um grande crescimento fora das empresas que a implementam para as suas utilizações, com os consultores a oferecerem-na como um serviço.
Como uma extensão natural das exigências da era da informação, o seu desenvolvimento como ferramenta expandiu-se nos últimos anos. Proliferou fora das empresas, abrindo campos como a extração de dados científicos para fins de investigação. Vejamos o que ela oferece.
Extração de dados para análise de negócios
Os processos de extração de dados podem ser muito úteis para uma série de actividades empresariais diferentes. No entanto, é necessário compreender primeiro que a prospeção de dados, enquanto conceito, inclui várias técnicas. Apresentamos de seguida algumas das principais categorias e a forma como as empresas as implementam.
- Classificação: Como o nome sugere, este é o processo de pegar nos dados e atribuir-lhes categorias distintas para utilização posterior. Por exemplo, um retalhista de moda pode classificar os seus produtos em camisas, t-shirts, roupa interior, etc. Isto ajuda-os a saber mais sobre cada comprador.
- Agrupamento: O agrupamento é semelhante à técnica anterior, mas as categorias são mais gerais. As lojas de retalho podem agrupar os seus dados em roupa de homem e de mulher, por exemplo. Segue-se a análise de factores e de clusters.
- Regras de associação: padrões de rastreio baseados em variáveis ligadas. No caso dos supermercados, seria como se alguém comprasse dois produtos alimentares que combinam, por exemplo, macarrão e queijo. A loja saberá o que fazer com estes artigos, colocá-los mais perto, pô-los à venda em conjunto, etc.
- Análise de regressãoEsta caraterística ajuda na análise estatística e nas práticas de extração de dados, identificando variáveis que ocorrem em conjunto. Ajuda a identificar probabilidades, determinando as relações entre duas variáveis. Exemplo: se houver um aumento da procura do bem A, então haverá um aumento da procura do bem B.
- Deteção de anomalias ou outliers: Este analisa o conjunto de dados estranho entre a norma. Não basta identificar uma tendência, é preciso também investigar a média da maioria das tendências. Estuda os casos anómalos e compreende a sua causa. Por exemplo, regista-se um aumento maciço de homens a comprar doces normalmente comprados por mulheres. Podemos deduzir erradamente que se trata de uma tendência permanente ou reconhecer que estamos em fevereiro e que o Dia dos Namorados está à porta.
Extração de dados vs. análise de dados

Embora a extração de dados seja utilizada na análise de dados, estes termos não são permutáveis. A extração de dados é uma etapa anterior a esta. Trata-se de utilizar uma estrutura para tornar os dados utilizáveis. É o processo de pegar em grandes quantidades de pontos brutos de dados e dar-lhes uma estrutura. A análise de dados tem regras e padrões que segue, enquanto a extração não tem (inicialmente) essas regras ou padrões pré-existentes.
Tomemos como exemplo a extração de dados de redes sociais versus a análise de dados de redes sociais. No primeiro caso, a recolha de dados é efectuada em massa. Os dados são frequentemente armazenados ou recuperados a partir de operações avançadas de armazenamento de dados.
Inteligência empresarial e análise preditiva
Embora a análise preditiva da Web esteja na moda atualmente, as empresas podem superar estes esforços com a exploração mineira. Por exemplo, uma empresa pode criar melhores em linha análise de dados de retalho através da consulta de catálogos de informações de compras de uma variedade de lojas. Estas informações podem ser categorizadas para criar um conjunto de dados preditivos para segmentação em linha e cliente para efeitos de segmentação.
A utilização da análise de dados preditiva para a aquisição de clientes não é novidade. Instituições como a Universidade de Sydney têm vindo a utilizá-los para uma série de fins. Têm ajudado nos processos de inscrição e até na identificação de estudantes com grandes probabilidades de dotar a escola. Por outro lado, uma análise pode utilizar investigação pré-categorizada a partir de Google ou Facebook ou análise da página.
Algumas das caraterísticas da extração de dados que a distinguem da análise são
- Grandes quantidades de dados não categorizados.
- As estruturas de dados são tão complexas que não é possível efetuar uma análise estatística convencional
- Os dados são frequentemente ruidosos e incompletos.
- As análises de extração de dados são preditivas ou descritivas.
Exemplos de extração de dados nas empresas

Existem muitos aplicações destes processos. As técnicas de data mining e de segmentação são utilizadas há muito tempo por dezenas de empresas. Há estudos que descrevem as suas aplicações para marketing multi-segmento e retalho. Do mesmo modo, as informações de grandes volumes de dados sobre os clientes baseiam-se frequentemente em muitos dos métodos aqui enumerados. Empresas como a Cambridge Analytica utilizaram-nos para campanhas eleitorais controversas.
Análise de clusters marketing A segmentação do mercado depende frequentemente deste tipo de dados e, sem a categorização que a prospeção proporciona, pode ser muito difícil. Em conjunto, estes processos formam uma gama de práticas avançadas de segmentação do mercado do lado do consumidor para encontrar mais compradores. Pode até ter capacidades preditivas em termos de análise de dados de aquisição de clientes e descoberta comportamentos desejáveis.
Os procedimentos de extração de dados também podem ajudar a dar forma a estatísticas não estruturadas a partir da recuperação rápida de pontos de dados. A recolha de dados em tempo real pode colocar muitos números nas suas mãos. No entanto, dar sentido a uma parte desses dados pode aperfeiçoar o processo à medida que ele acontece.
Na mesma linha, a criação de clusters para os dados que recebe através das redes sociais pode ajudá-lo a rastrear mais dados semelhantes, se necessário, ou permitir análises preditivas. Isto pode ser preferível a receber dados aleatórios se estiver à procura de variáveis, grupos-alvo ou comportamentos específicos.
Os testes de Business Intelligence são outra forma de utilizar estes métodos. A prospeção de dados é o primeiro passo para testar hipóteses sobre a sua concorrência e criar "jogos de guerra" para definir as melhores práticas contra a atividade da concorrência ou criar personas de compradores eficazes.
Soluções de recolha de dados
Aqui estão alguns programas para processamento de dados e um breve resumo das áreas em que se destacam:
DataMelt é útil para fazer contas. Oferece programas para matemática, estatística, cálculos, análise de dados e visualização. ELKI O framework ELKI, por sua vez, centra-se mais nos algoritmos, oferecendo excelentes sistemas para a análise de clusters. O ELKI é também mais fácil de utilizar por investigadores, estudantes e organizações empresariais.
Extração de dados de laranja ajuda as organizações a efetuar análises de dados simples e a utilizar gráficos e visualizações de topo. Ótimo para criar mapas de calor, agrupamento hierárquico, árvores de decisão. GUI do Rattle trabalha com resumos estatísticos e visuais de dados, prepara-os para modelação e utiliza operações de aprendizagem automática para apresentar a informação.

