Aula VIII (28/4) Tabela Dinâmica para Cluster Analysis
Estatística
Multivariada – Cluster Analysis
Vamos começar
a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.
Isso é muito
familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer
computador) enxerga de forma multivariada.
Como reconhecemos
os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos
uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz,
sotaque, perfume que utiliza (ou que não utiliza), etc.
Na verdade
utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso
sistema de reconhecimento natural é multivariado (como a Estatística
Multivariada).
Como nosso cérebro
processa toda essa informação em frações de segundo não sabemos. A neurociência
está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista
que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).
O que
podemos fazer com a matemática, estatística e computação é simular de alguma
forma primitiva o funcionamento do cérebro.
Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big Data) e Pesquisa Cientifica.
Nao existem presuposicoes como normalidade dos dados, homogeneidade de variancia, ausencia de outliers, assim se acharem utili aplicar esta técnica, todos poderão fazer uso dela sem restrições.
No exemplo a
ser apresentado (arquivo de Excel para download), temos 4 categorias de
pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas
foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre
ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se
tem mais do que uma já é multivariado).
Exemplo
para Download:
Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:
Tabela Dinâmica em Excel
Podemos ver
nesse exemplo que temos vários representantes de cada categoria, são exatamente
4 (ou quatro repetições de cada categoria)
Para
aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de
cada categoria, para cada uma das 3 variáveis de resposta.
Vamos
colocar a sequencia de passos para obtermos essas medias utilizando um recurso
muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):
Tabela Dinâmica ou Pivot Table ou Pivot.
Passo 1 – Marcar o banco de dados original
Passo 2 – Entrar em Inserir e Depois em
Tabela Dinâmica.
Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:
Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação
“Drag”) e arrastar as categorias para o local Rótulos de Linha.
Passo 5 – Arrastar as 3 variáveis
observadas: IMC, Corr e Kcal para
o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica,
já está pronto, no canto superior esquerdo.
Passo 6 – O problema é que temos somatória dos
valores e precisamos de medias aritméticas para entrar no Programa de
Cluster
Analysis do SAS. Como fazer para trocar
somatória para medias?:
Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)
· Colocar o cursor na célula “soma de IMC”
· Pressionar o botão direito do mouse
· Escolher a opção: “Configurações do Campo de Valor”
· Veja que está em “Soma”, clicar em “Média”.
Veja que agora temos
Média de ICM para cada categoria.
· Fazer mesma operação para Corr e
Kcal.
Fim do calculo das medias de cada
categoria.
Agora é
somente copiar e colar no SAS.
- SAS - Melhor Software para Business
intelligence (BI) e para analises
estatísticas.
Business intelligence (BI) is the set of techniques and tools for the transformation of raw data into meaningful and useful information for business analysis purposes.
SAS Studio (Students) Remoto Servidor LCE:
143.107.212.50:10080
Programa SAS para Cluster Analysis dos Dados Calculados no Excel:
data
pessoas;
input cat $ imc corr
kcal;
cards;
AT 20.475 54.35 3100
PR 25.175 2.55 2662.5
SE 25.575
2.925 2700
SEM
23.05 16.6 2950
;
proc cluster data=pessoas outtree = arvore
method = average;
var imc corr kcal;
id cat;
run;
PROC TREE DATA = arvore;
RUN;