Bases da Análise de Grupamento: (Cluster Analysis)
()
Sobre este e-book
Com características de revisão, apresenta uma padronização de simbologia, propondo também um vocabulário básico em língua portuguesa para os termos específicos da Análise de Grupamento.
Na descrição dos princípios básicos da Análise de Grupamento, bem como na de seus principais algoritmos, completaram-se lacunas e desenvolvimentos dentro de uma mesma linguagem e simbologia, que tornam o trabalho uma abordagem unificada do tema.
São descritos 20 algoritmos, os mais citados na literatura, acrescidos de um outro, desenvolvido pelo autor. É feita, ainda, uma comparação entre algumas técnicas da análise multivariada e a análise de grupamento, bem como é apresentado um comentário sobre os principais programas hoje (na data em que o texto foi escrito) disponíveis para utilização de computação nesse tipo de análise. Atualmente existem inúmeros outros aplicativos, incluindo os especializados em estatística, que apresentam módulos para esse tipo de análise.
Relacionado a Bases da Análise de Grupamento
Ebooks relacionados
Revisões da literatura: um método para a geração de conhecimento científico e tecnológico Nota: 0 de 5 estrelas0 notasMetodologia da pesquisa em educação: Abordagens Qualitativas, Quantitativas e Mistas Nota: 0 de 5 estrelas0 notasAnálise funcional em psicologia clínica Nota: 0 de 5 estrelas0 notasBarreiras ao uso de Lições Aprendidas em projetos: por que repetimos nossos erros? Nota: 0 de 5 estrelas0 notasO problema é nosso!: um caminho compartilhado para resolver problemas matemáticos Nota: 0 de 5 estrelas0 notasPesquisa científica: Do planejamento à divulgação Nota: 5 de 5 estrelas5/5Conceitos e análises estatísticas com R e JASP Nota: 0 de 5 estrelas0 notasAplicação do modelo de Rasch Nota: 0 de 5 estrelas0 notasA entrevista na pesquisa qualitativa - mecanismos para validação dos resultados Nota: 4 de 5 estrelas4/5Coletânea em análise multiobjetivo Nota: 0 de 5 estrelas0 notasLetramento Crítico na Universidade: uma proposta para o desenho de ambientes de discussão on-line Nota: 0 de 5 estrelas0 notasTecnologias em Pesquisa: Ciências Exatas e Ciências Biológicas - Volume 2 Nota: 0 de 5 estrelas0 notasIntrodução às Ciências Aeronáuticas: um ponto de partida Nota: 0 de 5 estrelas0 notasO Professor e a pesquisa Nota: 0 de 5 estrelas0 notasCadernos Didáticos de Métodos de Pesquisa Quantitativa em Psicologia Nota: 0 de 5 estrelas0 notasMétodos e técnicas de pesquisas científicas Nota: 4 de 5 estrelas4/5O Pluralismo Inferencial na Ciência Política: Teoria e Evidências Nota: 0 de 5 estrelas0 notasPesquisa Quantitativa em Educação Física: Métodos e Técnicas Investigativas Nota: 0 de 5 estrelas0 notasHabermas e as Professoras e Professores de Matemática: Vislumbrando Oásis Nota: 0 de 5 estrelas0 notasGestão da Sustentabilidade: a mentalidade do consumo sustentável e sua influência nas estratégias empresariais Nota: 0 de 5 estrelas0 notasTrocando o pneu com o carro andando: aprendizagem no trabalho de novos dirigentes municipais Nota: 0 de 5 estrelas0 notasPesquisa em ciências humanas e sociais Nota: 0 de 5 estrelas0 notasIntervenção em orientação vocacional / profissional: Avaliando resultados e processos Nota: 0 de 5 estrelas0 notasMetodologias de ensino: Entre a reflexão e a pesquisa Nota: 0 de 5 estrelas0 notasMetodologias de Ensino no Contexto da Formação Continuada de Professores Nota: 0 de 5 estrelas0 notasResolução de Problemas: Teoria e Prática Nota: 5 de 5 estrelas5/5Pesquisa qualitativa em educação matemática: Nova Edição Nota: 5 de 5 estrelas5/5
Tecnologia e Engenharia para você
Eletrônica Geral Nota: 5 de 5 estrelas5/5Dominando A Eletrônica Nota: 5 de 5 estrelas5/5Testando Componentes Eletrônicos Nota: 0 de 5 estrelas0 notasPython De A A Z Nota: 0 de 5 estrelas0 notasSistemas Hidráulicos Nota: 4 de 5 estrelas4/5Enviesados Nota: 5 de 5 estrelas5/5Dominando Trafego Nas Redes Sociais Nota: 4 de 5 estrelas4/5Português Para Concurso Nota: 0 de 5 estrelas0 notasMecânica dos fluidos: Noções e aplicações Nota: 4 de 5 estrelas4/5Eletricista Residencial E Predial Nota: 3 de 5 estrelas3/5Fundamentos De Banco De Dados Nota: 0 de 5 estrelas0 notasDicas Profissionais Para Linha De Comando Bash Nota: 0 de 5 estrelas0 notasAprenda Na Prática Comandos Sql De Consulta Para Banco De Dados Nota: 5 de 5 estrelas5/5Astronomia Básica Nota: 5 de 5 estrelas5/5Osciloscópio: Primeiros Passos Nota: 5 de 5 estrelas5/5Power Bi Black Belt Nota: 0 de 5 estrelas0 notasManutenção De Celulares Nota: 0 de 5 estrelas0 notasClimatização Automotiva Para Leigos Nota: 5 de 5 estrelas5/5O Que Todo Atirador Precisa Saber Sobre Balística Nota: 5 de 5 estrelas5/5Eletricista Predial Nota: 0 de 5 estrelas0 notasNr-12 - Segurança No Trabalho Em Máquinas E Equipamentos Nota: 5 de 5 estrelas5/5Python Progressivo Nota: 5 de 5 estrelas5/5Manual Do Motorista 2022 Nota: 0 de 5 estrelas0 notasHtml+css Progressivo Nota: 0 de 5 estrelas0 notasComo se faz: 99 soluções de instalações hidráulicas e sanitárias Nota: 0 de 5 estrelas0 notasPerfil Profissiográfico (ppp), Laudo Técnico (ltcat) E Aposentadoria Especial Nota: 0 de 5 estrelas0 notasManual Do Azulejista Nota: 0 de 5 estrelas0 notasPartidas De Motores Elétricos Industriais Nota: 5 de 5 estrelas5/5Mega-sena: A Ciência De Dados Por Trás Dos Números Nota: 0 de 5 estrelas0 notasComo Utilizar Um Multimetro Digital Nota: 0 de 5 estrelas0 notas
Avaliações de Bases da Análise de Grupamento
0 avaliação0 avaliação
Pré-visualização do livro
Bases da Análise de Grupamento - Mauricio de Pinho Gama
1. INTRODUÇÃO
1.1 OBJETIVOS
Algumas técnicas de análise multivariada têm tido pouca divulgação e suas aplicações são bastante raras. Um conjunto importante dessas técnicas é formado pelos processos de grupamento, principalmente por seus algoritmos, que fazem parte do que, em caráter mais geral, podemos denominar de teoria da classificação.
O grande desenvolvimento que vem tomando nos últimos anos e a ampliação de sua utilização em todos os campos da ciência, faz com que, aliada à inexistência de uma bibliografia significante em língua portuguesa, tenha oportunidade de realizar o objetivo do presente trabalho.
Este objetivo é o de apresentar uma revisão, a mais atualizada possível, das principais técnicas existentes, suas possibilidades e fundamentalmente a apresentação dos elementos básicos presentes na análise de grupamentos. Além deste objetivo de caráter geral é sugerida uma padronização da simbologia, propondo-se implicitamente um vocabulário básico para os termos específicos.
Tentou-se ainda, durante todo o trabalho e em todas as suas seções, suprir lacunas, completar desenvolvimentos e estabelecer ligações entre os diversos elementos.
Considerando os objetivos enunciados, verifica-se que grande parte do trabalho é baseado em artigos de revistas especializadas, que vêm, nos últimos anos, apresentando grande número de contribuições ao desenvolvimento dessas técnicas.
Para um futuro estudo apresenta-se uma extensa lista de artigos sobre o assunto, alguns serviram de base de consulta que foram consultados para o presente estudo. São também indicadas as fichas bibliográficas dos quatro livros utilizados como referência. É de notar-se que não existe ainda uma bibliografia em língua portuguesa sobre o tema, o que comprova sua atualidade.
Tratando-se de um trabalho de revisão, não tem o mesmo a intenção de originalidade nem de esgotar as possibilidades de exploração teórica, oferecidas pelo tema, uma vez que é, indiscutivelmente, um dos campos com maior possibilidade de estudos e desenvolvimento.
Na forma em que foi elaborado acredita-se que este trabalho seja uma revisão, razoavelmente completa, das principais técnicas da Análise de Grupamento, no estágio de desenvolvimento em que se encontram hoje na literatura.
1.2 ASPECTOS HISTÓRICOS
As técnicas aqui apresentadas têm seus fundamentos discutidos e foram desenvolvidos para análise de dados multivariados, podendo ser entendidas com um capítulo da análise multivariada.
A formulação geral dos problemas em que podem ser utilizadas é a seguinte:
Dados um conjunto E de n elementos, onde cada um é representado por um conjunto de medidas de p variáveis, deseja-se determinar os subconjuntos ou grupamentos de elementos em que pode ser decomposto o conjunto E, com base nas p variáveis.
Apesar de sua atualidade, o assunto não é, de forma alguma, novo. As primeiras técnicas remontam ao passado da humanidade. As grandes civilizações sempre se preocuparam com problemas de classificação. Em sua forma mais moderna, a análise de grupamento tem suas origens nos trabalhos de Pearson (1901) e Spearman (1904), que desenvolveram estudos visando a construção de um algoritmo denominado V-Análise (Análise de grupamento de variáveis). Este estudo deu origem, com os trabalhos de Thurstone (1931/1347), à disciplina Análise Fatorial. Kelley e Holzinger (1930 / 1947) tiveram também papel preponderante no desenvolvimento inicial dessa metodologia.
A análise de grupamentos teve seu desenvolvimento mais recente, motivado, entre outros fatores, pela necessidade de técnicas alternativas à Análise Fatorial e à Análise de Componentes Principais.
Tryon (1932/1935) desenvolveu um procedimento chamado Análise de Grupamento que a partir do início do século foi aperfeiçoado por inúmeros autores. Stephenson (1935), Burt (1397) e Cattel (1952), desenvolveram o que foi denominado de Q-Análise, que no campo das ciências biológicas é conhecida por Taxonomia numérica e cujos principais autores modernos são Sokol & Smith (1963). Mais recentemente, podemos citar um número maior de autores que têm contribuído, de forma mais significante, para a evolução destas técnicas. Entre estes, são de particular interesse, os trabalhos de Everitt, Hartignan, Duran, Cormack, Odell, Morrisson, Gower, Ross, Fisher, Van Ness, Ward, Wishart, Ball, Hall e muitos outros autores.
1.3 OBJETIVOS E FINALIDADES DA ANÁLISE DE GRUPAMENTOS
Em 1883 Galton, com o desenvolvimento do coeficiente de correlação, tornou o problema de associação mais atual e permitiu o surgimento dos métodos da análise multivariada que são hoje, em sua maioria, bastante conhecidos e utilizados. São exemplos marcantes a Análise Fatorial e a Análise das Componentes Principais. Como técnica alternativa para algumas situações, surgiu recentemente a Análise de Grupamentos que em alguns de seus métodos também utiliza o coeficiente de correlação.
No entanto os objetivos e finalidades iniciais da Análise de Grupamento vêm sendo ampliados constantemente e seria impossível relacioná-los todos de forma completa e sem omissões.
Em uma tentativa de estabelecer algumas formas de aplicação, Everitt (1974), com base no trabalho de Ball (1971), apresenta uma série de sete possíveis utilizações para estas técnicas. A primeira seria a redução de grande massa de dados (informação) em grupos, de forma a permitir sua análise. Genericamente, podemos, portanto, dizer que a análise de grupamento pode ser utilizada na descrição de dados. Um exemplo desta aplicação é dado por Green, Frank & Robinson (1967), em trabalho na área de pesquisa de mercado.
Outra aplicação citada por Everitt (1974) é a formulação de hipóteses sobre a estrutura de dados, utilizando algumas dessas técnicas. É possível também utilizá-las no teste de hipóteses já formuladas. Hartigan (1975) apresenta um interessante exemplo sobre a aplicação na área de psiquiatria. Este exemplo mostra a aplicação dessas técnicas, na determinação de uma classificação verdadeira (tipologia) para certas enfermidades mentais, sendo hoje uma referência obrigatória.
Tratando-se de problema geral de classificação, em particular daqueles que devem ter por base grande número de variáveis, é a Análise de Grupamento uma metodologia eficaz e dado o seu estágio atual de desenvolvimento não parece razoável a apresentação de uma relação de possíveis campos, em que possa ser utilizada, uma vez que é hoje aplicada a qualquer ramo do conhecimento.
É a Análise de Grupamento um instrumento que, em algumas situações, serve de técnica alternativa às utilizadas pela Análise Estatística Clássica. Alguns procedimentos de análise de dados podem ser substituídos por alguns dos algoritmos da Análise de Grupamento.
As técnicas que serão aqui descritas, apesar de baseadas em observações de dados que são fundamentalmente variáveis aleatórias, não têm em seu desenvolvimento os procedimentos clássicos observados na Análise Estatística. Na Análise de Grupamento não há, senão em caráter excepcional, preocupação com o comportamento probabilístico das variáveis, isto é, não é exigido o conhecimento das distribuições de probabilidade das variáveis, o que traz, evidentemente, uma limitação na extrapolação dos resultados obtidos, para uma população
. Cabe observar, também, que em muitas técnicas estatísticas tradicionais, é pré-requisito básico que haja previamente uma classificação, sendo um exemplo a construção de distribuição de frequência por intervalo de classe. A Análise de Grupamento pode, portanto, nestes casos, fornecer a classificação necessária à Análise Estatística, antecedendo-a.
A fácil utilização dos equipamentos para tratamento eletrônico de dados torna possível a aplicação das técnicas da Análise de Grupamento em caráter de rotina, podendo-se encontrar disponíveis programas-produto
, contendo os principais algoritmos da Análise de Grupamento. Ao final deste trabalho é feito um comentário sobre os atuais programas existentes, suas possibilidades e restrições. Por outro lado, alguns livros apresentam, na descrição de cada um dos algoritmos, um programa geralmente escrito em linguagem FORTRAN. É exemplo o livro de Hartignan (1975) que após a descrição de cada um dos algoritmos, apresenta o programa correspondente para sua utilização.
1.4 NOMENCLATURA ADOTADA
O trabalho trata fundamentalmente dos conceitos e das técnicas que na literatura em língua inglesa têm a designação de CLUSTER ANALYSIS. Todavia, outros nomes são utilizados com a sua correspondente tradução para o português, como Análise de Grupamento, Classificação, Tipologia, Taxonomia Numérica, Conglomerados e muitos outros.
Um dos problemas iniciais foi o de encontrar em português, um termo único que pudesse designar esse grupo de técnicas. A consagração, na maioria dos trabalhos em língua inglesa, do termo Cluster, leva à utilização de sua tradução GRUPAMENTO. O dicionário Aurélio fornece para o significado do vocábulo: s.m. ato ou efeito de grupar
. Alguns autores brasileiros, entre eles Jorge de Souza (1977), designam este conjunto de técnicas como Análise de Conglomerados. Entretanto, a palavra Conglomerado não expressa completamente o sentido requerido. O Dicionário Aurélio fornece o seguinte significado para esta palavra: s.m. Conjunto, aglomerado, todo
. Além disto, há um sentido específico de conglomerado utilizado na Tecnologia da Amostragem, que tem no campo da estatística um sentido muito restrito, podendo-se no máximo, admitir que o conglomerado é um particular tipo de grupamento. Parece, assim, que a palavra em língua portuguesa que melhor expressa o sentido dessas técnicas e que melhor se adapta ao conjunto de termos técnicos utilizados em Estatística é GRUPAMENTO. Havendo também o argumento daqueles que preferem sempre manter a fidelidade ao vocábulo original, neste caso um vocábulo de língua inglesa.
Pelas razões expostas foi adotado para a denominação do conjunto de métodos aqui apresentados em forma de algoritmos, o nome de ANÁLISE DE GRUPAMENTO, podendo grupamento ser entendido também como grupo, ou em um sentido mais geral como um subconjunto de um conjunto E de n elementos.
Constantemente há referência a cada um dos algoritmos como método, sendo também utilizadas com o mesmo sentido as palavras técnica e processo. De qualquer forma não parece importante esta padronização, uma vez que o sentido destas palavras está bem explícito no texto.
Finalmente, deve-se fazer uma distinção entre classificação e dissecção. Todo conjunto de elementos pode ser dissecado, porém nem todos podem ser classificados. Cornack (1971) apresenta a seguinte situação como exemplo da diferença:
Se existem dois grupamentos de edifícios, separados por muito espaço vazio, não temos dificuldade em perceber a existência de duas vilas ou bairros. No entanto, se uma vila com um nome está junto com outra vila com outro nome, vemos que a separação é artificial e não existem duas entidades, mas somente uma
.
Classificação requer que os elementos estejam distantes dos elementos de outro grupamento, enquanto a dissecção não tem esta exigência. O presente estudo trata dos aspectos ligados à classificação.
Não haverá aqui uma distinção fundamental entre classificação e Grupamentos, entendendo-se, no entanto, classificação com um sentido mais amplo do que o utilizado para o de grupamento.
2. PRINCÍPIOS BÁSICOS DA ANÁLISE DE GRUPAMENTO
2.1 CONCEITO DE GRUPAMENTO
Admitindo que se tenha um conjunto E de n elementos pertencentes a grupos ou populações distintas, admitindo-se ainda que em cada um dos elementos são realizadas p medidas referentes a q variáveis ou características presentes, os elementos de E poderão ser caracterizados por um vetor, ponto de espaço p-dimensional da forma:
i=(Xi1,Xi2,…,Xip) i = 1,n
Onde Xiq (q=1,p) é a medida da característica q-ésima no i-ésimo elemento.
Seja E={E1,E2,…,En} o conjunto de n elementos. A cada um dos elementos de E pode-se associar um vetor i, podendo o conjunto de observações ser representado por uma matriz X ,(n x p).
É importante notar que os valores de i formam um conjunto de n pontos em um espaço Euclidiano p-dimensional, Ip.
Considerando um inteiro g, tal que g < n, o problema de determinar Grupamentos associados ao conjunto de n elementos é o da determinação de g grupos ou subconjuntos em E, de forma que cada um de seus elementos pertença a um e somente um subconjunto. São apresentadas algumas técnicas que admitem a intersecção não vazias entre os elementos. Estas técnicas se constituem em exceção ao caso geral da análise de grupamento. Os elementos pertencentes a um mesmo subconjunto são ditos similares, e em conjuntos distintos não similares ou dissimilares.
A construção dos g grupamentos podem ser vistas como a determinação de uma partição de espaço Ip em regiões Rk (K=1,g) onde interseção é exceção à regra geral:
Ri∩Rj=Ø para i≠j tal que, se um ponto i=(Xi1,Xi2,…,Xip) pertence a uma região RK, não pertencerá a nenhuma outra. A partição do espaço Ip obedeceu .
Os elementos pertencentes ao subconjunto RK constituirão o que denominamos de Grupamento. A determinação da partição de Ip é a solução do problema, e é obtida pela aplicação de um critério de grupamento de cada elemento de E a um particular conjunto de RK de Ip.
Não há uma definição formal para grupamento que possa ser aceita sem discussão. Everitt (1974) apresenta uma definição que foi proposta por Kendall & Buckland no Dicionário de Termos Estatísticos:
É um grupo de elementos contíguos de uma população estatística; por exemplo, um grupo de pessoas vivendo em uma mesma casa, um conjunto de observações consecutivas em uma série ordenada, ou um conjunto de lotes adjacentes em um campo
.
A definição acima traz com ideia básica a da distância física entre os elementos do conjunto considerado. Por esta razão, ela parece