Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/25440
Tipo: Dissertação
Título: Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
Scalable data stream clustering with estimation of the number of clusters
Autor(es): Candido, Paulo Gustavo Lopes
Abstract: Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.
Advances in technology have been changing the way data is collected, stored and analyzed. New approaches have been used for unsupervised data clustering, such as real-time data clustering (data stream), and scalable data clustering. Both ap- proaches discard the storage of the whole dataset in main memory due to physical constraints, using techniques such as linear reading and distributed computing, res- pectively, to handle large volumes of data. Data stream clustering algorithms must deal with specific characteristics of this format: they are virtually and potentially unbounded and have a non-stationary distribution. Although little explored, te- chniques for dynamic estimation of the number of clusters have been shown to be effective in maintaining clustering models, since clusters may arise and disappear over time. Considering also a scenario with an exponential increase of the real-time generated data, there is a need for scalable algorithms to cluster data streams, able to estimate the number of clusters, in order to maintain a high level of quality. In this work, five algorithms are presented for this purpose, of which four are based on evolutionary computation. The MapReduce functional model is used to provide scalability across a distributed system, ensuring reliability, resilience, and fault- tolerance. The algorithms were experimented, analyzed and compared statistically in order to verify their quality and performance. The results show that the proposed algorithms are able to obtain high-quality models for high-speed data streams that need to be scaled, even with variations of distribution and number of clusters.
Palavras-chave: Aprendizado do computador
Análise por comportamento
Fluxo de dados (Computadores)
Big data
Computação evolutiva
Mineração de dados (Computação)
CNPq: Ciência da Computação
Editor: Universidade Federal de Viçosa
Titulação: Mestre em Ciência da Computação
Citação: CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
Tipo de Acesso: Acesso Aberto
URI: http://www.locus.ufv.br/handle/123456789/25440
Data do documento: 21-Dez-2018
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo1,54 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.