Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/8259
Tipo: Dissertação
Título: Discriminação de população por meio de inteligência computacional
Discrimination of the population by means of computational intelligence
Autor(es): Carvalho, Vitor Prado de
Abstract: É importante para a preservação da variabilidade genética e da biodiversidade a correta classificação dos indivíduos. As técnicas de estatística multivariada comumente utilizada nessas situações são as funções discriminantes de Fisher e de Anderson, que permitem alocar um indivíduo inicialmente desconhecido em uma das g populações prováveis ou grupos pré-definidos. Entretanto, para o caso de populações não linearmente separáveis, esses métodos tem se mostrado pouco eficientes devido ao fato de não conseguir detectar a diferença entre as populações. Em alguns casos é preciso captar o máximo de informação possível e para tal outro método é necessário quando não for possível adquirir resultados pelos métodos multivariados. Portanto uma alternativa como possível solução para tal finalidade são as redes neurais artificiais, utilizadas em diversos problemas da Estatística, como agrupamento de indivíduos similares, previsão de séries temporais e em especial, os problemas de classificação. Outra técnica computacional que também vem adquirindo credibilidade e grande atenção nos últimos anos é conhecida como Máquina de Vetor Suporte (Support Vector Machines - SVMs). As SVMs vêm sendo utilizadas em diversas tarefas de reconhecimento de padrões, obtendo resultados superiores ou similares aos alcançados por técnicas similares em várias aplicações como em detecção de faces em imagens e na categorização de textos. Diante do exposto, o objetivo deste trabalho é avaliar a utilização da máquinas de vetores suporte em problemas de discriminação de populações com estruturas genéticas conhecidas. Além disso, os resultados obtidos pela técnica foram comparados com aqueles advindos de análises discriminante de Anderson e redes neurais. Cada população foi caracterizada por um conjunto de elementos mensurados por características de natureza contínua. Foram geradas considerados 50 locos independentes, cada qual com dois alelos. As relações de parentescos e a estruturação hierárquica foram estabelecidas considerando populações genitoras geneticamente divergentes, híbrido F 1 e três gerações de retrocruzamentos em relação a cada um dos genitores, permitindo estabelecer parâmetros de eficácia das metodologias testadas. Os dados fenotípicos das populações foram utilizados para estabelecimento da função discriminante de Anderson e para o cálculo da taxa de erro aparente (TEA), que mede o número de classificações incorretas. As estimativas de TEA foram comparadas com as obtida por meio das Redes Neurais Artificiais e a Máquina de Vetor Suporte para verificação dos problemas de classificações, buscando minimizar o número de classificações incorretas em comparação aos obtidos pela função discriminante. De acordo com os resultados avaliados, a Rede Neural obteve resultados satisfatórios com TEA a 0% enquanto que o método SVM obteve TEA de 14,44% a 67,41% enquanto que a de Anderson manteve TEA entre 18,89% a 74,07%. No entanto são necessários mais estudos quanto a utilização da SVM com base em algoritmos de otimização de busca para o espaço de parâmetros para pôr fim tentar alcançar resultados mais satisfatórios.
It is important for the preservation of genetic variability and biodiversity the correct classification of the individuals. The techniques of multivariate statistics commonly used in these situations are the Fisher and Anderson discriminant functions, which allow you to allocate an individual initially unknown to one of g populations likely or groups pre-defined. However, for the case of populations that are not linearly separable, these methods have been shown little efficient due to the fact it’s not able to detect the difference between the populations. In some cases, it is necessary capturing as much information as possible and for that other method is required when it is not possible to acquire the results frommultivariate methods. Therefore an alternative as a possible solution for this purpose is the artificial neural networks, used in various problems of Statistics, such as grouping of individuals with similar forecasting time series and in particular, the problems of classification. Another computational technique that has been acquiring credibility and great attention in recent years is known as the Support Vector Machines (SVM).The SVMs have been used in various tasks of pattern recognition, achieving higher results or similar to those achieved by similar techniques in various applications, such as detection of faces in images, and in the categorization of texts. The aim of this study is to evaluate the use of Support Vector Machines in problems of population’s discrimination with a known genetic structure. In addition, the results obtained by the technique is compared with those resulting from analysis of Anderson discriminant function and neural networks. Each population was characterized by a set of elements measured by characteristics of continuous nature. Were generated considering 50 locos independent, each with two alleles. The relations of kinship and the hierarchical structuring were established considering populations genetically divergent, F1 hybrid and three generations of backcrossing in relation to each of the parents, allowing to establish parameters of effectiveness of the tested methodologies. The phenotypic data of the populations were used to establish the discriminant function of Anderson and for the calculation of the error rate apparent (TEA), that measures the number of incorrect ratings. Estimates of TEA were compared with those obtained by means of Artificial Neural Networks and Support Vector Machine for verification of classification problems, seeking to minimize the number of incorrect ratings in comparison to discriminant function. According to the results, the neural network obtained satisfactory results with a TEA of 0%, while the SVM method obtained TEA between 14.44% and 67.41%, while the results of Anderson function have TEA between 18.89% and 74.07%. However, it is necessary more studies about the use of the SVM based on the optimization algorithms for the search of the space of parameters in order to try to achieve results that are more satisfactory.
Palavras-chave: Estatística
Análise discriminatória
Melhoramento genético
Variabilidade genética
Inteligência computacional
CNPq: Ciências Agrárias
Editor: Universidade Federal de Viçosa
Citação: CARVALHO, Vitor Prado de. Discriminação de população por meio de inteligência computacional. 2016. 50 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2016.
Tipo de Acesso: Acesso Aberto
URI: http://www.locus.ufv.br/handle/123456789/8259
Data do documento: 25-Fev-2016
Aparece nas coleções:Estatística Aplicada e Biometria

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo682,12 kBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.