Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR

Ferreira, Roberta de Amorim

Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/20073

Tipo:	Dissertação
Título:	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR Comparison of selection methods of regression variables applied to genomic data and NIR spectroscopy
Autor(es):	Ferreira, Roberta de Amorim
Abstract:	Muitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados. Researches from many different areas have data sets with the challenges of high dimensionality and multicollinearity still to be overcome, therefore specific methods for model fit must be employed. Although the existing methods are efficient to construct the model, it is often necessary to select the most important variables in explaining the model, once this practice can increase its predictive capacity, reduce costs, and analysis time. The main objective of this work was to evaluate and construct models using three methods of variable selection applied to single nucleotide polymorphisms (SNPs) and near infrared spectroscopy (NIR) data, besides evaluating the improvement in prediction quality, when compared to the use of complete data. The methods evaluated were: the selection of ordered predictors associated with partial least squares regression (PLS-OPS); the Sparce partial least square (SPLS); and the supervised Bayesian Lasso (BLASSO) – the last one is an adaptation of the BLASSO method with advantage of selecting variables. Were used simulated data sets composed of 100 samples and 500 SNP markers evaluated in two scenarios that differ from one another in the regression coefficient vector used, and four real data sets – composed by one set of SNPs and three sets of NIR data. It was used the software R in order to model the data. Samples were separated into training and test sets via Kennard and Stone algorithm. The predictive quality of the model was evaluated based on the mean correlation coefficient (r) between predicted and actual values, and the square root mean square error (RMSE). In the simulated data set evaluated in the first scenario, there were 52 markers of greater effects. The models using supervised BLASSO, SPLS and PLS-OPS selected an average of 100, 310 and 124 variables, respectively. In terms of predictive capacity, the models after selection were similar when compared to the use of the complete data. In the second scenario, 10 lower-effect markers were chosen to be significant. In this scenario, two criteria were used to select the number of variables to be selected by supervised BLASSO: in the first 20% of the variables were selected, and in the second, the number of variables selected were the same as SPLS and PLS-OPS. On average, the models presented a better performance when using the variables selection, than in relation to the models constructed with the complete data, once the SPLS was slightly higher – with r = 0.846 and a lower amplitude RMSE interval. For the prediction of grain yield in SNP data, the supervised BLASSO method was superior, with a lower RMSE value (0.56) and a higher r value (0.569). PLS-OPS also performed well in this data set, attesting to the use of this method for data of this nature. In the first set of NIR data in which the sugar cane fiber content was evaluated, the RMSE and r values were, in general, close to those obtained for the complete data. In the second set of real NIR data in which the lignin content of sugarcane was evaluated, it can be observed that the best results were obtained with the supervised BLASSO method (RMSE = 0.705 and r = 0.956). In the third set of real NIR data in which samples of purple cabbage were evaluated, the best results were obtained when PLS-OPS (RMSE = 13.05 and r = 0.996) was used. In the second and third NIR data sets, the statistics obtained were close to those obtained with the complete data, but with the advantage of having fewer variables. In general, the methods used work in a similar way; however, each one of them has advantages over another in specific situations. By using the selection methods, it can be observed that the models have become simpler, once the number of variables reduced significantly in all datasets studied.
Palavras-chave:	Análise dimensional Teoria bayesiana de descisão estatística Espectroscopia de infravermelho Marcadores genéticos
CNPq:	Estatística
Editor:	Universidade Federal de Viçosa
Titulação:	Mestre em Estatística Aplicada e Biometria
Citação:	FERREIRA, Roberta de Amorim. Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR. 2018. 53 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2018.
Tipo de Acesso:	Acesso Aberto
URI:	http://www.locus.ufv.br/handle/123456789/20073
Data do documento:	21-Fev-2018
Aparece nas coleções:	Estatística Aplicada e Biometria

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
texto completo.pdf	texto completo	1,16 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas