DSpace Coleção: Teses e dissertações defendidas no Programa de Pós-Graduação em Estatística Aplicada e BiometriaTeses e dissertações defendidas no Programa de Pós-Graduação em Estatística Aplicada e Biometriahttps://locus.ufv.br//handle/123456789/1952024-03-28T09:38:15Z2024-03-28T09:38:15ZModelagem estatística híbrida multidimensional utilizando geoestatística e aprendizagem de máquinaPires, Jandresson Diashttps://locus.ufv.br//handle/123456789/320722024-01-29T17:29:52Z2023-09-01T00:00:00ZTítulo: Modelagem estatística híbrida multidimensional utilizando geoestatística e aprendizagem de máquina; Multidimensional hybrid statistical modeling using geostatistics and machine learning
Autor(es): Pires, Jandresson Dias
Abstract: A Modelagem Estatística Multidimensional é uma abordagem que busca representar, graficamente, dados de um determinado domínio de aplicação e fornece mecanismos interativos para a interpretação e compreensão das informações apresentadas. Nesta tese, a aplicação dessa abordagem, foi explorada em diferentes contextos, demonstrando sua eficácia na representação de informações multidimensionais. O objetivo foi a elaboração de modelos multidimensionais dos atributos físicos ou químicos do solo, bem como a predição das
propriedades dos maciços rochosos, com base em técnicas de Estatística, Geoestatística e Inteligência Geográfica. Os dados utilizados foram provenientes de furos de sondagem em
uma mina em Minas Gerais, Brasil, e de amostras de solo e inventário de castanhais nativos no estado do Amazonas, Brasil. Para alcançar esse objetivo, foram empregados mecanismos de aprendizado de máquina e técnicas de visualização, reconhecendo que, nenhuma técnica
isolada, oferece o melhor desempenho para todas as tarefas de representação de dados multidimensionais. Portanto, uma estratégia interessante adotada foi analisar várias
representações simultaneamente, mantendo uma conexão semântica entre elas, permitindo que, as ações realizadas em uma técnica, sejam refletidas, automaticamente, nas demais. Os resultados obtidos demonstraram a aplicabilidade e confiabilidade dos modelos desenvolvidos, tanto na visualização e interatividade do usuário com os resultados, quanto na qualidade das informações em si. Além disso, ressalta-se que a abordagem proposta neste trabalho pode ser aplicada em outras áreas e contextos geológico-geomecânicos, contribuindo para uma melhor compreensão e tomada de decisão, em diversos campos da engenharia e ciências ambientais. Em suma, esta tese oferece uma contribuição significativa para a Modelagem Estatística Multidimensional, mostrando sua utilidade na representação de dados complexos, como atributos do solo e propriedades geomecânicas dos maciços rochosos. Os resultados obtidos proporcionam insights valiosos para a comunidade científica e para os
profissionais envolvidos no estudo e análise desses domínios, promovendo avanços no entendimento e gerenciamento de questões ambientais e geotécnicas.
Palavras-chave: Inteligência Geográfica. Krigagem. Ciência de Dados.; Multidimensional Statistical Modeling is an approach that seeks to graphically represent data from a given application domain and provide interactive mechanisms for interpreting and understanding the information presented.
In this thesis, the application of this approach was
explored in different contexts, demonstrating its effectiveness in representing multidimensional information. The main objective was to develop multidimensional models
of the physical or chemical attributes of the soil, as well as the prediction of the properties of rock masses, based on Statistics, Geostatistics and Geographic Intelligence techniques.
The data used came from drilling holes in a mine in Minas Gerais, Brazil, and from soil samples and an inventory of native chestnut trees in the state of Amazonas, Brazil. To achieve this objective, machine learning mechanisms and visualization techniques were employed, recognizing that no single technique offers the best performance for all multidimensional data representation tasks.
Therefore, an interesting strategy adopted was to analyze several representations simultaneously, maintaining a semantic connection between them, allowing the actions performed in one technique to be automatically reflected in the others.
The results obtained demonstrated the applicability and reliability of the models developed, both in terms of visualization and user interactivity with the results, and in the quality of the information itself. Furthermore, it is noteworthy that the approach proposed in this work can be applied in other areas and geological-geomechanical contexts, contributing to better understanding and
decision-making in various fields of engineering and environmental sciences.
In short, this thesis offers a significant contribution to Multidimensional Statistical Modeling, showing its
usefulness in representing complex data, such as soil attributes and geomechanical properties of rock masses.
The results obtained provide valuable insights for the scientific community and professionals involved in the study and analysis of these domains, promoting advances in
the understanding and management of environmental and geotechnical issues.
Keywords: Geographic Intelligence. Kriging. Data Science.
Tipo: Tese2023-09-01T00:00:00ZPGV equitativa – planta genérica de valores com princípios de equidade imobiliária utilizando geoestatística e aprendizagem de máquinaTorres Filho, Hudson Costahttps://locus.ufv.br//handle/123456789/320372024-01-18T17:15:23Z2023-07-07T00:00:00ZTítulo: PGV equitativa – planta genérica de valores com princípios de equidade imobiliária utilizando geoestatística e aprendizagem de máquina; Equitable GVT – generic value plant with principles of property equity using geostatistics and machine learning
Autor(es): Torres Filho, Hudson Costa
Abstract: Muitos municípios brasileiros tiveram seu crescimento econômico acentuado nos últimos anos, promovendo, consequentemente, transações imobiliárias sem padronização, com alta especulação e praticamente sem qualquer fonte de informações de equilíbrio tributário. Por outro lado, apesar dos cadastros imobiliários estarem em funcionamento, suas informações e de mercado estão muitas vezes desatualizadas e/ou com insuficiência para a formulação de qualquer modelo estatístico que garanta a confiabilidade da determinação dos valores. Os municípios de pequeno porte (até 30 mil habitantes), em sua grande maioria, enfrentam grandes dificuldades também no processo de avaliação em massa de imóveis, principalmente na atualização da Planta Genérica de Valores - PGV, importante instrumento do Código Tributário Municipal - CTM. Entre outros problemas, esses municípios apresentam pouca infraestrutura para utilização de métodos estatísticos padronizados e aplicação dos mesmos. Assim, a solução mais eficiente seria a utilização de um conjunto metodológico cuja aplicação do princípio da equidade imobiliária evidenciasse a busca pela justiça tributária na arrecadação de tributos municipais, mais especificamente o Imposto Predial Urbano (IPTU). Dessa forma, a partir de um cadastro imobiliário urbano completamente atualizado, objetiva-se propor a criação de uma PGV com princípios científicos de equidade imobiliária. Para tanto, a NBR 14.653 de 2019 foi adotada, além da Geoestatística, Aprendizagem de Máquina e Geoprocessamento. Palavras-Chave: Planta de valores, IPTU, Cadastro imobiliário, Avaliação em Massa.; Many Brazilian municipalities have had their economic growth accentuated in recent years, consequently promoting real estate transactions without standardization, with high speculation and practically without any source of tax balance information. On the other hand, although the real estate records are in operation, their information and the market's information are often outdated and/or insufficient for the formulation of any statistical model that guarantees the reliability of the values determination. Small municipalities (up to 30,000 inhabitants), for the most part, also face great difficulties in the mass valuation process of real estate, mainly in updating the Generic Values Plan - PGV, an important instrument of the Municipal Tax Code - CTM. Among other problems, these municipalities have little infrastructure for the use of the standardized statistical methods and their application. Thus, the most efficient solution would be the use of a methodological set whose application of the principle of real estate equity evidenced the search for tax justice in the collection of the municipal taxes, more specifically the Urban Property Tax (IPTU). Therefore, from a completely updated urban real estate register, it is aimed to propose the creation of a PGV with scientific principles of real estate equity. To this end, the NBR 14.653 of 2019 was adopted, in addition to the Geostatistics, Machine Learning and Geoprocessing. Keywords: Values Plan, IPTU, Real Estate Cadastre, Mass Appraisal.
Tipo: Dissertação2023-07-07T00:00:00ZSeleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômicaBegnami, Vinicius Silvahttps://locus.ufv.br//handle/123456789/318532023-11-27T17:19:08Z2023-07-18T00:00:00ZTítulo: Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica; Marker Selection Using Posterior Probability of Inclusion in the Genomic Prediction Model
Autor(es): Begnami, Vinicius Silva
Abstract: Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.; With the growing global population, the demand for food is increasing every day, even as arable land areas approach their territorial limits. One solution to address this challenge is the practice of genetic improvement, which is gaining increasing prominence due to its ability to enhance productivity and improve the quality of food within the confines of existing cultivation areas. With advances in molecular genetics, it has become possible to obtain genetic information directly from DNA through molecular markers, particularly Single Nucleotide Polymorphism (SNP), which have been used in Genome-Wide Selection (GWS) studies. GWS aims to estimate genomic breeding values (GEBV) of individuals under study based on genotypic information. However, when adjusting the prediction equation, high dimensionality and multicollinearity pose challenges, as the number of markers is much larger than the number of evaluated individuals. Since not all markers in the genome influence a specific phenotypic trait, it is common practice to conduct a prior selection of these markers. In this context, this study proposes to select the most important markers for genomic prediction based on their inclusion probability. To achieve this, the dissertation is divided into two chapters. Chapter 1 consists of a literature review on the statistical methodologies to be applied in the following chapter. Chapter 2 aims to select the most important markers from a real dataset derived from Oryza Sativa rice, containing 413 genotyped accessions with 44,100 SNP markers, using their posterior inclusion probability. The calculation of this probability is supported by the marker molecular effects matrix, estimated through the BayesD𝜋 method, and the total number of saved iterations. After the selection of the most important markers, they are grouped into sets of 2,000, 4,000, 6,000, ..., up to 36,901 markers, according to their importance. Subsequently, each group has its effect estimated by the BayesA method, and the predictive ability of the prediction model is calculated. This metric is compared to the predictive ability of prediction models adjusted by the Bayesian methods, BayesA and BayesD𝜋 separately, without prior marker selection. The results obtained indicate that the selection of the most important markers for genomicprediction has proven to be efficient, as its exhibits high predictive ability compared to the BayesA and BayesD𝜋 methods when used in isolation and without prior selection. Furthermore, the posterior inclusion probability has also proven effective in understanding the genetic architecture of the trait under study. Thus, marker selection contributes to the reduction of high dimensionality, an increase in the predictive ability of the genomic prediction model, and a reduction in computational effort, addressing recurring issues in genomic selection. Keywords: Molecular Markers. Rice. Genomic Selection. Genetics. Genetic Breeding.
Tipo: Dissertação2023-07-18T00:00:00ZTamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica amplaOliveira, Gabriela Françahttps://locus.ufv.br//handle/123456789/318062023-11-24T13:54:46Z2023-06-15T00:00:00ZTítulo: Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla; Population size in QTL detection using quantile regression in genome-wide association studies
Autor(es): Oliveira, Gabriela França
Abstract: Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.; Genome-wide association studies (GWAS) are those that seek to identify significant markers that may be related to traits of interest in breeding programs. The General Linear Model (GLM) is one of the main procedures for evaluating significant associations between markers and QTLs (Quantitative Trait Locus). The estimation of the effects of the markers through the GLM is based on conditional means. However, this estimation may be inadequate when the errors do not follow a normal distribution and/or do not have homogeneous variances. An alternative methodology that has recently been explored in genomic association studies is Quantile Regression (QR), which makes it possible to estimate the effect of markers along the entire distribution of phenotypic values. QR has already been successfully evaluated in GWAS studies on a real dataset that had a reduced number of individuals. However, the performance of the technique for different population sizes has not yet been studied. Given the above, the objective of this study was to evaluate the performance of RQ in GWAS studies regarding the ability to detect QTLs associated with the phenotypic traits of interest, considering different population sizes. For this, simulated data was used, with traits of different levels of heritability (ℎ 2 = 0,30 and 0,50), and controlled by 3 and 100 QTLs. A population of 1000 individuals was simulated and then random reductions of 100 individuals were performed until reaching a population of size 200. The power of detection of QTLs and the false positive rate were obtained using the GLM and also using the QR considering three different quantiles (𝜏 = 0.10, 0.50 and 0.90). As a result, it was observed that the QR models showed greater QTL detection power in all evaluated scenarios and a relatively low false positive rate in scenarios with a greater number of individuals. The QR at the extreme quantiles (𝜏 = 0.1 and 0.90) were the models that obtained the greatest power to detect true QTLs. In contrast, the analysis based on the GLM detected few (scenarios with larger population size) or no QTL in the evaluated scenarios. In scenarios with low heritability, the QR obtained a high detection power. Thus, it was verified that using QR in GWAS is effective, allowing the detection of QTLs associated with characteristics of interest, even in scenarios with few genotyped and phenotyped individuals. Keywords: GWAS. Genetic breeding. General linear model. Simulation. Conditional quantiles.
Tipo: Tese2023-06-15T00:00:00Z