Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/9483
Tipo: Dissertação
Título: Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae
Data warehouse enriched with machine learning methods for the Geminiviridae family
Autor(es): Silva, José Cleydson Ferreira da
Abstract: Geminivírus infectam uma ampla faixa de plantas monocotiledôneas e dicotiledô- neas e causam expressivas perdas econômicas. A família Geminividae é uma das mais importantes famílias de vírus de plantas. Atualmente está composta por sete gêneros, é reconhecida pelo tipo de inseto vetor, hospedeiro, organização genômica e reconstrução filogenética. A amplificação por ciclo rolante permitiu que milhares de sequências completas e parciais fossem depositadas em bases de dados públi- cas. Entretanto, tais bases de dados são limitadas em ferramentas avançadas que permitam responder perguntas sofisticadas. Ao contrário de outros importantes patógenos virais, nenhum banco de dados para geminivírus que integre todas as informações relevantes foi ainda sugerido. Neste trabalho, um Data Warehouse (DW) designado geminivirus.com é proposto. Um DW amplamente enriquecido por abordagens de aprendizado de máquina que vise garantir confiabilidade e qua- lidade das sequências genômicas e seus metadados associados. As metodologias de extração, transformação dessas sequências e seus metadados foram implemen- tadas em um processo ETL (Extract, Transform and Load) específico para dados de geminivírus. Além disso, neste processo, o uso de algoritmos de aprendizado de máquina como Multilayer Perceptron (MLP), Máquina de Vetores de Suporte (SVM) e Random Forest são utilizados como classificadores taxonômicos in silico para classificar as sequências completas. Ademais, modelos de aprendizado de máquina foram propostos para classificação de genes. Os modelos para ambos os fins superam 98% de acurácia e precisão, utilizando apenas atributos extraídos da sequência genômica completa, sequência CDS (Coding DNA Sequence) e sequên- cia de aminoácidos. Também técnicas de Processamento de Linguagem Natural baseadas em teoria dos grafos foram propostas para extração de informação e co- nhecimento em resumos de artigos. Essa metodologia apresentou grande potencial para responder perguntas específicas. Explorando o grafo de texto buscando por palavras chaves que representam os mecanismos evolutivos, verificou-se que o tema recombinação é os mais estudado se comparado à mutação, migração, seleção na- tural e deriva genética. Tornando-se assim, uma técnica propicia para gerar novas hipóteses. Ao utilizar tal técnica, observou-se que ferramentas de predição de genes não foram mencionadas. Dessa oportunidade, sugerimos um método para predição e classificação de genes designado Fangorn Forest (F2). Além disso, como parte desse método sugerimos um algoritmo para predição de genes designado Millau Bridge (MB). Esse algoritmo testa todas as possíveis ORFs que uma sequência genômica completa pode codificar por meio de codons de iniciação e terminação. Além disso, identifica sítios de excisão de splicing. geminivrus.com tornou-se uma base de dados robusta capaz de proporcionar dados com boa qualidade, ferramen- tas avançadas enriquecidas por métodos de aprendizado de máquina que auxiliam pesquisadores em suas atividades de pesquisa e tomada de decisão.
Geminiviruses infect a wide range of monocot and dicot plants and cause sig- nificant economic losses. The Geminividae family is one of the most important plant virus families. Currently, it consists of seven genera and is recognized by the type of insect vector, host range, genome organization and phylogenetic re- construction. The rolling cycle amplification allowed thousands of complete and partial sequences to be made available in public databases. However, such databa- ses have limitations concerning advanced tools to answer sophisticated questions. Unlike other major viral pathogens, no database for geminiviruses that integrates all relevant information was suggested yet. In this work, a Data Warehouse (DW) designated geminivirus.org is proposed. It is a DW widely enriched by machine learning (ML) approaches designed to ensure reliability and quality of the genomic sequences and their associated metadata. The methods for extraction and trans- formation of these sequences and their metadata have been implemented using the ETL process (Extract, Transform and Load), specifically for geminivirus data. In addition, ML algorithms such as Multilayer Perceptron (MLP), Support Vector Machine (SVM), and Random Forest classifier are used as in silico taxonomic clas- sifiers to classify complete sequences. Furthermore, ML models are proposed for gene classification. All models exceed 98% accuracy and precision using only ex- tracted attributes of the complete genome sequence, Coding DNA Sequence (CDS) and protein sequence. Additionally, Natural Language Processing based on graph theory techniques have been proposed for extracting information and knowledge articles. This methodology presented great potential to answer specific questi- ons. While exploring the word graph by searching for keywords that represent evolutionary mechanisms, it was found that the subject of recombination is the most studied compared to the mutation, migration, natural selection and, genetic drift. The resulting method is demonstrated, thus, to be an interesting techni- que to generate new hypotheses. By using this technique, it was observed that gene prediction tools have not been mentioned. In this opportunity, we suggest a powerful method for prediction and classification of genes called Fangorn Forest (F2). Also as part of this method, we suggest a greedy algorithm for predicting genes designated Millau bridge (MB). This algorithm tests all possible ORFs that a complete genomic sequence can encode inspecting initiation and termination co- dons. Furthermore, it identifies splicing sites. geminivirus.org became a robust database capable of providing data with good quality, advanced tools enriched by machine learning methods that help researchers in their research activities and decision making.
Palavras-chave: Aprendizado de máquina
Bioinformática
Biologia molecular
Geminivírus
CNPq: Ciência da Computação
Editor: Universidade Federal de Viçosa
Citação: SILVA, José Cleydson Ferreira da. Data warehouse enriquecido com métodos de aprendizado de máquina para a família Geminiviridae. 2016. 76f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2016.
Tipo de Acesso: Acesso Aberto
URI: http://www.locus.ufv.br/handle/123456789/9483
Data do documento: 25-Jul-2016
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo3,39 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.