Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/7585
Tipo: Dissertação
Título: Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs
Mirnacle: machine learning with SMOTE and random forest for improving se- lectivity in pre-miRNA ab initio prediction
Autor(es): Marques, Yuri Bento
Abstract: Os microRNAs (miRNAs) são importantes reguladores da expressão gênica em plantas e animais. Assim, miRNAs estão envolvidos na maioria dos processos biológicos, tor- nando o estudo dessas moléculas um dos temas mais relevantes da biologia molecular atualmente. Uma estratégia para encontrar novos miRNAs é procurar seus precursores (pre-miRNAs), que são estruturas ligeiramente maiores (70-120 nt) e têm uma estru- tura secundária na forma de hairpin (grampo de cabelo). No entanto, caracterizar pre-miRNAs in vivo ainda é uma tarefa complexa. Como consequência disto, méto- dos in silico foram desenvolvidos para prever a localização genômica de pre-miRNAs. No entanto, as ferramentas computacionais atuais têm problemas de seletividade, isto é, uma grande quantidade de falsos positivos é reportada. Este trabalho apresenta uma extensão do método desenvolvido por Tempel e Tahi, 2012, com o objetivo de melhorar a seletividade através da técnica de aprendizagem de máquina denominada Random Forest, combinada com o método SMOTE, que lida com conjuntos de dados desbalanceados. Comparando o método proposto com outras importantes abordagens na literatura, mostramos que os procedimentos descritos neste trabalho puderam me- lhorar substancialmente a seletividade, sem comprometer a sensibilidade. Para três conjuntos de dados utilizados nos experimentos realizados, a abordagem proposta al- cançou pelo menos 97 % de sensibilidade e proporcionou um aumento de duas, vinte e seis vezes na seletividade, respectivamente, em comparação com os resultados de ferramentas computacionais atuais.
MicroRNAs (miRNAs) are key gene expression regulators in plants and animals. Thus, miRNAs are involved in the majority of biological process, making the study of these molecules one of the most relevant topics of molecular biology nowadays. A strategy to find new miRNAs is to search for its precursors (pre-miRNAs), which are slightly lar- ger structures (70-120 nt) and have a hairpin structural form. However, characterizing pre-miRNAs in vivo is still a complex task. As a consequence, in silico methods were developed to predict the genomic location of pre-miRNAs. Nevertheless, the current computational tools have problems of selectivity, i.e., a higher number of false positives is reported. This work presents an extension of the method developed by Tempel and Tahi, 2012, with the aim of improving selectivity through machine learning techniques, namely, random forests combined with the SMOTE method that copes with imbalance datasets. Comparing our method with other important approaches in the literature, we have shown that our procedures could substantially improve selectivity without com- promising sensibility. For three datasets used in our experiments, our method achieved at least 97% of sensitivity and could deliver a two-fold, 20-fold, and 6-fold increase in selectivity, respectively, compared with the best results of current computational tools.
Palavras-chave: Aprendizado do computador
Bioinformática
Biologia molecular
Ácido ribonucleico
CNPq: Ciência da Computação
Editor: Universidade Federal de Viçosa
Titulação: Mestre em Ciência da Computação
Citação: MARQUES, Yuri Bento. Mirnacle: aprendizagem de máquina utilizando SMOTE e Random Forest para prover aumento da seletividade na predição ab initio de pre-miRNAs. 2015. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2015.
Tipo de Acesso: Acesso Aberto
URI: http://www.locus.ufv.br/handle/123456789/7585
Data do documento: 8-Dez-2015
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo2,95 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.