View Item
- xmlui.general.dspace_homeCentros Regionales y EEAsCentro Regional CorrientesEEA CorrientesTesisxmlui.ArtifactBrowser.ItemViewer.trail
Desarrollo de una metodología de extracción de conocimientos a partir de datos de micromatrices de DNA basada en ontologías genéticas
Abstract
Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de
[ver mas...]
Los experimentos de micromatrices de DNA permiten obtener información sobre la expresión conjunta de cientos o miles de genes, lo que ha producido un importante incremento en el volumen de datos disponibles en el área de las ciencias biológicas. Sin embargo, esta disponibilidad de información no ha implicado un aumento proporcional en el avance del conocimiento relacionado. La minería de datos (data-mining) surge como una tecnología emergente que sirve de soporte para el descubrimiento de conocimiento, que se revela a partir de patrones observables en datos estructurados o asociaciones que
usualmente eran desconocidas. El presente trabajo consiste en desarrollar una metodología de análisis de datos que permita descubrir conocimientos biológicamente relevantes, partiendo de datos de micromatrices de arroz almacenados en repositorios públicos, enriqueciendo esta información mediante la asociación con los términos de la Ontología de Genes (Gene Ontology, GO). La GO propone establecer descripciones coherentes de los genes a partir del desarrollo de vocabularios controlados y proporciona
tres redes estructuradas de términos controlados para describir los atributos de los genes que pueden ser aplicados a cualquier organismo. La metodología desarrollada se basa en la aplicación de paquetes de software de código abierto para el análisis de datos, como el lenguaje R, que provee un entorno de
procesamiento estadístico y gráfico. R posee una instalación base y módulos que se agregan según el tipo de análisis que se realice. Entre ellos se encuentra el módulo Bioconductor que permite el análisis de datos bioinformáticos. Este tipo de iniciativas de código abierto y libre, facilitan la comunicación entre los usuarios creando comunidades que se van fortaleciendo y enriqueciendo a través de los conocimientos compartidos. Se utilizó un paquete especial del Bioconductor para consultar y rescatar información de la
Base de Datos de la GO (GO.db). Estas aplicaciones, asociadas al administrador de Base de Datos MySQL, fueron usadas en el desarrollo de una pipeline para implementar los procedimientos de extracción del conocimiento propuestos en esta tesis. Se utilizaron como modelo, los datos crudos obtenidos de estudios independientes sobre perfiles de expresión de genes de arroz inducidos ante estreses abióticos.
[Cerrar]
DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and
[ver mas...]
DNA microarray technology allows scientists to study the expression of thousands of genes simultaneously; however the increase of biological data has not implied a proportional growth of related knowledge. Knowledge discovery from the amount of data collected depends on the development and appropriate use of data mining and statistical tools. This work involves the application of techniques for extracting knowledge implicit previously unknown and potentially useful from the biological information obtained from
gene expression studies using microarrays. Three sets of experimental DNA microarray data from selected Oryza sativa abiotic stress experiments were analyzed using a pipeline based on MySQL database and R/Bioconductor routines. A secondary refinement process using the GO annotations was
introduced to enrich the level of biological information included in the clusters. The result was a high-level biological significance categorization of microarray data based on GO resources.
[Cerrar]
Author
Director de Tesis
Descripción
Tesis para obtener el grado de Magíster Scientiae en Explotación de Datos y Descubrimiento del Conocimiento, de la Universidad de Buenos Aires, en diciembre de 2008
Date
2008-12
Editorial
Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires
Formato
pdf
Tipo de documento
tesis de maestría
Palabras Claves
Derechos de acceso
Abierto
Excepto donde se diga explicitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)