Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico

Aballay, Maximiliano Martín

resumen

Resumen

El duraznero es una especie que pertenece a la familia Rosaceae, el cual presenta un periodo juvenil que requiere entre 3 a 4 años para desarrollarse completamente. Debido al carácter auto-compatible y los extensos periodos de generación, esta especie posee una reducida variabilidad genética en comparación con otras. Estas características dificultan el mejoramiento del duraznero, por lo cual es de vital importancia implementar herramientas que modernicen los programas de mejora con el fin de escalar el desarrollo de nuevas variedades. Durante los últimos años se han producido grandes avances en las tecnologías de secuenciación, que han impulsado los estudios genómicos de duraznero. Esto permitió la implementación de la metodología Genome-Wide Association Study (GWAS), para identificar variantes genéticas vinculadas a caracteres fenotípicos. Sin embargo, la complejidad de los caracteres poligénicos y la dificultad para diferenciar las variantes causales de otras altamente correlacionadas son las principales limitaciones de GWAS. Una alternativa de interés para este tipo de análisis, es el algoritmo de aprendizaje automático Random Forest (RF), el cual puede analizar grandes conjuntos de datos genómicos, y definir la influencia que tienen las variantes genéticas sobre los caracteres fenotípicos, siendo capaz de generar predicciones para dichos caracteres. Estas propiedades hacen de RF un método prometedor para ser aplicado en duraznero, ya que el entrenamiento de este tipo de modelos podría ayudar a identificar variantes genéticas asociadas a caracteres fenotípicos complejos, y predecir su comportamiento según la presencia/ausencia de estas variantes. En este trabajo se realizó la puesta a punto de la plataforma de genotipado de alto rendimiento conocida como double digest Restriction-site Associated DNA sequencing (ddRAD-seq) en duraznero, la cual no había sido aplicada en esta especie hasta el momento. Esta plataforma fue utilizada para caracterizar en profundidad la variabilidad genética contenida en la colección de germoplasma de la Estación Experimental Agropecuaria (EEA) San Pedro. Como resultado de este proceso se genotiparon 237 accesiones de duraznero (en donde se incluyen 3 portainjertos) y 2 ciruelos japoneses. Los datos de secuenciación presentan en promedio 1 M de lecturas de extremos apareados (2 × 250 pb) por genotipo. A partir del alineamiento de las lecturas al genoma de referencia se observó que las mismas se distribuyen de manera uniforme a lo largo de los 8 cromosomas. En la búsqueda de variantes se identificaron un total de 197.906 Single Nucleotide Polymorphisms (SNP), 16.338 Insertions/Deletions (InDel) y 2.712 Simple Sequence Repeats (SSR). Estas variantes luego de ser filtradas utilizando un porcentaje de datos faltantes menor al 10 % y un valor de Minor allele Frequency (MAF) mayor al 1 % se redujeron a 11.871 SNP, 1.214 InDel y 499 SSR (sumando un total de 13.584 variantes). Mediante una combinación de análisis multivariados se describió la relación que existe entre los genotipos de duraznero. Además, con la inclusión de los datos de 48 genotipos de duraznero recientemente secuenciados fue posible describir por primera vez fuentes de variabilidad de germoplasmas naturalizado en el país. El set de 13.584 variantes genéticas de las 237 accesiones de duraznero fue utilizado para analizar la asociación con caracteres de interés agronómico mediante las metodologías de GWAS y RF. Estos métodos tienen la capacidad de identificar variantes asociadas con un carácter en particular, pero utilizan enfoques diferentes. Al utilizar ambas metodologías se busca comprobar si RF se puede desempeñar de igual manera o mejor que GWAS en duraznero, además de validar la metodología RF como método de predicción para ser aplicado en el programa de mejoramiento de duraznero. Con estos métodos se analizaron los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, capacidad antioxidante, contenido de fenoles, firmeza, peso, contenido de sólidos solubles, fecha de floración y fecha de cosecha. Como resultado de este análisis se observó asociación con los dos métodos para los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, fecha de floración y fecha de cosecha. Los dos métodos apuntan a regiones genómicas similares en cada carácter que presentó asociación. Para cada una de estas regiones se identificaron las principales variantes asociadas con cada carácter, así como también los haplobloques que contienen a dichas variantes. Los datos de las 13.584 variantes genéticas también fueron utilizados para realizar la simulación de cruzamientos entre genotipos y analizar las características de la progenie artificial obtenida. Con el objetivo de evaluar la capacidad de estas simulaciones, primero se generaron una serie de cruzamientos de prueba para comparar con cruzamientos reales que se encuentran junto a los parentales dentro de los 237 genotipos analizados. A partir del análisis de estos datos se observó que con las simulaciones de cruzamientos es posible generar genotipos artificiales con perfiles genómicos cercanos a los originados por cruzamientos reales. Una vez realizada esta validación se procedió a simular todos los cruzamientos posibles entre los 237 genotipos, con una progenie de 100 genotipos artificiales por cruzamiento. Para estos nuevos genotipos se realizaron predicciones utilizando los modelos de RF previamente entrenados con datos de caracteres de vellosidad del fruto, color de pulpa, tipo de pulpa, fecha de floración y fecha de cosecha. Como resultado de esta serie de simulaciones se obtuvo un total de 2.820.300 genotipos artificiales, para los cuales se predijo el comportamiento de cada uno de los caracteres mencionados. Con estas predicciones es posible identificar aquellos genotipos artificiales que presentan las características de mayor interés y reconocer la combinación de parentales de la cual provienen. De esta manera se puede realizar una selección más rigurosa de parentales a cruzar, ayudando a desarrollar un programa de mejoramiento de duraznero más eficiente. [Cerrar]

| Peach is a member of Rosaceae family, that requires approximately from 3-4 years to reach maturity. Given its self-compatible nature and long generation cycles, this species exhibits less genetic variability than others. Due to these characteristics, breeding programs need to be modernized to speed up the development of new peach varieties. The great advances in sequencing technologies over the last few years have promoted genomic studies of peach, such as the implementation of Genome-Wide Association Study (GWAS) methodology, to identify genetic variants linked to phenotypic traits. However, the complexity of polygenic traits and the issues to differentiate causal variants from other highly correlated are the main limitations of GWAS. An alternative to this type of analysis is the Random Forest (RF) machine learning algorithm, which can analyze large sets of genomic data and define the influence of genetic variants on phenotypic traits, being able to generate predictions for these traits. These properties make RF a promising method for peach, because the training of this type of model may help to identify genetic variants associated with complex phenotypic traits, and predict their behavior based on the presence/absence of these variants. In this work we present the fine tuning of the high throughput genotyping platform known as double digest Restriction-site Associated DNA sequencing (ddRAD-seq) in peach, which has not been applied to this species until now. This platform was used to characterize the genetic variability contained in the Estación Experimental Agropecuaria (EEA) San Pedro germplasm collection. As result, 237 peach accessions (including 3 rootstocks) and 2 Japanese plums were genotyped. The sequencing data showed an average of 1 M paired-end (2 × 250 pb) reads per genotype. The alignment of reads to the reference genome showed that they are distributed in the 8 chromosomes uniformly. From variant calling, a total of 197,906 Single Nucleotide Polymorphisms (SNP), 16,338 Insertions/Deletions (InDel) and 2,712 Simple Sequence Repeats (SSR) were identified. After filtering variants with less than 10 % of missing data and a Minor Allele Frequency (MAF) higher than 1 %, the dataset was reduced to 11,871 SNP, 1,214 InDel and 499 SSR (giving a total of 13,584 variants). The relationships between the genotypes were described applying a combination of multivariate analysis. In addition, with the inclusion of data from 48 peach genotypes recently sequenced, it was possible to describe, for the first time in the country, the sources of variability of naturalized germplasms. The set of 13,584 genetic variants obtained from 237 peach accessions was used to analyze the association with traits of agronomic interest using the GWAS and RF methodologies. Although these methods have different approaches, they have the ability to identify variants associated with a particular trait . The use of both methodologies aims to verify if RF can be performed in the same way or better than GWAS in peach, as well as to validate the RF methodology as a prediction method to be applied in the breeding of peach. Both methods were applied in the analysis of flesh color, flesh type, fruit hairiness, antioxidant capacity, phenol content, firmness, weight, soluble solid content, flowering date and harvest date. As result, association was observed with the two methods for flesh color, flesh type, fruit hairiness flowering date and harvest date. The two methods point to similar genomic regions for the traits that presented association. For each of these regions, the main variants associated with each trait were identified, as well as the haploblocks that include these variants. The data from the 13,584 genetic variants were also used to simulate crosses between genotypes and analyze the characteristics of the artificial progeny obtained. To evaluate the performance of these simulations, a series of test crosses were first generated to compare with real crosses, and their respective parents, included in the 237 analyzed genotypes. The artificial genotypes generated by cross simulations showed genomic profiles closer to those originated by real crossing. In accordance with this validation, all the possible crosses between the 237 genotypes were simulated, generating a progeny of 100 artificial genotypes per cross. For each of these new genotypes, predictions were made using previously trained RF models with data from flesh color, flesh type, fruit hairiness, flowering date and harvest date; obtaining a total of 2,820,300 artificial genotypes with predicted phenotypes. Taking these predictions into account, it is possible to identify the most interesting artificial genotypes and recognize the combination of parents that generated them. Thus, a more rigorous selection of parents can be made in order to develop a more efficient peach breeding program. [Cerrar]

dc.contributor.advisor	Sanchez, Gerardo (Director)
dc.contributor.advisor	Cervigni, Gerardo (co-Director)
dc.contributor.author	Aballay, Maximiliano Martín
dc.coverage.spatial	San Pedro .......... (inhabited place) (World, South America, Argentina, Buenos Aires)	es_AR
dc.coverage.temporal	1136466	es_AR
dc.date.accessioned	2024-01-12T12:57:01Z
dc.date.available	2024-01-12T12:57:01Z
dc.date.issued	2023
dc.identifier.uri	http://hdl.handle.net/20.500.12123/16540
dc.description	Tesis para optar al grado de Doctor en Ciencias Biológicas, presentada en la Universidad Nacional de Rosario, en 2023.	es_AR
dc.description.abstract	El duraznero es una especie que pertenece a la familia Rosaceae, el cual presenta un periodo juvenil que requiere entre 3 a 4 años para desarrollarse completamente. Debido al carácter auto-compatible y los extensos periodos de generación, esta especie posee una reducida variabilidad genética en comparación con otras. Estas características dificultan el mejoramiento del duraznero, por lo cual es de vital importancia implementar herramientas que modernicen los programas de mejora con el fin de escalar el desarrollo de nuevas variedades. Durante los últimos años se han producido grandes avances en las tecnologías de secuenciación, que han impulsado los estudios genómicos de duraznero. Esto permitió la implementación de la metodología Genome-Wide Association Study (GWAS), para identificar variantes genéticas vinculadas a caracteres fenotípicos. Sin embargo, la complejidad de los caracteres poligénicos y la dificultad para diferenciar las variantes causales de otras altamente correlacionadas son las principales limitaciones de GWAS. Una alternativa de interés para este tipo de análisis, es el algoritmo de aprendizaje automático Random Forest (RF), el cual puede analizar grandes conjuntos de datos genómicos, y definir la influencia que tienen las variantes genéticas sobre los caracteres fenotípicos, siendo capaz de generar predicciones para dichos caracteres. Estas propiedades hacen de RF un método prometedor para ser aplicado en duraznero, ya que el entrenamiento de este tipo de modelos podría ayudar a identificar variantes genéticas asociadas a caracteres fenotípicos complejos, y predecir su comportamiento según la presencia/ausencia de estas variantes. En este trabajo se realizó la puesta a punto de la plataforma de genotipado de alto rendimiento conocida como double digest Restriction-site Associated DNA sequencing (ddRAD-seq) en duraznero, la cual no había sido aplicada en esta especie hasta el momento. Esta plataforma fue utilizada para caracterizar en profundidad la variabilidad genética contenida en la colección de germoplasma de la Estación Experimental Agropecuaria (EEA) San Pedro. Como resultado de este proceso se genotiparon 237 accesiones de duraznero (en donde se incluyen 3 portainjertos) y 2 ciruelos japoneses. Los datos de secuenciación presentan en promedio 1 M de lecturas de extremos apareados (2 × 250 pb) por genotipo. A partir del alineamiento de las lecturas al genoma de referencia se observó que las mismas se distribuyen de manera uniforme a lo largo de los 8 cromosomas. En la búsqueda de variantes se identificaron un total de 197.906 Single Nucleotide Polymorphisms (SNP), 16.338 Insertions/Deletions (InDel) y 2.712 Simple Sequence Repeats (SSR). Estas variantes luego de ser filtradas utilizando un porcentaje de datos faltantes menor al 10 % y un valor de Minor allele Frequency (MAF) mayor al 1 % se redujeron a 11.871 SNP, 1.214 InDel y 499 SSR (sumando un total de 13.584 variantes). Mediante una combinación de análisis multivariados se describió la relación que existe entre los genotipos de duraznero. Además, con la inclusión de los datos de 48 genotipos de duraznero recientemente secuenciados fue posible describir por primera vez fuentes de variabilidad de germoplasmas naturalizado en el país. El set de 13.584 variantes genéticas de las 237 accesiones de duraznero fue utilizado para analizar la asociación con caracteres de interés agronómico mediante las metodologías de GWAS y RF. Estos métodos tienen la capacidad de identificar variantes asociadas con un carácter en particular, pero utilizan enfoques diferentes. Al utilizar ambas metodologías se busca comprobar si RF se puede desempeñar de igual manera o mejor que GWAS en duraznero, además de validar la metodología RF como método de predicción para ser aplicado en el programa de mejoramiento de duraznero. Con estos métodos se analizaron los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, capacidad antioxidante, contenido de fenoles, firmeza, peso, contenido de sólidos solubles, fecha de floración y fecha de cosecha. Como resultado de este análisis se observó asociación con los dos métodos para los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, fecha de floración y fecha de cosecha. Los dos métodos apuntan a regiones genómicas similares en cada carácter que presentó asociación. Para cada una de estas regiones se identificaron las principales variantes asociadas con cada carácter, así como también los haplobloques que contienen a dichas variantes. Los datos de las 13.584 variantes genéticas también fueron utilizados para realizar la simulación de cruzamientos entre genotipos y analizar las características de la progenie artificial obtenida. Con el objetivo de evaluar la capacidad de estas simulaciones, primero se generaron una serie de cruzamientos de prueba para comparar con cruzamientos reales que se encuentran junto a los parentales dentro de los 237 genotipos analizados. A partir del análisis de estos datos se observó que con las simulaciones de cruzamientos es posible generar genotipos artificiales con perfiles genómicos cercanos a los originados por cruzamientos reales. Una vez realizada esta validación se procedió a simular todos los cruzamientos posibles entre los 237 genotipos, con una progenie de 100 genotipos artificiales por cruzamiento. Para estos nuevos genotipos se realizaron predicciones utilizando los modelos de RF previamente entrenados con datos de caracteres de vellosidad del fruto, color de pulpa, tipo de pulpa, fecha de floración y fecha de cosecha. Como resultado de esta serie de simulaciones se obtuvo un total de 2.820.300 genotipos artificiales, para los cuales se predijo el comportamiento de cada uno de los caracteres mencionados. Con estas predicciones es posible identificar aquellos genotipos artificiales que presentan las características de mayor interés y reconocer la combinación de parentales de la cual provienen. De esta manera se puede realizar una selección más rigurosa de parentales a cruzar, ayudando a desarrollar un programa de mejoramiento de duraznero más eficiente.	spa
dc.description.abstract	\| Peach is a member of Rosaceae family, that requires approximately from 3-4 years to reach maturity. Given its self-compatible nature and long generation cycles, this species exhibits less genetic variability than others. Due to these characteristics, breeding programs need to be modernized to speed up the development of new peach varieties. The great advances in sequencing technologies over the last few years have promoted genomic studies of peach, such as the implementation of Genome-Wide Association Study (GWAS) methodology, to identify genetic variants linked to phenotypic traits. However, the complexity of polygenic traits and the issues to differentiate causal variants from other highly correlated are the main limitations of GWAS. An alternative to this type of analysis is the Random Forest (RF) machine learning algorithm, which can analyze large sets of genomic data and define the influence of genetic variants on phenotypic traits, being able to generate predictions for these traits. These properties make RF a promising method for peach, because the training of this type of model may help to identify genetic variants associated with complex phenotypic traits, and predict their behavior based on the presence/absence of these variants. In this work we present the fine tuning of the high throughput genotyping platform known as double digest Restriction-site Associated DNA sequencing (ddRAD-seq) in peach, which has not been applied to this species until now. This platform was used to characterize the genetic variability contained in the Estación Experimental Agropecuaria (EEA) San Pedro germplasm collection. As result, 237 peach accessions (including 3 rootstocks) and 2 Japanese plums were genotyped. The sequencing data showed an average of 1 M paired-end (2 × 250 pb) reads per genotype. The alignment of reads to the reference genome showed that they are distributed in the 8 chromosomes uniformly. From variant calling, a total of 197,906 Single Nucleotide Polymorphisms (SNP), 16,338 Insertions/Deletions (InDel) and 2,712 Simple Sequence Repeats (SSR) were identified. After filtering variants with less than 10 % of missing data and a Minor Allele Frequency (MAF) higher than 1 %, the dataset was reduced to 11,871 SNP, 1,214 InDel and 499 SSR (giving a total of 13,584 variants). The relationships between the genotypes were described applying a combination of multivariate analysis. In addition, with the inclusion of data from 48 peach genotypes recently sequenced, it was possible to describe, for the first time in the country, the sources of variability of naturalized germplasms. The set of 13,584 genetic variants obtained from 237 peach accessions was used to analyze the association with traits of agronomic interest using the GWAS and RF methodologies. Although these methods have different approaches, they have the ability to identify variants associated with a particular trait . The use of both methodologies aims to verify if RF can be performed in the same way or better than GWAS in peach, as well as to validate the RF methodology as a prediction method to be applied in the breeding of peach. Both methods were applied in the analysis of flesh color, flesh type, fruit hairiness, antioxidant capacity, phenol content, firmness, weight, soluble solid content, flowering date and harvest date. As result, association was observed with the two methods for flesh color, flesh type, fruit hairiness flowering date and harvest date. The two methods point to similar genomic regions for the traits that presented association. For each of these regions, the main variants associated with each trait were identified, as well as the haploblocks that include these variants. The data from the 13,584 genetic variants were also used to simulate crosses between genotypes and analyze the characteristics of the artificial progeny obtained. To evaluate the performance of these simulations, a series of test crosses were first generated to compare with real crosses, and their respective parents, included in the 237 analyzed genotypes. The artificial genotypes generated by cross simulations showed genomic profiles closer to those originated by real crossing. In accordance with this validation, all the possible crosses between the 237 genotypes were simulated, generating a progeny of 100 artificial genotypes per cross. For each of these new genotypes, predictions were made using previously trained RF models with data from flesh color, flesh type, fruit hairiness, flowering date and harvest date; obtaining a total of 2,820,300 artificial genotypes with predicted phenotypes. Taking these predictions into account, it is possible to identify the most interesting artificial genotypes and recognize the combination of parents that generated them. Thus, a more rigorous selection of parents can be made in order to develop a more efficient peach breeding program.	eng
dc.format	application/pdf	es_AR
dc.language.iso	spa	es_AR
dc.publisher	Facultad de Ciencias Bioquímicas y Farmacéuticas, Universidad Nacional de Rosario	es_AR
dc.rights	info:eu-repo/semantics/restrictedAccess	es_AR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	es_AR
dc.subject	Prunus persica	es_AR
dc.subject	Biotecnología Vegetal	es_AR
dc.subject	Plant Biotechnology	eng
dc.subject	Bioinformática	es_AR
dc.subject	Bioinformatics	eng
dc.subject	Fitomejoramiento	es_AR
dc.subject	Plant Breeding	eng
dc.subject	Análisis de Secuencias	es_AR
dc.subject	Sequence Analysis	eng
dc.subject	Durazno	es_AR
dc.subject	Peaches	eng
dc.subject	Frutales	es_AR
dc.subject	Fruit Crops	eng
dc.subject	Genómica
dc.subject	Genomics	eng
dc.subject.other	ddRAD-SEQ	eng
dc.subject.other	Double digest RAD-seq	eng
dc.subject.other	GWAS	eng
dc.subject.other	Estudio de Asociación del Genoma Completo	es_AR
dc.title	Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico	es_AR
dc.type	info:ar-repo/semantics/tesis doctoral	es_AR
dc.type	info:eu-repo/semantics/doctoralThesis	es_AR
dc.type	info:eu-repo/semantics/acceptedVersion	es_AR
dc.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)	es_AR
dc.description.origen	EEA San Pedro, INTA	es_AR
dc.description.fil	Fil: Aballay, Maximiliano Martín. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria San Pedro; Argentina	es_AR
dc.subtype	tesis

Ficheros en el ítem

Nombre:: INTA_CRBsAsNorte_EEASanPedro_A ...
Tamaño:: 7.047Mb
Formato:: PDF

Descargar Archivo

Este ítem aparece en la(s) siguiente(s) colección(ones)

common

Tesis [18]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/restrictedAccess