Un gráfico

Nature Genetics (2023)Citar este artículo

Detalles de métricas

Setaria italica (mijo cola de zorra), un cultivo fundador de la agricultura de Asia oriental, es una planta modelo para la fotosíntesis C4 y el desarrollo de enfoques para la reproducción adaptativa en múltiples climas. Aquí establecimos el pan-genoma de Setaria mediante el ensamblaje de 110 genomas representativos de una colección mundial. El pan-genoma está compuesto por 73.528 familias de genes, de las cuales el 23,8 %, 42,9 %, 29,4 % y 3,9 % son genes core, soft core, prescindibles y privados, respectivamente; También se detectaron 202.884 variantes estructurales no redundantes. La caracterización de variantes pangenómicas sugiere su importancia durante la domesticación y mejora del mijo cola de zorra, como lo demuestra la identificación del gen de rendimiento SiGW3, donde una variante de promotor de presencia/ausencia de 366 pb acompaña a la variación de la expresión génica. Desarrollamos un genoma basado en gráficos y realizamos estudios genéticos a gran escala para 68 rasgos en 13 entornos, identificando genes potenciales para la mejora del mijo en diferentes sitios geográficos. Estos se pueden utilizar en el mejoramiento asistido por marcadores, la selección genómica y la edición del genoma para acelerar la mejora de los cultivos en diferentes condiciones climáticas.

Se considera que el mijo cola de zorra (Setaria italica), uno de los cultivos de cereales domesticados más antiguos del mundo, sentó las bases para la formación de la civilización china temprana. La evidencia arqueológica reciente sugiere que esta especie fue domesticada a partir de hace unos 11 000 años a partir de su progenitor, la cola de zorro verde (Setaria viridis)1, lo que la hace contemporánea con la cebada y el trigo en las primeras transiciones agrícolas de las sociedades neolíticas humanas. El mijo cola de zorra es la única especie de cultivo actual del género Setaria y tiene una excelente tolerancia a la sequía y a los nutrientes del suelo bajos. Desde su domesticación, el mijo cola de zorra se ha extendido por Eurasia y África, y más recientemente a las Américas, y crece en ambientes templados, tropicales y áridos.

Críticamente, las especies de Setaria emplean la fotosíntesis C4. Las plantas C4, que además del mijo cola de zorra incluyen maíz, sorgo, caña de azúcar y pasto varilla, poseen una alta eficiencia fotosintética y adaptabilidad ambiental, por lo que mantienen funciones críticas en la producción mundial de granos agrícolas y biocombustibles2,3. Sin embargo, la complejidad de la mayoría de los genomas de plantas de cultivos C4 y la falta de sistemas de transformación de alta eficiencia en estas especies han dificultado los estudios fundamentales y el mejoramiento en estos cultivos. En este sentido, el mijo cola de zorra y la cola de zorra verde son sistemas modelo ideales para plantas de cultivo fotosintéticas C4 debido a sus genomas diploides compactos (~420 Mb), ciclos de vida cortos (~70 días) y sistemas de transformación altamente eficientes4,5. A pesar de las características favorables del mijo cola de zorra como cultivo modelo fotosintético C4, que puede resultar fundamental para garantizar la seguridad alimentaria mundial6, se sabe relativamente menos sobre su diversidad genómica y su potencial para la mejora genética.

Recientemente, estudios pangenómicos en arroz7,8, soja9, trigo10, cebada11, tomate12 y patata13 indican que las variantes estructurales (SV) tienen funciones críticas en la domesticación de cultivos, así como en la determinación de rasgos14 y la mejora genética. Hasta la fecha, se han publicado dos genomas preliminares5,15 y tres genomas de calidad relativamente alta16,17,18 de mijo cola de zorra verde y mijo cola de zorra. Junto con datos de secuenciación de lectura corta a escala poblacional, estudios previos han revelado la estructura de la población en el mijo cola de zorra y la cola de zorra verde, así como la base genética de varios rasgos agronómicos clave16,19,20,21. Sin embargo, el espectro completo de variantes genéticas que subyacen a la domesticación de Setaria y su amplia adaptabilidad ecológica, incluido el papel de la diversidad pangenómica, sigue siendo en gran parte desconocido.

Aquí reunimos de novo 110 genomas de grado de referencia para 35 accesiones de Setaria silvestres, 40 autóctonas y 35 cultivadas modernas, y examinamos la evolución del genoma en el contexto de la domesticación y mejora del mijo cola de zorra. Al incorporar el pan-genoma del mijo cola de zorra, construimos la primera secuencia del genoma de Setaria basada en gráficos en estas múltiples accesiones y realizamos estudios genéticos a gran escala en 13 entornos diferentes, lo que podría servir como base para la investigación y el mejoramiento del mijo cola de zorra, proporcionando un ejemplo de 'mejoramiento por diseño' en otros cultivos (Figura complementaria 1).

Recolectamos datos de resecuenciación de todo el genoma para 630 accesiones silvestres (S. viridis), 829 autóctonas y 385 cultivadas modernas del género Setaria con una profundidad de secuenciación promedio de ~15×, de las cuales 1004 se generaron recientemente y 840 procedían de estudios previos16, 21 (Cuadro complementario 1). Después de alinear las lecturas con el genoma de referencia 'Yugu1' del mijo cola de zorra, identificamos ~60 millones de polimorfismos de un solo nucleótido (SNP) y 6,7 millones de inserciones/eliminaciones (indeles) en las 1844 accesiones (Tabla complementaria 2).

Realizamos análisis filogenéticos y de estructura poblacional utilizando 4,934,413 SNP de alta calidad (frecuencias de alelos menores ≥ 0.05 y tasas de genotipos faltantes < 0.1; Fig. 1a, b y Fig. 2a complementaria). Con base en el análisis de la estructura de la población, clasificamos las especies silvestres en cuatro subgrupos: W1, W2, W3 y W4, que son consistentes con las poblaciones 'Central', 'Central-East', 'Central-North' y 'West-Coast'. respectivamente, en un estudio previo16. W1 es el subgrupo de población más cercano al mijo cola de zorra cultivado, que contiene toda nuestra cola de zorra verde china recolectada; esto indica que W1 es el progenitor silvestre de todo el mijo cola de zorra cultivado, y es consistente con que China sea el centro de domesticación de este cultivo (Fig. 1a).

a, Árbol filogenético de las 1.844 accesiones de Setaria. Las líneas grises indican mezcla, y otras líneas con diferentes colores son subgrupos correspondientes a k = 7 en b. b, análisis de MEZCLA de k = 2–7. c, Distribución geográfica de tres subgrupos de accesiones de mijo cola de zorra. C3 se distribuye ampliamente en comparación con los otros dos subgrupos. El mapa se creó utilizando la función de datos de mapa en el paquete R ggplot2.

Datos fuente

En nuestro estudio anterior, el mijo cola de zorra cultivado se clasificó en dos subgrupos divergentes, que están estrechamente relacionados con la distribución geográfica/climática y los hábitos agrícolas19. Aquí, nuestro conjunto de datos global más grande pudo dividir aún más el mijo cola de zorra en tres subpoblaciones genéticamente diferenciadas (C1-C3) (Fig. 1). Tanto TREEMIX22 como Admixtools23 muestran que la primera división evolutiva es entre los subgrupos C3 y C1/C2, con los dos últimos divergiendo más tarde (Fig. 2 complementaria). C1 (343 accesiones) y C2 (478 accesiones) fueron más o menos consistentes con el mijo cola de zorra tipo 1 y tipo 2 en el estudio anterior19, con la población C1 distribuida en latitudes altas y C2 en latitudes relativamente más bajas con climas más cálidos. El nuevo subgrupo de población que identificamos, C3 (82 accesiones), está ampliamente distribuido en todo el mundo, lo que sugiere que C3 puede tener una mejor adaptación a una gama más amplia de climas que los otros dos subgrupos (Fig. 1c y Fig. 3b complementaria).

Para capturar el espectro completo de la diversidad genética de Setaria que puede pasarse por alto con los enfoques de resecuenciación de lectura corta, reunimos de novo 110 accesiones representativas de Setaria, incluidas 35 accesiones silvestres, 40 autóctonas y 35 cultivadas modernas (Fig. 2a). Seleccionamos estas accesiones en función de las relaciones filogenéticas y la distribución geográfica, la utilidad de reproducción y/o investigación y la distribución de subgrupos para garantizar que sean representativas de la diversidad genética dentro del mijo cola de zorra y la cola de zorra verde (Fig. 2a,b y Notas complementarias 1–5). Las accesiones que seleccionamos también abarcan diversidad fenotípica y representan el continuo de fenotipos asociados con la domesticación y la mejora (Fig. 2c, d).

a, Árbol filogenético de las 1.844 accesiones de Setaria. Las líneas con diferentes colores indican las 110 accesiones para ensamblaje de novo de la siguiente manera: silvestre (rojo), landrace (verde) y cultivar (azul). b, Distribución geográfica de las 110 accesiones representativas diversas entre las 1844 accesiones de Setaria. El color de los puntos corresponde a a. El mapa se creó utilizando la función de datos de mapa en ggplot2. c, GL y GW para 110 accesiones, y características de la arquitectura de la planta, forma/tamaño de la panícula y rendimiento de grano por panícula de variedades representativas silvestres, autóctonas y cultivadas de mijo cola de zorra. d, Diferencias en TGW, GL, GW, diámetro del tallo principal, número de macollos y fecha de espiga para cultivares silvestres, autóctonos y modernos. El número de muestras en las parcelas silvestre, criolla y cultivar en boxplots de d es de 35, 40 y 35, respectivamente. En los diagramas de caja, los cuartiles del 25 % y el 75 % se muestran como bordes inferior y superior de las cajas, respectivamente, y las líneas centrales indican la mediana. Los bigotes se extienden hasta 1,5 veces el rango intercuartílico. Los niveles de significación se calculan a partir de pruebas de Wilcoxon bilaterales.

Datos fuente

Se seleccionaron tres accesiones representativas: Me34V (silvestre), Ci846 (variedad autóctona) y Yugu18 (cultivar moderno), para construir ensamblajes de genoma de referencia de alta calidad para Setaria. Ensamblamos de novo los tres genomas con CANU24 y HERA25 usando ~110 × lecturas de PacBio y pulimos los ensamblajes usando ~65 × lecturas de Illumina y los corregimos con mapas físicos de BioNano. Estos tres ensamblajes de genoma tienen una mayor contigüidad que los genomas de referencia actualmente disponibles5,16,18, con una longitud media de contig N50 de >20 Mb y un índice de ensamblaje LTR (LAI) superior a 20. Más del 99 % de las lecturas cortas de Illumina y el 97 % de embriofitos BUSCO los genes podrían mapearse adecuadamente, lo que sugiere una gran integridad. El análisis basado en K-mer también mostró que todos los ensamblajes tienen un alto nivel de integridad (99,56 % ± 0,04 %) y calidad (40,81 ± 0,52), y pocas duplicaciones falsas (0,52 ± 0,13) (Tabla complementaria 6).

Para las 107 accesiones restantes, generamos ~ 4.1 de lecturas largas de TB PacBio y ~ 2.2 de lecturas de TB Illumina con profundidades de secuenciación promedio de alrededor de 91.1 × y 48.1 ×, respectivamente (Tabla complementaria 5). La longitud promedio del ensamblaje contig N50 varió de 126,9 kb a 5,5 Mb (Tabla complementaria 6), y una media del 99,8 % de las lecturas cortas de Illumina y el 94,5 % de los genes BUSCO embriofitos se alinearon con estos ensamblajes (Tabla complementaria 6). El análisis basado en K-mer mostró que la calidad del genoma ensamblado de las accesiones cultivadas (completitud, 97,59 % ± 2,02 %; QV, 39,36 ± 1,78; duplicación, 2,55 % ± 1,16 %) es mayor que la de las accesiones silvestres (completitud, 91,34 % ± 6,05 %; QV, 30,52 ± 6,89; duplicación, 4,34 % ± 2,48 %). La evaluación de la calidad del ensamblaje del genoma utilizando retrotransposones repetidos de terminal largo (LTR-RT) indicó que los 107 ensamblajes alcanzaron el nivel de "referencia" (LAI> 10), de los cuales 17 alcanzaron el nivel de "estándar de oro" (LAI> 20; Tabla complementaria 6 ).

Un total de 161,8 Mb a 199,9 Mb (46,2% ± 0,01%) de secuencias ensambladas se anotaron como elementos transponibles (TE; Tabla complementaria 6), siendo LTR/Gypsy y LTR/Copia las dos superfamilias de TE más abundantes. Predijimos 39.907 ± 1.056 genes que codifican proteínas en los genomas ensamblados, con una puntuación BUSCO de 94,0 % ± 1,7 % (Tabla complementaria 6) y 98,7 % ± 0,075 % de genes anclados en nueve cromosomas. Un promedio del 65 % de los exones de los genes predichos fueron respaldados por datos de secuenciación del transcriptoma, y al 55,4 % ± 1,6 % de los genes predichos se les asignaron términos funcionales (Tabla complementaria 6).

Construimos el pan-genoma del mijo cola de zorra utilizando genes que codifican proteínas, integrando datos de 80 accesiones cultivadas con las 28 accesiones silvestres del subgrupo W1 (el progenitor silvestre), más tres genomas publicados anteriormente: Yugu1 (ref. 5), xiaomi18 y A10 (ref. 16; Tabla complementaria 5). El número de familias de genes aumentó a medida que se agregaron genomas adicionales al análisis y se acercó a una meseta con n = 30 accesiones (Fig. 3a). El pan-genoma estaba compuesto por 73.528 familias de genes, de las cuales el 23,8 % eran genes centrales, el 42,9 % eran genes centrales blandos (presentes en >90 % de los individuos, 100–110 accesiones), el 29,4 % eran genes prescindibles (presentes en 2– 99 accesiones) y el 3,9% eran genes privados (Fig. 3a). Identificamos 14.283 familias de genes adicionales en el pan-genoma que están ausentes en el genoma de referencia Yugu1. Estos genes se enriquecieron en la protección del ARN, la respuesta a la luz y los procesos metabólicos específicos, como los procesos metabólicos de aldehídos celulares y metabólicos de proteínas (Tabla complementaria 7).

a, El pan-genoma de Setaria. La curva de crecimiento sin tendencia del pangenoma indica un pangenoma cerrado de Setaria. El gráfico circular muestra la proporción de la familia de genes marcada por la composición. b, Gráfico de barras apiladas del número y tipo de SV de las 110 accesiones. c, Distribución de SV de 112 genomas en los nueve cromosomas del mijo cola de zorra. d, Distribución de los números de PAV frente a la distancia al gen. e, Curvas acumulativas de pan-PAV y core-PAV en diferentes grupos con accesiones adicionales añadidas. La curva de crecimiento sin tendencia de pan-PAV indica un pan-PAV cerrado de Setaria.

Datos fuente

Al aprovechar los ensamblajes de genoma de alta calidad, realizamos una alineación del genoma por pares con 'Yugu1' e identificamos 24,3 millones de SNP y 3,8 millones de indeles (<50 pb) en las 112 accesiones, el 1,5 % de las cuales no son sinónimos y pueden afectar la función del gen. (Cuadros complementarios 8 y 9). Se detectaron un total de 202 884 SV no redundantes (≥ 50 pb de tamaño), que comprenden 107 151 inserciones, 76 915 deleciones, 18 455 translocaciones y 363 inversiones (Fig. 3b y Tabla complementaria 8); aproximadamente el 90% de estos tenían menos de 8,8 kb, 6,6 kb, 62,6 kb y 137,4 kb, respectivamente (Fig. 4a complementaria). Las variantes de presencia-ausencia (PAV; grandes inserciones y deleciones) son características clave de los pan-genomas de cultivo, y fueron el tipo de SV más abundante (Fig. 3b y Tabla complementaria 8) y tendieron a enriquecerse en regiones repetitivas intergénicas (Fig. 3c y Fig. 4b complementaria).

Encontramos que la mayoría de las variantes de presencia (72,3 %; n = 59 429) y ausencia (92,8 %; n = 99 477) se superpusieron con TE, que son significativamente más altas que la proporción de TE en todo el genoma (60,5 %; P < 0,001; Fig. 4c). Estos PAV asociados con TE se agruparon en regiones de transposones de ADN, y la mayoría de los puntos de ruptura de estos PAV estaban cerca de los sitios de unión de TE (Fig. 4d, e complementaria), lo que sugiere que los transposones de ADN pueden haber impulsado la formación de la mayoría de los PAV en el genoma de Setaria. También identificamos 15 758 PAV derivados de TE de alta confianza, que se colocaron con TE individuales intactos junto con duplicaciones del sitio de destino (TSD).

Analizamos más a fondo la distribución de SV en función de la distancia de las regiones génicas. Encontramos, por ejemplo, que los números de PAV disminuyeron gradualmente a medida que aumentaba la distancia desde el gen más cercano (Fig. 3d). Encontramos un conjunto de SV localizados dentro de promotores o cuerpos genéticos de loci funcionalmente significativos, y los SV ocurren con mayor frecuencia en genes con bajo nivel de expresión (Notas complementarias 1–5 y Figuras complementarias 5 y 6).

Realizamos un análisis filogenético utilizando SV, que diferenció claramente las 112 accesiones en dos grupos distintos, de acuerdo con la filogenia basada en SNP, lo que sugiere que los SV también están asociados con la domesticación y mejora de Setaria (Fig. 7 complementaria). La correlación significativa de la densidad de PAV y los genes expresados diferencialmente entre varios grupos de población (prueba t de Student de dos colas, P = 2.2 × 10−16) sugiere que los PAV subyacen a las diferencias de expresión génica entre poblaciones, lo que fortalece aún más la posibilidad de que los PAV hayan tenido un papel en la domesticación y mejora de cultivos (Notas complementarias 1–5 y Figura complementaria 6).

Para identificar los PAV bajo selección durante la domesticación o mejora del cultivo en el mijo cola de zorra, comparamos las frecuencias de PAV entre accesiones silvestres y autóctonas para identificar PAV putativos de 'domesticación' (Fig. 4a-c), y entre variedades locales y cultivares para posibles PAV de 'mejora' ( Fig. 4a y Fig. 8 complementaria). Definimos PAV con frecuencias sustancialmente diferentes entre la variedad silvestre y la variedad local, y la variedad local y los cultivares como SV seleccionados por domesticación (domPAV) y SV seleccionados por mejora (impPAV), respectivamente. Se identificaron un total de 4582 domPAV (Fig. 4a-c y Tabla complementaria 10) y 152 impPAV (Fig. 4a, Figura complementaria 8 y Tabla complementaria 11), lo que sugiere una mayor presión de selección durante la domesticación del mijo cola de zorra en comparación con la mejora de cultivos posterior. . Entre ellos, 1933 domPAV y 57 impPAV son PAV favorables (favPAV) que tienen frecuencias constantemente elevadas o reducidas tanto en las accesiones de variedades locales como cultivadas. Identificamos 680 genes favorables que tienen favPAV en el gen o en las regiones promotoras, y se enriquecen en procesos biológicos relacionados con la domesticación de cultivos, como el proceso reproductivo, el fotoperiodismo, la acumulación de pigmentos y la utilización de nitrógeno (Fig. 4d). También buscamos la colocalización entre regiones genómicas bajo selección en diferentes ramas del árbol de población (Fig. 3 complementaria) y estos PAV seleccionados; encontramos que diez de estas regiones seleccionadas se superponen con domPAV e impPAV (Tabla complementaria 4).

a, XPCLR, relación de diversidad de nucleótidos (πW/πL) y pruebas FST se utilizan para el análisis de selección en S. viridis. Las líneas discontinuas verticales indican el umbral de señales de selección de todo el genoma (XPCLR > 9,66, πW/πL > 72,96 y FST > 0,53). DomPAV y favPAV corresponden a b y c. b, Los diagramas de dispersión muestran las frecuencias de PAV en la raza local y salvaje (valor de P calculado mediante la prueba exacta de Fisher bilateral). c, Patrón de frecuencia de los PAV relacionados con la domesticación (domPAV). Las líneas en naranja y azul indican favPAV durante la domesticación. d, análisis de enriquecimiento GO de genes favPAV. La intensidad del color (valor P) refleja la importancia de la prueba de enriquecimiento (calculada usando la prueba exacta de Fisher bilateral). El tamaño del círculo representa las frecuencias de los términos GO agregados. e, Intersección de genes relacionados con la domesticación a través de métodos basados en PAV y tres basados en SNP. f, Haplotipo y firma selectiva en el gen SvLes1. g, haplotipo y firma selectiva del gen sh1. h, fenotipo devastador de NIL con alelo SH1 y sh1insert. Barra de escala, 1,5 cm. πW/πL, πsalvaje/πvariedad local.

Datos fuente

Durante mucho tiempo se ha observado que rasgos similares han evolucionado en distintas especies de cultivos de cereales durante la domesticación, y estos rasgos del síndrome de domesticación parecen estar determinados por genes similares en distintos linajes cultivados. De hecho, encontramos varios genes domPAV que están asociados con la domesticación en varias especies de cultivos de cereales, incluido el gen de domesticación morfológica del maíz tb1, el gen de floración del arroz Hd3, los genes de peso/forma del grano LG1 y GW6a, y el gen de la temperatura de gelatinización del almidón SSII ( Figura complementaria 9). Para identificar aún más los posibles loci relacionados con la domesticación, examinamos las firmas de selección de todo el genoma asociadas con la domesticación del mijo cola de zorra utilizando datos SNP con tres métodos diferentes. A partir del análisis de barrido selectivo basado en SNP, encontramos que los genes responsables de los rasgos agronómicos, como los homólogos de Hd1, TGW6 y el gen de calidad para comer/cocinar SBE2, también se seleccionaron durante la domesticación (Fig. 10 complementaria), de acuerdo con que el mijo cola de zorra posee un grano más alto. rendimiento, mejor calidad para comer y cocinar, y un período de crecimiento más largo después de su domesticación a partir de cola de zorro verde. Sin embargo, los métodos basados en SNP recordaron solo el 22,4% (328) de los genes domPAV (Fig. 4e), lo que sugiere que el uso de frecuencias PAV podría ser un enfoque complementario a los métodos basados en SNP para identificar genes bajo selección positiva. Juntos, estos análisis identificaron la variación pangenómica (es decir, la presencia o ausencia de genes/secuencias) que pueden tener funciones importantes durante la domesticación y mejora del mijo cola de zorra.

Para explorar más a fondo el papel de los PAV en la evolución del mijo cola de zorra, observamos de cerca los siguientes dos rasgos clave de domesticación en los cultivos de cereales: semillas que no se rompen y mayor rendimiento de grano. La no fragmentación de semillas se considera un fenotipo clave de los cultivos de cereales domesticados y, de hecho, los arqueólogos lo utilizan como un marcador crítico de la domesticación de cultivos26,27. Para identificar los loci que destruyen las semillas, realizamos un análisis de QTL y secuenciación de análisis de segregación masiva (BSA-seq) utilizando una población RIL (Notas complementarias 1–5) y tres QTL principales (qSH5.1, qSH5.2 y qSH9.1) Se identificó el control de la rotura de semillas en Setaria (Figura complementaria 11b, c).

Para qSH5.1, encontramos que el gen SvLes1 relacionado con la fragmentación de Setaria recientemente informado contiene un domPAV de 6,7 kb y es un gen candidato16. Utilizando líneas casi isogénicas (NIL), también mapeamos finamente y reducimos qSH9.1 a una región de 87,3 kb entre los marcadores M2 y M3, que contenían Seita.9G154300 (sh1, un homólogo del gen que rompe el arroz OsSh1; Complementario Notas 1–5). Dos NIL, NIL-SH1 y NIL-sh1insert, con una arquitectura de planta similar pero un fenotipo de destrucción distinto, confirmaron además que sh1 es el locus qSH9.1 en el mijo cola de zorra (Fig. 4g y Fig. 12 complementaria). La función del gen de sh1 también se demostró de forma independiente en un estudio transgénico en la ref. 28

El análisis de haplotipos de sh1 y SvLes1 respalda estudios previos de que las inserciones en SvLes1 no siempre están involucradas en la domesticación del mijo cola de zorra29, mientras que la inserción en sh1 se fija en el mijo cola de zorra domesticado (Fig. 4f, g). Curiosamente, encontramos que ni la eliminación de 6.7 kb en SvLes1 ni la eliminación de 855 pb en sh1 se fijaron en cola de zorro verde (Fig. 4f, g), lo que sugiere la acción de otros genes (por ejemplo, el gen ubicado en qSH5 .2) involucrado en la regulación de la trituración de cola de zorro verde.

El segundo rasgo clave de domesticación es el aumento del rendimiento de grano en las especies de cultivos cultivados26,27 (Fig. 2c, d). La forma del grano (ancho del grano (GW) y longitud del grano (GL)) es un determinante clave del rendimiento de grano del mijo cola de zorra, y el análisis de correlación y las distribuciones fenotípicas también sugieren que el rendimiento del grano (peso de mil granos (TGW)) también está determinado por GW (Fig. 5a,b). Para examinar este rasgo genéticamente, utilizamos las 110 secuencias genómicas de alta calidad que desarrollamos, que son recursos importantes para los estudios de asociación de todo el genoma (GWAS) de rasgos relacionados con la domesticación, que abarcan accesiones de formas tanto silvestres como cultivadas. Realizamos un GWAS basado en SV (SV-GWAS) para TGW, GW y GL. Encontramos varias señales GWAS significativas en los cromosomas 1, 3, 4, 5 y 9 para TGW y GW (Fig. 5c, d). Curiosamente, encontramos una deleción de 366 pb en el cromosoma 3, con la asociación más significativa con TGW (P = 8,6 × 10-15) y la segunda asociación más significativa (P = 7,3 × 10-9) con GW (Fig. 5c, d). También observamos una disminución moderada en la diversidad de nucleótidos en las razas locales en esta región, y esta eliminación se clasificó como favPAV, lo que sugiere una selección positiva durante la evolución del mijo cola de zorra (Figs. 4a y 5e).

a, Correlación fenotípica entre TGW, GL y GW. b, Distribución fenotípica de TGW, GL y GW. c, d, diagramas de Manhattan de SV-GWAS para TGW y GW, respectivamente. Las líneas horizontales indican el umbral de significación de todo el genoma corregido por Bonferroni (α = 1 y α = 0,05). e, Distribución de la diversidad de nucleótidos de variedades silvestres, autóctonas y cultivadas en un intervalo de 200 kb. f, Patrones de expresión de 27 genes dentro del intervalo de 200 kb que albergan el pico SV. g, La diferencia de tamaño de grano de las líneas de sobreexpresión de SiGW3 y de tipo salvaje. h–k, Comparación de niveles de expresión y TGW, GW y GL entre Ci846 de tipo salvaje y tres líneas de sobreexpresión independientes. l, análisis de haplotipos de SiGW3 y regiones genómicas flanqueantes izquierda y derecha de 20 kb. Las flechas negras indican tres variedades locales con el mismo genotipo que las accesiones silvestres en scaffold_3:7310555. m, Validación de la función de la eliminación de 366 pb aguas arriba de SiGW3. Los ensayos transitorios se realizan en protoplastos de hojas de mijo cola de zorra. El esqueleto de la construcción consiste en el promotor mínimo del virus del mosaico de la coliflor (mpCaMV, recuadro verde), el ORF de luciferasa (recuadro blanco) y el terminador de nopalina sintasa (recuadro morado). Se clonaron porciones de componentes distales de la región de control (recuadros naranjas) del cultivo de mijo cola de zorra y cola de zorra verde (tipo salvaje) en sitios de restricción aguas arriba del promotor mínimo. 'Δ' indica la escisión de un SV de 366 pb del componente distal. Las barras azules horizontales muestran los niveles de expresión de cada construcción. El número de muestras es de 5. Valores de n, XPCLR, FST y π entre mijo silvestre y cultivado. Las líneas discontinuas rojas son señales de selección (XPCLR > 53,6, FST > 0,644). La línea discontinua vertical indica el gen homólogo longmi029371 de SiGW3 en mijo escoba. Los datos se presentan como media ± sd en h–k y m; la significación se calcula mediante la prueba t de Student de dos colas. El número de muestras en h e i es 6 y 3, respectivamente. El número de muestras/semillas de WT, OE1, OE2 y OE3 en j y k es todo 35.

Datos fuente

Examinamos patrones de expresión génica en diez tejidos de 'A10' (silvestre) y 'Yugu1' (cultivar). El intervalo de 200 kb alrededor de este SV albergaba 27 genes, ocho de los cuales mostraban patrones de expresión diferencial en semillas en la etapa de llenado de grano entre 'A10' y 'Yugu1' (Fig. 5f). Luego buscamos ortólogos de arroz de estos ocho genes y encontramos que Seita.3G109700 era más probable que fuera el gen causal (en lo sucesivo, lo llamamos SiGW3) para TGW y GW; este locus tiene una similitud de secuencia del 73 % con el gen GW5/GSE5 relacionado con la domesticación del arroz, que regula el tamaño del grano de arroz al influir en la proliferación celular en las cáscaras de las espiguillas30,31.

Para validar la función de SiGW3, sobreexpresamos este gen en mijo cola de zorra (acceso 'Ci846'). En comparación con las plantas de tipo salvaje, las plantas transgénicas mostraron una mayor expresión del gen SiGW3, redujeron TGW y GW y aumentaron GL (Fig. 5g-k). Para identificar la variante causal, analizamos las variantes genómicas dentro de SiGW3 y una región de 20 kb que flanquea el locus en las accesiones de 110 mijo y encontramos que solo la deleción de 366 pb (~ 7,2 kb de distancia del gen) cosegregaba con el fenotipo ( Figura 5l). Los ensayos transitorios en protoplastos de mijo cola de zorra indican que las construcciones con secuencias distales de cola de zorra verde (tipo salvaje) y componentes de secuencia distal de mijo cola de zorra modificados que excluyen el fragmento de 366 pb (△C) impulsaron una mayor expresión del gen informador de luciferasa en comparación con las construcciones que contienen el fragmento de 366 pb Fragmento del cultivar de mijo cola de zorra (C) (Fig. 5m). Esto indica que SiGW3 regula negativamente el peso del grano, y la secuencia genómica distal de 366 pb posiblemente reprime la expresión de SiGW3, lo que aumenta el peso del grano en el mijo cola de zorra domesticado. SiGW3 tiene una función y un patrón de selección similares tanto en el mijo de cola de zorra como en el arroz30 y también parece estar bajo una fuerte selección en el mijo de escoba (Panicum miliaceum; Fig. 5n), lo que sugiere que el mismo gen puede estar involucrado en la evolución de GW en tres pastos de cereales diferentes linajes.

Para tener en cuenta la variación pangenómica y desarrollar un recurso clave para el mejoramiento, construimos un genoma de referencia basado en gráficos de Setaria integrando 107 151 inserciones, 76 915 eliminaciones y 363 inversiones en 112 accesiones de mijo cola de zorra y cola de zorra verde en la secuencia del genoma de referencia Yugu1 ( Métodos). La disponibilidad de una secuencia genómica basada en gráficos que vaya más allá de los ensamblajes de referencia clásicos de un solo genoma podría capturar más heredabilidad faltante.

Genotipamos 1844 accesiones de Setaria usando secuencias de lectura corta de Illumina y el genoma basado en gráficos y también recolectamos 226 conjuntos de fenotipos (68 rasgos) que incluyen rendimiento, arquitectura de la planta, tiempo de crecimiento, biomasa, calidad del grano, coloración y rasgos relacionados con la resistencia a enfermedades. Para identificar genes que operan en un amplio conjunto de entornos climáticos, estudiamos estos rasgos en 13 ubicaciones distintas desde 18,3°N (Sanya) a 47,3°N (Qiqihar) y 87,7°E (Urumqi) a 123,9°E (Qiqihar) a lo largo de 11 años (Fig. 6a, Fig. 13 complementaria y Tabla 12 complementaria).

a, Colección de fenotipos de 13 ubicaciones geográficas a lo largo de 11 años. Los números entre paréntesis son el número de años y rasgos evaluados en las ubicaciones correspondientes. El mapa fue creado por el software QGIS con datos fuente del Centro Nacional de Datos Científicos del Sistema Terrestre, Infraestructura Nacional de Ciencia y Tecnología de China. b, Variación fenotípica entre diferentes condiciones de crecimiento. Letras diferentes en el mapa de calor representan diferencias significativas (P < 0,05) según la prueba de comparaciones múltiples de Duncan, que se realizó mediante ANOVA de dos colas. El color del mapa de calor representa los valores de fenotipo escalados. Los fenotipos del 1 al 41 corresponden a la Tabla complementaria 13. c, Gráficos de Manhattan de SV-GWAS (arriba) y SNP-GWAS (abajo) de 247 conjuntos de fenotipos. Las líneas verticales discontinuas indican el umbral de significación corregido por Bonferroni (α = 0,05). Los triángulos indican las señales asociadas detectadas únicamente por SV-GWAS. d, Frecuencia de loci asociados al fenotipo detectados por diferentes marcadores. e, análisis de vinculación entre los SV del genoma basado en gráficos utilizando 680 accesiones y sus SNP cercanos (± 50 kb) que lo flanquean. f, Precisión de diferentes fenotipos con diferentes subconjuntos de marcadores. Las líneas grises representan diferentes fenotipos y los puntos coloreados indican la precisión de la predicción con marcadores correspondientes más altos que otros. Los sufijos cg y gwas representan paneles de marcadores de alto efecto seleccionados en función de la importancia de la característica por CropGBM y GWAS, respectivamente (Métodos). g, Porcentaje de mejora del rendimiento (n = 46) y rasgos relacionados con la calidad del grano (n = 17) usando la sustitución de base de las 20 variantes más efectivas. En los diagramas de caja, los cuartiles del 25 % y el 75 % se muestran como bordes inferior y superior de las cajas, respectivamente, y las líneas centrales indican la mediana. Los bigotes se extienden hasta 1,5 veces el rango intercuartílico.

Datos fuente

Encontramos que la mayoría de los fenotipos fueron influenciados en gran medida por sus entornos de cultivo en el campo (Fig. 6b y Tabla complementaria 13). Para optimizar el potencial de mejoramiento en diferentes condiciones ambientales y explotar de manera más eficiente los recursos genéticos, realizamos estudios de GWAS y selección genómica (GS) para los 226 fenotipos. Descubrimos que GWAS basado en SV mejora la eficiencia de GWAS basado en SNP para algunos rasgos (Fig. 6c, d). Se identificaron un total de 1084 señales que estaban sustancialmente asociadas con 128 fenotipos para 60 rasgos, y 60 de las señales/QTL (5,5 %) solo se detectaron mediante SV-GWAS (Fig. 6d y Tabla complementaria 14). Además, el análisis de desequilibrio de ligamiento mostró que ~ 36, 9% de los SV no estaban en LD con SNP flanqueantes (± 50 kb, R2 <0, 5) (Fig. 6e), lo que indica que los marcadores SNP no capturan abundante información genética asociada con los SV.

Ilustramos la utilidad de usar genomas basados en gráficos y SV asociados en el mapeo de GWAS mediante el examen de algunos rasgos. El contenido aparente de amilosa (AAC) es un factor clave que afecta la calidad de consumo y cocción en diferentes cultivos, según lo determina el gen de la sintasa de almidón unido a gránulos (GBSS/Waxy)32,33. Identificamos directamente el SV principal asociado con AAC (una inserción de 196 pb en la posición 1 485 625 en el cromosoma 4, P < 1,39 × 10−16) ubicado 1,6 kb aguas abajo del gen Seita.4G022400 (GBSSI), mientras que el SNP principal (P <5.64 × 10−9) se encuentra a 398 kb del gen GBSSI (Fig. 14 complementaria).

También encontramos que dos SV principales, una deleción de 277 pb en el cromosoma 1 y una deleción de 3,9 kb en el cromosoma 2, se asociaron sustancialmente con TGW (P < 2,73 × 10−6, Dingxi 2018) y la longitud del pedúnculo (P < 4,67 × 10−7, Changzhi 2011) a través de SV-GWAS, mientras que no se pudieron detectar SNP asociados dentro de un intervalo de 50 kb de estos SV (Figuras complementarias 15 y 16). Curiosamente, encontramos un gen pleiotrópico (Seita.9G020100), que codifica un homólogo de arroz Ghd7, que tiene funciones cruciales en la producción y adaptación del arroz34, y solo fue detectado por SV-GWAS. Los SV de plomo también están asociados sustancialmente con la fecha de partida (P < 5,99 × 10−11, Beijing 2016), la longitud de la hoja (P < 3,92 × 10−9, Anyang 2011), el número de rama principal (P < 5,74 × 10−10, Changzhi 2011) y el peso de la paja (P < 1,31 × 10−6, Qitai 2014; figura complementaria 17). Juntos, estos indican que los SV en el mijo cola de zorra pueden contener información genética adicional que no está representada por los SNP. Cabe señalar que algunos de estos loci GWAS pueden haber estado bajo selección positiva; de las 52 regiones genómicas asociadas con la selección en las subpoblaciones cultivadas C1-C3 (Tabla complementaria 4), ocho regiones se superponen con los éxitos de GWAS para el número de panículas, el número de ramas, la fecha de emergencia, el color de las cerdas y el contenido de glicina y arginina del grano. También encontramos que para rasgos de domesticación clave como TGW y GW, todas las señales de GWAS abarcan domPAV, vinculando nuevamente estos SV con la evolución del mijo cola de zorra.

Finalmente, desarrollamos y evaluamos la precisión de predicción de diferentes paneles de marcadores para estudios de GS de 68 rasgos agronómicos y de calidad en entornos geográficamente distintos. Con cientos de SNP y SV, diferentes fenotipos mostraron un rango de precisión de GS pronosticada, con un 97 % de fenotipos con una precisión pronosticada de más de 0,7 y la precisión de predicción más alta con más de 0,95 (color de la hoja de una plántula en Beijing; Tabla complementaria 15). Encontramos que dos rasgos tienen mayor precisión con marcadores SV solo en comparación con otros subconjuntos de marcadores, y la precisión de 167 (73,9 %) rasgos con marcadores SNP y SV aumentó entre 0,04 % y 12,67 % en comparación con marcadores solo SNP (Fig. 6f y Tabla Suplementaria 15). Para explorar el potencial de reproducción en el mijo cola de zorra, estimamos los valores de reproducción estimados genómicos (GEBV) utilizando 1,04 millones de combinaciones de haplotipos para fenotipos de 46 rasgos relacionados con el rendimiento y 17 rasgos de calidad del grano. Nuestros resultados indican que los GEBV de los rasgos de rendimiento y calidad del grano podrían mejorarse hasta en un 50 % y un 49 %, respectivamente (Fig. 6g y Tabla complementaria 16).

El mijo cola de zorra ha sido ampliamente considerado uno de los cultivos fundadores en el este de Asia1, cuyo amplio nicho de crecimiento ambiental, sistema fotosintético C4, genoma relativamente pequeño, período de crecimiento corto y facilidad de transformación lo convierten en una especie de cultivo clave para hacer frente a la seguridad alimentaria mundial en medio de cambios. climas del mundo. Los 110 genomas de nivel de referencia del conjunto central que reunimos representan la amplia gama de diversidad en 1844 accesiones y ecotipos de S. italica y S. viridis, y servirán como un recurso crítico para futuros estudios biológicos y esfuerzos de mejoramiento. Con estos genomas, pudimos establecer un pangenoma completo y un genoma basado en gráficos de Setaria, que ofrece información sobre la variación genómica en Setaria silvestre y cultivada, y proporciona herramientas valiosas para análisis genómicos funcionales y mejoramiento de precisión en el mijo cola de zorra.

Nuestro análisis demográfico proporciona pistas sobre la evolución de esta importante especie de cultivo. Nuestro análisis identificó la subpoblación progenitora ancestral inmediata en el mijo verde (W1) y, según la cantidad de deriva (Fig. 3a complementaria), sugirió que C3, que puede tolerar una gama más amplia de condiciones climáticas/ambientales, puede haberse establecido como la primera subpoblación de mijo cola de zorra cultivada. Habilitados por los 110 genomas de Setaria ensamblados de novo, identificamos regiones genómicas que pueden estar asociadas con la domesticación y mejora del mijo cola de zorra, proporcionando información genética sobre cómo evolucionó esta especie domesticada.

Durante mucho tiempo, la identificación de SV ha sido un desafío cuando se utilizan datos de resecuenciación de lectura corta. Sin embargo, el papel fundamental de los SV en la domesticación de cultivos, la determinación de características y la mejora agronómica se ha demostrado en varios estudios6,7,8,9,10,11,12,13,14. Con nuestro pan-genoma construido que comprende más de 100 secuencias de genoma de nivel de referencia, identificamos ~ 10,000 SV por genoma de Setaria, comparable con el observado en el tomate35 pero menos que en el arroz8. Un número sustancial de estos SV, en particular los PAV, se asociaron con TE, lo que concuerda con que la actividad de TE es un mecanismo importante para la generación de SV en los genomas36,37. El efecto de los PAV en el genoma también puede diferir entre genes, y encontramos que, de hecho, los SV se encuentran sustancialmente en genes de baja expresión. Este patrón también se observa en el arroz7,8 y es consistente con un modelo estabilizador de la evolución de la expresión génica38, en el que se esperaría que los genes de baja expresión estuvieran bajo una selección más débil y, por lo tanto, es más probable que se asocien con PAV39,40. Finalmente, de manera similar a los estudios de otros cultivos, encontramos que los SV también subyacen en la determinación del rasgo del mijo cola de zorra, ejemplificado por nuestro estudio de dos genes clave de domesticación, SiGW3 y sh1.

La construcción del genoma basado en gráficos nos permitió genotipar SV en una población grande usando resecuenciación de lectura corta y realizar GWAS y GS en 680 accesiones de mijo cola de zorra para 68 rasgos en 13 ubicaciones geográficas diferentes, cada una con distintas condiciones climáticas de crecimiento. Identificamos SNP y SV sustancialmente asociados con varios fenotipos, que podrían usarse en la predicción genómica para el mijo cola de zorra en diferentes entornos. De hecho, la precisión de predicción para la mayoría de los rasgos aumentó si los marcadores SNP y SV se usaron conjuntamente, y encontramos que dos rasgos tienen mayor precisión con los marcadores solo SV en comparación con los marcadores solo SNP. Esta precisión de predicción es sustancialmente mayor que la observada en tomate12, posiblemente debido a la especificidad de la especie o el rasgo. Con nuestro genoma basado en gráficos, también podemos estimar los valores genéticos potenciales de los rasgos relacionados con el rendimiento y la calidad del grano, lo que brinda vías para el mejoramiento del mijo cola de zorra para la adaptación al cambio climático.

En conjunto, nuestra investigación destaca la utilidad de analizar pan-genomas de cultivos para proporcionar catálogos más completos de variación genética, y junto con el creciente número de ejemplos de SV con efectos genéticos en otros cultivos6,7,8,9,10,11,12 ,13,14, proporcionamos evidencia adicional del papel crucial que tienen las variantes pangenómicas en la evolución y mejoramiento de cultivos. Esto puede resultar crucial en el desarrollo de programas de mejoramiento apropiados para otros cultivos, y ayudar a guiar y acelerar la mejora de los cultivos mediante el mejoramiento asistido por marcadores, GS y/o edición del genoma.

Todas las accesiones secuenciadas de 1.004 mijo cola de zorra y cola de zorra verde se purificaron durante al menos cuatro generaciones en Beijing y Hainan, China. Para el muestreo, plantamos todas las accesiones en la Estación Experimental del Instituto de Ciencias de Cultivos, Academia China de Ciencias Agrícolas, Beijing, en la temporada de crecimiento de 2018. Para los análisis GWAS y GS, plantamos y examinamos los rasgos agronómicos y de calidad del grano en 13 ambientes distintos en diferentes años (enumerados en la Tabla complementaria 12).

Se recolectaron hojas jóvenes y se extrajo el ADN genómico usando bromuro de cetiltrimetilamonio (CTAB) y se usó para construir bibliotecas de secuenciación siguiendo las instrucciones del fabricante (Illumina Inc.). Las bibliotecas se secuenciaron en pares (NGS) en Illumina NovaSeq 6000 en Novogene. Para tres accesiones representativas, la construcción de la biblioteca de lectura larga siguió el protocolo estándar (Pacbio Inc.) y se secuenció en la plataforma Pacbio RSII en Nextomics Bioscience. La construcción de bibliotecas de lectura larga y la secuenciación de las otras 107 accesiones ensambladas de novo fueron realizadas por Berry Genomics con la plataforma Pacbio Sequel II (Tabla complementaria 5).

Los ARN mensajeros totales se extrajeron con TRIzol (Invitrogen) de diferentes tejidos y se secuenciaron con la plataforma NovaSeq 6000. Para BioNano, se recolectaron tejidos de hojas frescas de plántulas de 10 días de edad de tres accesiones (Me34V, Ci846 y Yugu18) y se extrajo y marcó ADN de alto peso molecular de acuerdo con los protocolos estándar de BioNano Genomics. Todas las muestras marcadas se cargaron y analizaron con el sistema SAPHYR de BioNano Genomics.

Las lecturas de secuenciación de baja calidad de las 1844 accesiones se eliminaron mediante fastp (v0.23.0)41 con parámetros predeterminados, y las lecturas filtradas se asignaron al genoma de referencia Yugu1 con BWA (v0.7.12-r1039)42 utilizando parámetros predeterminados. Las lecturas duplicadas y mapeadas no únicas se excluyeron mediante SAMtools (v1.7)43 y Genome Analysis Toolkit (GATK v4.1.4)44, respectivamente. La llamada SNP fue realizada por GATK (v4.1.4)44. SnpEff (v5.0)45 se utilizó para anotar y predecir los efectos de los SNP e indeles identificados. Para identificar la variación estructural en las 1844 accesiones, asignamos lecturas cortas de Illumina filtradas al genoma de referencia basado en gráficos de Setaria y SV genotipados usando el kit de herramientas vg (v1.28.0)46 con parámetros predeterminados.

Los SNP o PAV bialélicos con una frecuencia faltante <10 % y una frecuencia de alelos menores >0,05 se mantuvieron para el análisis filogenético. El árbol filogenético de unión de vecinos basado en SNP se infirió utilizando MEGA-CC (v10.1.8)47 y SNPhylo (v2018-09-01)48 con configuraciones estándar y 1000 valores de arranque. El árbol filogenético de máxima verosimilitud basado en SV se construyó a partir de datos PAV binarios con 1000 arranques mediante IQ-TREE (v2.1.2)49. Los árboles filogenéticos se dibujaron usando ggtree50, un paquete R. Realizamos un análisis de la estructura de la población utilizando el software ADMIXTURE (v1.3.0)51, inicialmente con k en un rango de 2 a 20. Aquí se eligió posteriormente k = 7 porque era el valor mínimo de k que separaba todos los grupos previamente conocidos de cola de zorro verde16 . Luego ejecutamos ADMIXTURE diez veces con diferentes semillas aleatorias en k = 7.

Los guiones para nuestros análisis genómicos de población se depositan en https://github.com/qiangh06/Setaria-pan-genome/tree/main/Population%20genomic%20and%20Demographic%20inference. Para el análisis de la historia demográfica, nuestro objetivo fue estimar el proceso de formación de tres subgrupos de mijo cola de zorra. Para estos análisis, filtramos los SNP con heterocigosidad > 0,05, frecuencia alélica mínima < 0,05 y tasa de genotipificación < 90 % mediante PLINK (v.1.90)52. Para reconstruir las relaciones evolutivas entre las subpoblaciones domesticadas C1–C3 y la población silvestre más cercana W1, usamos Admixtools (v2.0)23 en R v4.13 para construir un gráfico de mezcla sin bordes de migración. Usamos un umbral absoluto máximo de puntaje z estadístico f4 (| puntaje z |) de <3.0 para aceptar modelos y agregamos las subpoblaciones salvajes restantes W2–W4 secuencialmente para explorar si podrían incorporarse sin bordes de migración. Los gráficos de mezcla de población que incluyen las siete subpoblaciones también se infirieron utilizando TreeMix (v1.13)22, con W3 como un grupo externo. Usamos el método GRoSS53 para escanear el genoma en busca de selección positiva a lo largo de cada rama de nuestro gráfico de mezcla de cuatro poblaciones que comprendía W1, C1, C2 y C3.

Reunimos 110 accesiones diversas de Setaria utilizando dos enfoques. Para tres genomas de referencia de alta calidad (Me34V, Ci846 y Yugu18), utilizamos las plataformas Illumina NovaSeq 6000 y PacBio RSII (Tabla complementaria 5) para la secuenciación, complementadas con mapas ópticos BioNano. Estimamos que el tamaño del genoma de estas tres accesiones es de ~ 430 Mb según la distribución k-mer de las lecturas cortas de Illumina. CANU (v2.2)24 y HERA (v1.0)25 ensamblaron subsecuentemente más de 50 Gb de sublecturas de PacBio (>100×; Tabla complementaria 5) de cada accesión en contigs. Después de pulir con lecturas de Illumina y una mayor corrección con mapas físicos de BioNano, obtuvimos 75, 114 y 103 contigs para Me34V (398 819 634 pb, N50 = 21,1 Mb), Ci846 (412 045 876 pb, N50 = 21,0 Mb) y Yugu18 (409 028 184 pb, N50 = 20,6 Mb), respectivamente. Para las otras 107 accesiones, secuenciamos usando Illumina NovaSeq 6000 a >40× datos de lectura corta (excepto Zhaogu1 con 37,5× datos) para cada accesión. Examinamos el tamaño del genoma y la heterocigosidad usando Jellyfish (v2.3.0)54 y GenomeScope (v2.0)55. Con base en la heterocigosidad del genoma examinada, generamos > 50 × y > 80 × datos de lectura larga para accesiones de baja heterocigosidad (<0,3 %) y alta heterocigosidad (≥0,3 %) mediante las plataformas Pacbio Sequel II, respectivamente (Tabla complementaria 5). Posteriormente, ensamblamos de novo estos genomas de Setaria utilizando canalizaciones CANU24 y HERA25. La autoalineación de las secuencias contig del genoma completo se realizó utilizando los parámetros predeterminados de BWA-MEM (v0.7.12-r1039)42, y las secuencias heterocigotas se filtraron con Redundans (con -t 10, -identity 0,55, -overlap 0,80, -- noscaffolding y -nogapclosing) y Purge Haplotigs (con parámetros predeterminados). Las superposiciones entre secuencias contig se fusionaron utilizando los resultados de la autoalineación BWA-MEM.

Los datos de NGS se asignaron al genoma mediante BWA-MEM (v0.7.12-r1039)42 y los resultados se filtraron con Q30 mediante SAMtools (v1.7)43. Finalmente, la secuencia del genoma se corrigió utilizando Pilon (v1.22)56 en base a alineaciones filtradas. Pilon realizó tres rondas de corrección del genoma. Finalmente, los contigs se alinearon con el genoma de referencia para construir pseudocromosomas usando Mummer (v4.0)57 con los parámetros '-mum -mincluster = 1000'.

Evaluamos la integridad de la región génica de ensamblajes utilizando BUSCO (v5.2.0) 58 con 1440 genes embriofitos. Para evaluar la integridad del ensamblaje de las regiones intergénicas, usamos el LAI usando LTR_retriever (v2.9.0)59. También evaluamos la integridad del genoma asignando lecturas cortas de Illumina de alta calidad al ensamblaje correspondiente mediante BWA (v0.7.12-r1039)42 con parámetros predeterminados. Merqury (v1.3)60 realizó una evaluación de la integridad, la calidad y la duplicación falsa basada en K-mer.

Se utilizó una combinación de métodos ab initio y basados en homología para anotar repeticiones en los genomas ensamblados. Primero, construimos una biblioteca de repetición ab initio utilizando LTR_FINDER (v1.05)61 y RepeatModeler (v4.0.6)62 con parámetros predeterminados. La biblioteca de repeticiones predicha se alineó con la base de datos de repetidores PGSB63 para asignar repeticiones en distintas familias. A continuación, se usó Repbase (v20.11) para realizar anotaciones basadas en homología usando RepeatMasker (v1.0.10)64. Finalmente, se combinaron secuencias repetidas superpuestas que pertenecen a la misma clase repetida. Para las repeticiones superpuestas pertenecientes a diferentes clases de repeticiones, se dividieron las regiones superpuestas. Además, se utilizó Tandem Repeats Finder65 para anotar repeticiones en tándem.

Utilizamos datos transcriptómicos de plantas completas de tres accesiones representativas (silvestre, Me34V; raza local, Ci846; y cultivar moderno, Yugu18). Los datos de RNA-seq de cada acceso se ensamblaron por separado utilizando Trinity (v2.8.5)66 con parámetros predeterminados. Se usaron transcripciones ensambladas de Me34V, Ci846 y Yugu18 para la anotación de cultivares silvestres, locales y modernos, respectivamente. Cada genoma se anotó para obtener modelos genéticos utilizando la base de datos de proteínas UniProt SwissProt (v2020_01)67 y MAKER (v3.01.03)68. Estos genes se usaron para entrenar a Augustus (v3.2.3)69 y SNAP (v2006-07-28)70, y los conjuntos de entrenamiento resultantes se usaron para la anotación de los genomas correspondientes. Se usaron transcripciones ensambladas como evidencia de EST, y secuencias de proteínas de arroz (MSU v7)71, Arabidopsis thaliana (TAIR10)72, maíz (B73 RefGen_v4)73, sorgo (v3.1.1)74, mijo cola de zorra (v2.2)5, 18, cola de zorro verde (v2.1)16 y la base de datos UniProt SwissProt (versión-2017_01) se utilizaron como evidencia de proteínas. Utilizando modelos entrenados por SNAP y Augustus, se realizó la segunda ronda de anotación de genes para todos los genomas enmascarados repetidos y se mantuvieron los genes con AED < 0,4. La anotación funcional de los genes predichos se realizó utilizando InterProScan 5.0 (ref. 75) para asignar términos de Ontología génica (GO) y Enciclopedia de genes y genomas de Kioto (KEGG). Según los resultados de la anotación funcional, se filtraron los genes relacionados con TE.

Alineamos el CDS de todos los genes anotados con los 108 genomas del mijo cola de zorra cultivado y silvestre (W1) usando GMAP (v2015-09-21)76. Si un gen se alineaba con >99% de cobertura e identidad, se consideraba presente en el genoma correspondiente. Realizamos un análisis de pan-genoma basado en un enfoque de agrupamiento de Markov77. Las comparaciones de todos contra todos se realizaron con diamante (v0.9.25)78 con un valor de corte de E de 1 × 10−5. Posteriormente, todos los genes emparejados se agruparon utilizando OrthoFinder (v2.3.12)77. Con base en su frecuencia, clasificamos los genes en las siguientes cuatro categorías: núcleo (estos presentes en los 111 individuos), núcleo blando (estos presentes en >90% de las muestras pero no en todas; 100–110 individuos), prescindibles (estos presentes en más de uno pero menos del 90%; 2–99 individuos) y privado (presente en una sola accesión).

Utilizamos la tubería SyRI79 para la identificación de la variación estructural (inserción, eliminación, translocación e inversión) en los 112 genomas. Primero alineamos cada genoma ensamblado con el genoma de referencia de Yugu1 usando Minimap2 (v2.21-r1071)80. Los resultados de la alineación sin procesar se usaron además para llamar a la variación usando el software SyRI (v1.2)79 con parámetros predeterminados. Luego filtramos los SV con un tamaño de variante de más de 50 pb. A partir de los resultados filtrados, las inserciones y eliminaciones se trataron como PAV. Utilizamos el kit de herramientas vg (v1.28.0)46 para la construcción del genoma basada en gráficos. Primero, identificamos grandes PAV e inversiones con MUMmer (v4.0)57. Luego, los PAV junto con las inversiones detectadas por SyRI se integraron en el genoma de referencia lineal Yugu1 utilizando el kit de herramientas vg46.

Utilizamos tres estrategias diferentes, diversidad de nucleótidos, FST y XPCLR, para identificar barridos selectivos basados en marcadores SNP de alta calidad (MAF ≥ 0,05 y falta <0,1). Para la diversidad de nucleótidos y el análisis FST, utilizamos VCFtools (v0.1.17)81 con un deslizamiento de 20 kb y un tamaño de paso de 2 kb. Realizamos el análisis XPCLR utilizando el programa XPCLR (https://github.com/hardingnj/xpclr).

Realizamos GWAS para 226 fenotipos en 680 accesiones usando marcadores SV y SNP de alta calidad (MAF ≥ 0.05 y faltando <0.1) usando el programa Mixed-Model Association eXpedited (EMMAx, v20120210) con los primeros diez PCA como matriz de efectos aleatorios. Se estimó que un número efectivo de fabricantes independientes (SNP y SV) era 640 288, y definimos el umbral de significancia por la significancia de todo el genoma corregida por Bonferroni (α = 0,01).

Para la identificación del gen candidato, utilizamos las siguientes estrategias: primero, agrupamos todos los SNP/SV asociados (P ≤ 7.81 × 10−8, umbral de significación de todo el genoma corregido por Bonferroni (α = 0.01)) de cada fenotipo en un grupo si la distancia entre los SNP/SV y los SNP/SV principales es ≤50 kb y el LD R2 ≥ 0,3. Los SNP/SV agrupados se definieron como loci asociados y representados por los principales SNP/SV. En segundo lugar, seleccionamos genes candidatos en un intervalo de ±50 kb de SNP/SV líderes si su gen homólogo estaba funcionalmente relacionado con los fenotipos correspondientes en arroz o maíz.

En primer lugar, realizamos un análisis de selección de características de tres paneles de marcadores diferentes (panel SNP, 2 711 024 SNP; panel SV, 44 869 SV; y panel SNPSV, 2 711 024 SNP más 44 869 SV) para cada uno de los 226 conjuntos de datos de fenotipos de forma independiente utilizando CropGBM (v1. 1.2)82 software para estimar la ganancia de característica (FG)/efecto de marcador de cada SNP y SV a través del análisis de ganancia de información. En segundo lugar, se identificaron marcadores altamente efectivos si su reducción de FG (ROF = 1 − FGmax/FGi, donde FGmax representa el valor de FG más alto de los marcadores y FGi representa el valor de FG del i-ésimo marcador) era inferior a 0,99. Luego, para cada rasgo, agrupamos los marcadores en los siguientes seis paneles: el panel SNPcg contenía creadores de SNP altamente efectivos seleccionados con ROF ≤ 0.99; El panel SNPcg_gwas fue el conjunto de unión de creadores de SNP altamente efectivos seleccionados con ROF ≤ 0.99 y marcadores SNP significativamente asociados de GWAS (P ≤ 7.81 × 10−8); El panel SVcg contenía creadores de SV altamente efectivos seleccionados con ROF ≤ 0,99; El panel SVcg_gwas fue el conjunto de unión de creadores de SV altamente efectivos seleccionados con ROF ≤ 0.99 y marcadores SV sustancialmente asociados de GWAS (P ≤ 7.81 × 10−8); El panel SNPSVcg contenía creadores de SNP y SV altamente eficaces seleccionados con ROF ≤ 0,99; y el panel SNPSVcg_gwas fue el conjunto de unión de creadores de SNP y SV altamente efectivos seleccionados con ROF ≤ 0.99 y marcadores de SV sustancialmente asociados de GWAS (P ≤ 7.81 × 10−8, umbral de significación de todo el genoma corregido por Bonferroni (α = 0.01)).

La precisión predictiva de los modelos se evaluó para cada panel de marcadores y los fenotipos correspondientes mediante la correlación de Pearson entre los fenotipos observados y los GEBV predicados. Dividimos aleatoriamente el conjunto de datos en 580 y 100 líneas para la validación. Las 580 líneas se usaron como conjuntos de entrenamiento para estimar los efectos de los marcadores, que luego se usaron para predecir los GEBV para las 100 líneas restantes; esto se replicó 100 veces para cada conjunto de datos.

Utilizamos 63 conjuntos de datos (7 de rendimiento y 17 de características relacionadas con la calidad del grano en diferentes entornos) para la predicción del potencial de reproducción. Se seleccionó el panel de marcadores con la mayor precisión de predicción para el fenotipo correspondiente. Luego, simulamos 1,04 millones de combinaciones de haplotipos utilizando los 20 marcadores de mayor efectividad de las accesiones con los GEBV más altos. El porcentaje de mejora de cada fenotipo se calculó mediante \(\frac{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{haplotipo}}-{\rm{GEBV}}\max {\ rm{\_}}{\mathrm{cultivado}}}{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{cultivado}}}\times 100 \%\), donde GEBVmax_haplotipo representa el GEBV más alto de los haplotipos simulados, y GEBVmax_cultivated denota el GEBV más alto del mijo cola de zorra cultivado.

Para generar construcciones de sobreexpresión, se amplificó una secuencia codificante de longitud completa de SiGW3 a partir de la accesión de cola de zorro verde 'A10' y se clonó en pCAMBIA1305 bajo el control del promotor de ubiquitina (UBI). Se usaron los cebadores OE-GW3-F y OE-GW3-R (Tabla complementaria 17). El vector SiGW3-OE se transformó en la variedad de mijo cola de zorra Ci846 mediante la transformación mediada por Agrobacterium tumefaciens utilizando la cepa EHA105. Se identificaron tres líneas de sobreexpresión transgénicas independientes de SiGW3 y se autofecundaron para generar T3. La expresión de las líneas de sobreexpresión transgénica se verificó aún más mediante qRT-PCR utilizando los cebadores enumerados en la Tabla complementaria 17. El experimento qRT-PCR se realizó como se describió anteriormente20. Se seleccionaron al azar alrededor de 200 semillas de WT y tres líneas transgénicas independientes, se fotografiaron y midieron con el instrumento de medición de semillas SC-G de Wseen.

Para validar el efecto de SV de 366 pb en el promotor de SiGW3 en la expresión génica, empleamos un ensayo de expresión transitoria dual-LUC utilizando hojas de Nicotiana benthamiana. El gen informador de la luciferasa de renilla (REN) impulsado por el promotor mínimo 35S se usó como control interno, y la luciferasa de luciérnaga (LUC) impulsada por el promotor de inserción objetivo de 366 pb y el promotor de eliminación de 366 pb objetivo se amplificó a partir de especies silvestres de Setaria. A10' y cultivar 'Yugu1', respectivamente. Los cebadores utilizados para amplificar el SV en las secuencias del promotor SiGW3 se enumeran en la Tabla complementaria 17. Luego, se transformaron tres vectores construidos en Agrobacterium GV3101 y se co-infiltraron en hojas de N. benthamiana de 4 semanas de edad. Se tomaron imágenes de las señales de luciferasa con Tanon 5200 y se midieron con el kit Dual-Luciferase Reporter Assay System (E1910) (Promega) y Varioskan LUX (Thermo Fisher Scientific). Cada medición se realizó con cinco réplicas biológicas. Todos los reactivos utilizados en este estudio se enumeran en la Tabla complementaria 18.

La información de ubicación geográfica de los sitios de recolección de todas las variedades y fenotipos en este estudio están marcados en el mapa usando el paquete ggplot2 (ref. 83) en el software R (v4.1.0) y QGIS (v3.16)84. Los datos de origen del mapa de elevación se recopilan del Centro Nacional de Datos Científicos del Sistema Terrestre, Infraestructura Nacional de Ciencia y Tecnología de China (http://www.geodata.cn/data/datadetails.html?dataguid=78789&docid=4850).

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Todos los datos de secuenciación de lectura larga y tres archivos cmap de Bionano se han depositado en la base de datos del Centro Nacional de Información Biotecnológica con el código de acceso BioProject PRJNA675302. Los 110 genomas ensamblados y las anotaciones se depositaron en https://www.zenodo.org/record/7367881. 1004 datos de resecuenciación NGS generados se han depositado en la base de datos del NCBI con el código de acceso BioProject PRJNA841774 y PRJNA842100. Otros datos de secuenciación del genoma completo de 294 mijo de cola de zorra y 594 de cola de zorra verde se descargaron del NCBI (BioProject PRJNA636263, PRJNA560514 y PRJNA265547). Los fenotipos utilizados en los estudios GWAS y GS se han depositado en https://doi.org/10.5281/zenodo.7755340. Los datos de origen se proporcionan con este documento.

Todos los códigos asociados con este proyecto están disponibles en Github (https://github.com/qiangh06/Setaria-pan-genome) y Zenodo (https://doi.org/10.5281/zenodo.7743007)85.

Yang, X. et al. Uso temprano del mijo en el norte de China. proc. Academia Nacional. ciencia EE. UU. 109, 3726–3730 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Lovell, JT et al. Mecanismos genómicos de adaptación climática en pasto varilla bioenergético poliploide. Naturaleza 590, 438–444 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Peng, R. & Zhang, B. Mijo cola de zorra: un nuevo modelo para plantas C4. Tendencias Plant Sci. 26, 199–201 (2020).

Artículo PubMed Google Académico

Hu, H., Mauro-Herrera, M. & Doust, AN Domesticación y mejoramiento en el pasto modelo C4, Setaria. Frente. ciencia de las plantas 9, 719 (2018).

Artículo PubMed PubMed Central Google Académico

Bennetzen, JL et al. Secuencia del genoma de referencia de la planta modelo Setaria. Nat. Biotecnología. 30, 555–561 (2012).

Artículo CAS PubMed Google Académico

Purugganan, MD & Jackson, SA Avances en la genómica de cultivos del laboratorio al campo. Nat. Gineta. 53, 595–601 (2021).

Artículo CAS PubMed Google Académico

Qin, P. et al. El análisis pangenómico de 33 accesiones de arroz genéticamente diversas revela variaciones genómicas ocultas. Celda 184, 3542–3558 (2021).

Artículo CAS PubMed Google Académico

Zhao, Q. et al. El análisis pangenómico destaca el alcance de la variación genómica en el arroz cultivado y silvestre. Nat. Gineta. 50, 278–284 (2018).

Artículo CAS PubMed Google Académico

Liu, Y. et al. Pan-genoma de soja silvestre y cultivada. Celda 182, 162–176 (2020).

Artículo CAS PubMed Google Académico

Walkowiak, S. et al. Múltiples genomas de trigo revelan la variación global en el mejoramiento moderno. Naturaleza 588, 277–283 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Jayakodi, M. et al. El pangenoma de la cebada revela el legado oculto del mejoramiento por mutación. Naturaleza 588, 284–289 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Zhou, Y. et al. Graph pangenome captura la heredabilidad faltante y potencia la mejora del tomate. Naturaleza 606, 527–534 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Tang, D. et al. Evolución del genoma y diversidad de papas silvestres y cultivadas. Naturaleza 606, 535–541 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Lye, ZN & Purugganan, MD Variación del número de copias en la domesticación. Tendencias Plant Sci. 24, 352–365 (2019).

Artículo CAS PubMed Google Académico

Zhang, G. et al. La secuencia del genoma del mijo cola de zorra (Setaria italica) proporciona información sobre la evolución de las gramíneas y el potencial de los biocombustibles. Nat. Biotecnología. 30, 549–554 (2012).

Artículo CAS PubMed Google Académico

Mamidi, S. et al. Un recurso del genoma para el mijo verde Setaria viridis permite el descubrimiento de loci agronómicamente valiosos. Nat. Biotecnología. 38, 1203–1210 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Thielen, PM y col. Genoma de referencia para la altamente transformable Setaria viridis ME034V. G3 (Bethesda). 10, 3467–3478 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Yang, Z. et al. Un minimijo cola de zorra con un ciclo de vida similar al de Arabidopsis como sistema modelo C4. Nat. Plantas 6, 1167–1178 (2020).

Artículo CAS PubMed Google Académico

Jia, G. et al. Un mapa de haplotipos de variaciones genómicas y estudios de asociación de todo el genoma de rasgos agronómicos en el mijo cola de zorra (Setaria italica). Nat. Gineta. 45, 957–961 (2013).

Artículo CAS PubMed Google Académico

Zhao, M. et al. DROOPY LEAF1 controla la arquitectura de la hoja al orquestar la señalización temprana de brasinoesteroides. proc. Academia Nacional. ciencia EE. UU. 117, 21766–21774 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Li, C. et al. La resecuenciación de alta profundidad de 312 accesiones revela la adaptación local del mijo cola de zorra. teor. Aplicación Genet. 134, 1303–1317 (2021).

Artículo CAS PubMed Google Académico

Pickrell, J. & Pritchard, J. Inferencia de divisiones y mezclas de población a partir de datos de frecuencia de alelos de todo el genoma.PLoS Genet. 8, e1002967 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Maier, R. et al. Sobre los límites de ajustar modelos complejos de la historia de la población a las estadísticas f. Elife 12, 85492 (2023).

Artículo Google Académico

Koren, S. et al. Canu: ensamblaje de lectura larga escalable y preciso a través de ponderación k-mer adaptativa y separación repetida. Genoma Res. 27, 722–736 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Du, H. et al. Secuenciación y ensamblaje de novo de un genoma de arroz indica casi completo. Nat. común 8, 15324 (2017).

Artículo PubMed PubMed Central Google Académico

Purugganan, MD & Fuller, DQ Los datos arqueológicos revelan tasas de evolución lentas durante la domesticación de las plantas. Evolución 65, 171–183 (2011).

Artículo PubMed Google Académico

Fuller, DQ et al. Evolución convergente y paralelismo en la domesticación de plantas revelado por un registro arqueológico en expansión. proc. Academia Nacional. ciencia EE. UU. 111, 6147–6152 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Liu, H. et al. La inserción de transposones provocó la pérdida de la rotura natural de semillas durante la domesticación del mijo cola de zorra. mol. Biol. Evol. 39, msac078 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Fukunaga, K., Matsuyama, S., Abe, A., Kobayashi, M. & Ito, K. La inserción de un elemento transponible en el gen Less Shattering1 (SvLes1) no siempre está involucrada en la domesticación del mijo cola de zorra (Setaria italica). Genet Resour. Cultivo Evol. 68, 2923–2930 (2021).

Artículo CAS Google Académico

Duan, P. et al. La variación natural en el promotor de GSE5 contribuye a la diversidad del tamaño de grano en el arroz. mol. Planta 10, 685–694 (2017).

Artículo CAS PubMed Google Académico

Liu, J. et al. GW5 actúa en la vía de señalización de los brasinoesteroides para regular el ancho y el peso del grano en el arroz. Nat. Plantas 3, 1–7 (2017).

Artículo Google Académico

Tian, Z. et al. Las diversidades alélicas en la biosíntesis del almidón de arroz conducen a una amplia gama de cualidades para comer y cocinar arroz. proc. Academia Nacional. ciencia EE. UU. 106, 21760–21765 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Guzmán, C. & Alvarez, JB Proteínas cerosas de trigo: polimorfismo, caracterización molecular y efectos sobre las propiedades del almidón. teor. Aplicación Genet. 129, 1–16 (2016).

Artículo PubMed Google Académico

Xue, W. et al. La variación natural en Ghd7 es un regulador importante de la fecha de espiga y el potencial de rendimiento en el arroz. Nat. Gineta. 40, 761–767 (2008).

Artículo CAS PubMed Google Académico

Alonge, M. et al. Principales impactos de la variación estructural generalizada en la expresión génica y la mejora del cultivo en tomate. Celda 182, 145–161 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Yan, H., Haak, DC, Li, S., Huang, L. y Bombarely, A. Exploración de marcadores basados en elementos transponibles para identificar las variaciones alélicas subyacentes a los rasgos agronómicos del arroz. Planta comun. 3, 100270 (2022).

Artículo CAS PubMed Google Académico

Della Coletta, R., Qiu, Y., Ou, S., Hufford, MB & Hirsch, CN Cómo el pan-genoma está cambiando la genómica y la mejora de los cultivos. Genoma Biol. 22, 3 (2021).

Artículo PubMed PubMed Central Google Académico

Glassberg, EC, Gao, Z., Harpak, A., Lan, X. y Pritchard, JK Evidencia de restricción selectiva débil en la expresión génica humana. Genética 211, 757–772 (2019).

Artículo CAS PubMed Google Académico

Kremling, KAG et al. La desregulación de la expresión se correlaciona con la carga de alelos raros y la pérdida de aptitud en el maíz. Naturaleza 555, 520–523 (2018).

Artículo CAS PubMed Google Académico

Lye, Z., Choi, JY & Purugganan, MD Mutaciones deletéreas y la carga de alelos raros en la expresión génica del arroz. mol. Biol. Evol. 39, msac193 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, S., Zhou, Y., Chen, Y. y Gu, J. fastp: un preprocesador FASTQ todo en uno ultrarrápido. Bioinformática 34, i884–i890 (2018).

Artículo PubMed PubMed Central Google Académico

Li, H. & Durbin, R. Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25, 1754–1760 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Li, H. et al. El formato de mapa/alineación de secuencias y SAMtools. Bioinformática 25, 2078–2079 (2009).

Artículo PubMed PubMed Central Google Académico

McKenna, A. et al. The Genome Analysis Toolkit: un marco MapReduce para analizar datos de secuenciación de ADN de próxima generación. Genoma Res. 20, 1297–1303 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Cingolani, P. et al. Un programa para anotar y predecir los efectos de polimorfismos de un solo nucleótido, SnpEff. Volar 6, 80–92 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Hickey, G. et al. Genotipado de variantes estructurales en gráficos de pangenoma utilizando el kit de herramientas vg. Genoma Biol. 21, 35 (2020).

Artículo PubMed PubMed Central Google Académico

Kumar, S., Stecher, G., Peterson, D. & Tamura, K. MEGA-CC: núcleo informático del programa de análisis de genética evolutiva molecular para el análisis de datos automatizado e iterativo. Bioinformática 28, 2685–2686 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Lee, T.-H., Guo, H., Wang, X., Kim, C. y Paterson, AH SNPhylo: una tubería para construir un árbol filogenético a partir de grandes datos de SNP. BMC Genomics 15, 162 (2014).

Artículo PubMed PubMed Central Google Académico

Nguyen, L.-T., Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE: un algoritmo estocástico rápido y efectivo para estimar filogenias de máxima verosimilitud. mol. Biol. Evol. 32, 268–274 (2015).

Artículo CAS PubMed Google Académico

Yu, G., Smith, DK, Zhu, H., Guan, Y. y Lam, TT-Y. ggtree: un paquete R para visualización y anotación de árboles filogenéticos con sus covariables y otros datos asociados. Métodos Ecol. Evol. 8, 28–36 (2017).

Artículo Google Académico

Alexander, DH & Lange, K. Mejoras al algoritmo ADMIXTURE para la estimación de ascendencia individual. BMC Bioinformática 12, 1–6 (2011).

Artículo Google Académico

Purcell, S. et al. PLINK: un conjunto de herramientas para la asociación del genoma completo y los análisis de vinculación basados en la población. Soy. J. Hum. Gineta. 81, 559–575 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Refoyo-Martínez, A. et al. Identificación de loci bajo selección positiva en historias de población complejas. Genoma Res. 29, 1506-1520 (2019).

Artículo PubMed PubMed Central Google Académico

Marçais, G. & Kingsford, C. Un enfoque rápido y sin bloqueo para el conteo paralelo eficiente de ocurrencias de k-mers. Bioinformática 27, 764–770 (2011).

Artículo PubMed PubMed Central Google Académico

Vurture, GW et al. GenomeScope: perfilado rápido y sin referencias del genoma a partir de lecturas cortas. Bioinformática 33, 2202–2204 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Walker, BJ y col. Pilon: una herramienta integrada para la detección integral de variantes microbianas y la mejora del ensamblaje del genoma. PLoS ONE 9, e112963 (2014).

Artículo PubMed PubMed Central Google Académico

Marçais, G. et al. MUMmer4: un sistema de alineación del genoma rápido y versátil. Cómputo PLoS. Biol. 14, e1005944 (2018).

Artículo PubMed PubMed Central Google Académico

Simão, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV & Zdobnov, EM BUSCO: evaluación del ensamblaje del genoma y la integridad de las anotaciones con ortólogos de una sola copia. Bioinformática 31, 3210–3212 (2015).

Artículo PubMed Google Académico

Ou, S., Chen, J. y Jiang, N. Evaluación de la calidad del ensamblaje del genoma mediante el índice de ensamblaje LTR (LAI). Ácidos Nucleicos Res. 46, e126 (2018).

PubMed PubMed Central Google Académico

Rhie, A., Walenz, BP, Koren, S. & Phillippy, AM Merqury: calidad sin referencia, integridad y evaluación de fases para ensamblajes de genomas. Genoma Biol. 21, 245 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER: una herramienta eficiente para la predicción de retrotransposones LTR de longitud completa. Ácidos Nucleicos Res. 35, W265–W268 (2007).

Artículo PubMed PubMed Central Google Académico

Price, AL, Jones, NC & Pevzner, PA Identificación de novo de familias repetidas en genomas grandes. Bioinformática 21, i351–i358 (2005).

Artículo CAS PubMed Google Académico

Nussbaumer, T. et al. MIPS PlantsDB: un marco de base de datos para la investigación comparativa del genoma vegetal. Ácidos Nucleicos Res. 41, D1144–D1151 (2013).

Artículo CAS PubMed Google Académico

Chen, N. Uso de RepeatMasker para identificar elementos repetitivos en secuencias genómicas. actual Protocolo Bioinformática https://doi.org/10.1002/0471250953.bi0410s05 (2004).

Benson, G. Tandem repite buscador: un programa para analizar secuencias de ADN. Ácidos Nucleicos Res. 27, 573–580 (1999).

Artículo CAS PubMed PubMed Central Google Scholar

Grabherr, MG et al. Ensamblaje completo del transcriptoma a partir de datos de RNA-Seq sin un genoma de referencia. Nat. Biotecnología. 29, 644–652 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Bairoch, A. & Apweiler, R. La base de datos de secuencias de proteínas SWISS-PROT y su suplemento TrEMBL en 2000. Nucleic Acids Res. 28, 45–48 (2000).

Artículo CAS PubMed PubMed Central Google Scholar

Cantarel, BL et al. MAKER: una canalización de anotaciones fácil de usar diseñada para genomas de organismos modelo emergentes. Genoma Res. 18, 188–196 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Keller, O., Kollmar, M., Stanke, M. y Waack, S. Un nuevo método de predicción de genes híbridos que emplea alineaciones de secuencias múltiples de proteínas. Bioinformática 27, 757–763 (2011).

Artículo CAS PubMed Google Académico

Korf, I. Hallazgo de genes en nuevos genomas. BMC Bioinformática 5, 59 (2004).

Artículo PubMed PubMed Central Google Académico

Ouyang, S. et al. El recurso de anotación del genoma del arroz TIGR: mejoras y nuevas funciones. Ácidos Nucleicos Res. 35, D883–D887 (2007).

Artículo CAS PubMed Google Académico

Lamesch, P. et al. El recurso de información de Arabidopsis (TAIR): anotación genética mejorada y nuevas herramientas. Ácidos Nucleicos Res. 40, D1202–D1210 (2012).

Artículo CAS PubMed Google Académico

Jiao, Y. et al. Genoma de referencia de maíz mejorado con tecnologías de molécula única. Naturaleza 546, 524–527 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

McCormick, RF y col. El genoma de referencia de Sorghum bicolor: ensamblaje mejorado, anotaciones de genes, un atlas de transcriptoma y firmas de organización del genoma. Planta J. 93, 338–354 (2018).

Artículo CAS PubMed Google Académico

Jones, P. et al. InterProScan 5: clasificación de funciones de proteínas a escala genómica. Bioinformática 30, 1236–1240 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Wu, TD & Watanabe, CK GMAP: un programa de alineamiento y mapeo genómico para secuencias de mRNA y EST. Bioinformática 21, 1859–1875 (2005).

Artículo CAS PubMed Google Académico

Emms, DM & Kelly, S. OrthoFinder: inferencia de ortología filogenética para genómica comparativa. Genoma Biol. 20, 238 (2019).

Artículo PubMed PubMed Central Google Académico

Buchfink, B., Xie, C. & Huson, DH Alineación de proteínas rápida y sensible usando DIAMOND. Nat. Métodos 12, 59–60 (2015).

Artículo CAS PubMed Google Académico

Goel, M., Sun, H., Jiao, W.-B. & Schneeberger, K. SyRI: búsqueda de reordenamientos genómicos y diferencias de secuencia local de ensamblajes de genoma completo. Genoma Biol. 20, 277 (2019).

Artículo PubMed PubMed Central Google Académico

Li, H. Minimap2: alineación por parejas para secuencias de nucleótidos. Bioinformática 34, 3094–3100 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. El formato de llamada variante y VCFtools. Bioinformática 27, 2156–2158 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Yan, J. et al. LightGBM: mejoramiento acelerado de cultivos diseñados genómicamente a través del aprendizaje conjunto. Genoma Biol. 22, 271 (2021).

Artículo PubMed PubMed Central Google Académico

Wickham, H. ggplot2: Gráficos elegantes para el análisis de datos (Springer-Verlag, 2016).

QGIS. Un sistema de información geográfica gratuito y de código abierto. http://www.qgis.org (2022).

He, Q. Guiones y códigos utilizados en el pangenoma de Setaria (1.0). Zenodo https://doi.org/10.5281/zenodo.7743007 (2023).

Descargar referencias

Los autores agradecen los comentarios críticos y el asesoramiento de N. Stein (Instituto Leibniz de Genética Vegetal e Investigación de Plantas de Cultivos) y J. Jia (CAAS). Los autores agradecen a H. Lu (Laboratorio Estatal Clave de Biología del Arroz, Instituto Nacional de Investigación del Arroz de China, CAAS) y J. Gao (Academia de Ciencias Oceánicas y Pesqueras de Hainan) por su útil apoyo técnico en el ensamblaje del genoma y la discusión del proyecto. Los autores agradecen a K. Xie (Guangzhou Genedenovo Biotechnology Co., Ltd.) por sus útiles comentarios sobre los estudios de inferencia demográfica. Agradecemos a L. Yin (ICS Bioinformatics Group) por brindar soporte informático. Este trabajo fue apoyado por subvenciones del Programa Nacional de Investigación y Desarrollo Clave de China (2021YFF1000100), el Programa Nacional de Investigación y Desarrollo Clave de China (2019YFD1000700/2019YFD1000701 y 2018YFD1000700), la Fundación Nacional de Ciencias Naturales de China (31871692 y 31871630), la Sistema de Investigación Agrícola (CARS-06-13.5), Programa de Innovación en Ciencia y Tecnología Agrícolas de la Academia China de Ciencias Agrícolas, Programa de Investigación de Prioridad Estratégica de la Academia China de Ciencias (subvención XDPB16), Programa de Investigación del Genoma Vegetal de la Fundación Nacional de Ciencias de EE. UU. (IOS -1546218 y 2204374) y la Zegar Family Foundation y el NYU Abu Dhabi Research Institute.

Estos autores contribuyeron por igual: Qiang He, Sha Tang, Hui Zhi, Jinfeng Chen.

Instituto de Ciencias de Cultivos, Academia China de Ciencias Agrícolas, Beijing, China

Qiang He, Sha Tang, Hui Zhi, Jun Zhang, Hongkai Liang, Hui Zhang, Lihe Xing, Wei Zhang, Hailong Wang, Hongpo Wu, Liwei Wang, Ping Yang, Guanqing Jia y Xianmin Diao

Laboratorio Estatal Clave de Manejo Integrado de Plagas de Insectos y Roedores, Instituto de Zoología, Academia de Ciencias de China, Beijing, China

Jinfeng-chen

Centro de Genómica y Biología de Sistemas, Universidad de Nueva York, Ciudad de Nueva York, NY, EE. UU.

Ornob Alam y Michael Purugganan

Sucursal de Shenzhen, Laboratorio de Guangdong de Agricultura Moderna Lingnan, Laboratorio de Análisis Genómico del Ministerio de Agricultura y Asuntos Rurales, Instituto de Genómica Agrícola de Shenzhen, Academia China de Ciencias Agrícolas, Shenzhen, China

hongbo li

Facultad de Agronomía, Universidad Northwest A & F, Yangling, China

Hui Zhang y Baili Feng

Facultad de Ciencias de la Vida, Universidad Agrícola de Shanxi, Taigu, China

Xukai Li

Laboratorio Estatal Clave de Fisiología y Bioquímica Vegetal y Centro Nacional de Mejoramiento del Maíz, Departamento de Genética y Mejoramiento Vegetal, Universidad Agrícola de China, Beijing, China

Junpeng Shi y Jinsheng Lai

Escuela de Ciencias de la Vida, Instituto de Ciencias de la Vida y Desarrollo Verde, Universidad de Hebei, Baoding, China

huilong du

Academia de Ciencias Agrícolas de Anyang, Anyang, China

Lu Xing, Hongshan Yan, Zhongqiang Song y Jinrong Liu

Centro de Investigación de Recursos Genéticos Agrícolas, Universidad Agrícola de Shanxi, Taiyuan, China

Haigang Wang, Xiang Tian y Zhijun Qiao

Instituto de Investigación de Cultivos de Cereales, Academia de Ciencias Agrícolas de Xinjiang, Urumqi, China

Guojun Feng

Instituto de Cultivos de Alta Latitud, Universidad Agrícola de Shanxi, Datong, China

Ruifeng Guo, Wenjuan Zhu y Yuemei Ren

Instituto de Agricultura de Tierra Seca, Academia de Ciencias Agrícolas y Forestales de Hebei, Hengshui, China

Hongbo Hao y Mingzhe Li

Instituto de Investigación de Mijo, Universidad Agrícola de Shanxi, Changzhi, China

Aiying Zhang y Erhu Guo

Sub-Academia Qiqihar de la Academia de Ciencias Agrícolas de Heilongjiang, Qiqihar, China

Feng yan y qingquan li

Academia de Ciencias Agrícolas y Forestales de Cangzhou, Cangzhou, China

Yanli Liu y Bohong Tian

Academia de Ciencias Agrícolas de Dingxi, Dingxi, China

Xiaoqin Zhao y Ruiling Jia

Laboratorio Clave de Recursos Genéticos Agrícolas y Biotecnología de Beijing, Academia de Ciencias Agrícolas y Forestales de Beijing, Beijing, China

Jiewei Zhang y Jianhua Wei

Centro de Genómica y Biología de Sistemas, Universidad de Nueva York Abu Dhabi, Abu Dhabi, Emiratos Árabes Unidos

Michael Purugganan

También puede buscar este autor en PubMed Google Scholar

XD concibió y diseñó la investigación. QH, ST, H. Zhi., H. Liang., HW y GJ participaron en la preparación del material. QH, HD, JS y JL contribuyeron al ensamblaje y anotación del genoma. QH realizó la llamada de variantes genómicas, la identificación selectiva de firmas, el estudio de asociación de todo el genoma y la predicción genómica. QH, XL, JZ, OA y MP realizaron análisis de genética de poblaciones. QH y JZ realizaron expresión génica, enriquecimiento funcional y limpieza de datos fenotípicos. ST contribuyó al mapeo QTL de sh1. ST, H. Zhang., LX, WZ y HW contribuyeron a la caracterización funcional del SiGW3. ST, HZ, LW, LX, HY, ZS, JL, HW, XT, ZQ, GF, RG, WZ, YR, HH, ML, AZ, EG, FY, QL, YL, BT, XZ, RJ, BF, JZ y JW plantaron los materiales y recopilaron datos fenotípicos en diferentes ubicaciones geográficas. QH, MP y XD supervisaron la integración y conceptualización de los resultados y escribieron el manuscrito. ST, H. Li., PY, JC y GJ revisaron el manuscrito. Todos los autores leyeron, editaron y aprobaron el manuscrito.

Correspondencia a Guanqing Jia, Michael Purugganan o Xianmin Diao.

Los autores declaran no tener conflictos de intereses.

Nature Genetics agradece a Aureliano Bombarely, Chuyu Ye y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Notas complementarias 1 a 5 y figuras complementarias. 1–17.

Tablas complementarias 1–18.

Datos fuente.

Datos de origen para la Fig. 2a, b, d.

Datos de origen para la Fig. 3a,b.

Datos de origen para la figura 4c.

Fuente de datos para la figura 5h–k,m.

Datos de origen para la Fig. 6b, f, g.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Él, Q., Tang, S., Zhi, H. et al. Un genoma basado en gráficos y una variación del pan-genoma de la planta modelo Setaria. Nat Genet (2023). https://doi.org/10.1038/s41588-023-01423-w

Descargar cita

Recibido: 23 julio 2022

Aceptado: 08 mayo 2023

Publicado: 08 junio 2023

DOI: https://doi.org/10.1038/s41588-023-01423-w

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Blog