cobertura de la secuencia del genoma de Uroos
Los datos de secuenciación del genoma nuclear de B. primigenius se alinearon con el genoma de referencia de B. taurus UMD3.1 . Para este propósito, seis bibliotecas de ADN (C1–C6) se prepararon de forma independiente a partir de seis extracciones separadas de polvo de hueso de uro., Estas bibliotecas se utilizaron para la secuenciación de lectura única (SR; bibliotecas C1-C3) y de extremo Pareado (PE; bibliotecas C4–C6) con las plataformas Illumina® Genome Analyzer IIx y HiSeq 2000 (archivo adicional 1: Figura S1 y tabla S1). El cotejo de datos de todas las bibliotecas arrojó un total de 3.37 mil millones de lecturas de secuencia, variando en longitud de lectura bruta de 36 a 70 PB (archivo adicional 1: Tabla S2). El filtrado posterior para eliminar lecturas que estaban mal secuenciadas, de baja complejidad, o que consistían en gran parte o en su totalidad de adaptadores de secuenciación Illumina® produjo 2.,86 mil millones de lecturas filtradas para alinearse con el genoma de referencia. De ellos, 805 millones de lecturas (28,1 %) se asignaron al genoma de referencia UMD3.1. La eliminación de lecturas duplicadas (es decir, lecturas de la misma biblioteca de secuenciación que se asignaron a la misma posición de nucleótidos en la misma cadena cromosómica) produjo 619,7 millones de lecturas y la posterior eliminación de lecturas que se asignaron a múltiples ubicaciones produjo un total de 470 millones de lecturas asignadas de forma única, de las cuales 417 millones de lecturas asignadas a escalas phred con puntuaciones de calidad de mapa ≥30 (archivo adicional 1: Tabla S3). Los 470 millones de lecturas asignadas de forma única comprendían 16.,62 Gb de secuencias nucleares y ADNmt de uroch y cubrieron 2,37 Gb del genoma nuclear de B. taurus (89,43 % del conjunto del genoma bovino UMD3.1 de 2,65 Gb) con una profundidad de secuenciación media de 6,23× en todas las posiciones de nucleótidos (archivo adicional 1: Tabla S4). Además, 63.174 de estos 470 millones de lecturas (que comprenden 2.582.767 PB) se alinearon con la secuencia de ADNmt del haplogrupo B. primigenius P de 16.338 PB previamente reportada por nosotros . Esto produjo una profundidad de secuencia media de 158,06× en todas las posiciones de nucleótidos del ADNmt de B. primigenius.,
un gráfico de dispersión generado para el número de lecturas alineadas de alta calidad a cromosomas individuales reveló una densidad de lectura Media uniforme para todos los autosomas. Sin embargo, la densidad de lecturas mapeadas al cromosoma X fue de aproximadamente el 50% de la densidad de lectura autosómica, demostrando que el espécimen óseo CPC98 es de un animal macho (archivo adicional 1: Figura S2).,
autenticidad de la secuencia del genoma de Urochs
estudios previos han demostrado que el análisis de ADN antiguo (aDNA) es altamente sensible a dos fuentes principales de error que pueden resultar en la generación de datos de secuencia de ADN inauténticos: (1) contaminación con ADN derivado de muestras exógenas modernas; y (2) modificación de nucleótidos post mortem, principalmente la desaminación de citosina a residuos de uracilo que causa una alta tasa de transiciones C → T artefactos en ADN recién sintetizado durante la reacción en cadena de la polimerasa (PCR) amplificación y secuenciación ., Por lo tanto, analizamos las posibles contribuciones de ambas fuentes de error en la secuencia del genoma de urochs.
En primer lugar, se utilizó la secuencia completa de ADNmt CPC98 para estimar la cantidad de contaminación por ADN bovino moderno (archivo adicional 1: Métodos suplementarios, Sección 7). Para esto, catalogamos SNP de ADNmt distinguiendo las tres secuencias completas de haplogrupo P disponibles actualmente de un panel de 233 secuencias modernas completas de macro-haplogrupo T E I y secuencias de haplogrupo Q Y R recuperadas de GenBank. Este análisis identificó 15 SNP discriminantes del haplogrupo P., Las llamadas de nucleótidos para las 15 posiciones SNP de las lecturas individuales de CPC98 se clasificaron como de origen uro o moderno de acuerdo con el alelo que poseían. Un total de 1.959 lecturas individuales de CPC98 abarcaron los 15 SNPs discriminantes del haplogrupo P, de los cuales 10 lecturas mostraron una característica alélica de las secuencias de ADNmt T, Q, R y/o i, dando una estimación superior de la contaminación por ADNmt bovino moderno en el espécimen de CPC98 de 0,51 % (archivo adicional 1: Tabla S5)., Si bien esta estimación es comparable a los niveles modernos de contaminación por ADNmt observados para genomas humanos completos de Neandertal, Denisovan y Pleistoceno , también está dentro de la tasa de error de secuencia reportada de las plataformas Illumina® GA IIX y HiSeq 2000 . Para refinar aún más la estimación de la contaminación moderna a través de la exclusión de las transiciones que pueden verse afectadas por las incorporaciones erróneas de nucleótidos diagenéticos, examinamos el número de lecturas de CPC98 que abarcan la mutación de tipo transversal única (posición 14,129)., Un total de 97 lecturas de CPC98 cubrieron esta posición, todas mostrando la variante del haplogrupo P, lo que arroja una estimación de contaminación moderna basada únicamente en transversales de 0,00 %.
la contaminación potencial del ADN nuclear se estimó aprovechando el cromosoma X hemizigoso en la muestra masculina CPC98 y mediante la identificación de SNPs diagnósticos en la porción no recombinante del cromosoma X (archivo adicional 1: Métodos suplementarios, Sección 7). Utilizando estrictos criterios de filtrado, este procedimiento dio estimaciones superiores de la contaminación del ADN nuclear de taurina y Cebú en Europa de 3,4% y 0.,2 %, respectivamente. Es importante señalar que existe un sesgo potencial en estas estimaciones porque el genoma de referencia en todas las alineaciones se generó a partir de un animal Europeo de taurina Hereford . Por lo tanto, las lecturas falsas que llevan el alelo taurino Europeo tendrán puntuaciones de alineación más altas que las lecturas falsas que llevan el alelo Cebú, lo que tendería a elevar la estimación de contaminación de taurina Europea en relación con la estimación de Cebú., Además, este procedimiento asume que no hay errores de ensamblaje o variaciones del número de copias que alterarían la expectativa de genotipos haploides en estas posiciones SNP cromosómicas X en CPC98.
la variación en la distribución de longitudes de fragmentos de ADN obtenidos de especímenes antiguos también se ha utilizado como una medida indirecta para estimar el alcance de la contaminación del ADN moderno . La fragmentación Post mortem es una característica de aDNA, con secuencias endógenas auténticas que generalmente tienen un tamaño de fragmento inferior a 200 PB ., El tamaño medio del fragmento de uro se estimó en 50 PB utilizando las lecturas de secuencia de PE mapeadas de forma única (17,8 millones de lecturas que comprenden 994,4 Mb), con un 99,99% de inserciones mapeables que oscilan entre 16 y 150 PB y un 99,19% de estas que oscilan entre 20 y 150 PB (archivo adicional 1: Figura S3). Estos resultados son consistentes con las longitudes de fragmento de ADN endógeno reportadas para especímenes de homínidos paleolíticos, que típicamente muestran tamaños medios de 30-100 PB .,
anteriormente estimamos el alcance del error de secuenciación del ADN para la muestra de CPC98 contando llamadas de nucleótidos no consensuadas de lecturas individuales de ADNmt que diferían de la secuencia de consenso de ADNmt de CPC98 . Repetimos este análisis utilizando el mayor número de lecturas de secuencia mapeando la secuencia del genoma del haplogrupo P del ADNmt bovino obtenido para el presente estudio. En particular, el aumento del número de lecturas de secuencias de ADNmt no reveló ningún exceso de las transiciones C → T características debido a la desaminación de citosina post mortem dentro de las lecturas individuales de secuencias CPC98., La ausencia de desaminación significativa de citosina post mortem puede ser atribuible a la polimerasa de ADN de alta fidelidad Phusion utilizada durante la preparación de la biblioteca. Se ha demostrado que esta polimerasa amplifica ineficientemente los fragmentos de ADN que contienen residuos de uracilo que se han generado a través de la desaminación de la citosina ; sin embargo, esta enzima puede amplificar los fragmentos que contienen residuos de timina que se han generado por la desaminación post mortem de 5′-metil-citosinas endógenas (5meC)., Por lo tanto, reconocemos que si bien los errores de secuencia de ADN observados en el estudio actual son probablemente artefactos de los métodos de secuenciación de ADN utilizados, las lecturas individuales de CPC98 que muestran transiciones C → T pueden haber sido generadas, en parte, por procesos de desaminación post mortem de 5meC .
los resultados del análisis de mapDamage 2.0 para un subconjunto de lecturas de secuencia resaltan aumentos en las transiciones C → T Y G → A típicas de los patrones de daño de aDNA en los extremos de 5′ y 3′ de las lecturas, respectivamente (archivo adicional 1: Figura S4)., Sin embargo, estos aumentos son menores que los observados en otros huesos de edad similar; por ejemplo, los reportados recientemente por Gamba y colegas . Las posibles explicaciones para esta reducción en el daño observable del ADN pueden incluir el uso de la polimerasa de Phusion como se documentó anteriormente, así como el paso de ligadura Illumina® at-overhang utilizado en el protocolo de preparación de la biblioteca, que previamente se ha demostrado que prohíbe la ligadura de citosinas dañadas .
en conjunto, estos resultados apoyan la autenticidad de las lecturas de la secuencia de B. primigenius obtenidas de las bibliotecas CPC98.,
análisis de variantes de secuencia de ADN de Urochs
se identificaron un total de 5.233.471 Variantes de secuencia de ADN diferenciando el cpc98 y el genoma de referencia. De ellos, 2.135.925 pasaron un filtro de calidad compuesto que incluía un umbral mínimo de profundidad de lectura de 5× y un logaritmo recalibrado de la puntuación odds (LOD) superior a 2 (Tabla 1). En resumen, estos ~2,1 millones de variantes comprendían 2.009.261 SNP bialélicos (73,3 % de los cuales eran homocigotos) y 104.655 indels (86,3% de los cuales eran homocigotos). La relación transición a la transversalidad (ti/tv) se estimó en 2,19:1.,00, que es similar a la relación ti/tv obtenida de una secuencia del genoma de Holstein Femenino (2.18:1.00) . Se utilizó el paquete Ensembl Variant Effect Predictor (VEP) para determinar el efecto de las variaciones de la secuencia de ADN de urochs (es decir, SNPs e indels) en genes, transcripciones, secuencia de proteínas y regiones reguladoras (archivo adicional 2). Se encontró que el 96,9% de los SNP CPC98 y el 94,2% de los Indel CPC98 estaban previamente descritos y presentes en dbSNP build 140., Las variantes homocigotas fueron notablemente más probables de ser descritas previamente, y los SNP de Transición ligeramente más probables que las transversales (Tabla 1). También comparamos las variantes de CPC98 con un conjunto de SNPs e indels detectados por datos de re-secuenciación del genoma de cobertura superficial (128.4×) de 81 muestras modernas de taurina y Cebú que representan 11 razas originarias de Europa, África e India (archivo adicional 1: Métodos suplementarios, Sección 8.2). En estos animales modernos re-secuenciados, el 84,9% de los SNP CPC98 y el 81,3% de los Indel CPC98 estuvieron presentes., La alta proporción de Cpc98 SNPs e indels que se describen anteriormente apoya la autenticidad de estas variantes.
Bos primigenius del Norte de Europa: h3>
a partir de estudios publicados previamente, se recopiló un amplio conjunto de datos SNP de referencia para análisis filogenéticos y genéticos poblacionales., Esto consistió en datos de genotipo Illumina® BovineSNP50 de 1,228 bovinos individuales que comprenden el espécimen CPC98; 1,225 muestras de 73 poblaciones de bovinos modernos (representando poblaciones europeas y africanas de B. taurus, asiáticas de B. indicus, y varias mestizas de B. taurus × B. indicus y africanas de B. taurus × europeas de B. taurus); y dos muestras de yak (B. grunniens) (archivo adicional 1: Tabla S6). Este conjunto de datos SNP se filtró para retener 15.498 SNP autosómicos cubiertos a una profundidad de lectura ≥10 en los datos de la secuencia del genoma CPC98 y una tasa de genotipado ≥90% en todos los 1.228 animales en el conjunto de datos BovineSNP50., Más información sobre este conjunto de datos SNP de referencia se proporciona en el archivo adicional 1: Métodos suplementarios, sección 8.3.
El paquete de software SNPhylo se utilizó con el conjunto de datos SNP bovino para generar un árbol filogenético de máxima verosimilitud (ML) (Fig. 2). Para este análisis, el conjunto de datos BovineSNP50 se filtró utilizando un umbral de desequilibrio de enlace (R 2 ≤ 0.5) para generar un subconjunto de 10.923 SNPs de alta calidad., Para mayor claridad visual, el árbol fue construido con un panel reducido de 278 bovinos representativos (un máximo de cinco animales muestreados aleatoriamente por raza de 59 razas modernas excluyendo las poblaciones de B. taurus × B. indicus y B. taurus africano × B. taurus europeo cruzado) (archivo adicional 1: Tabla S6). Los valores de soporte de Bootstrap para la filogenia se generaron utilizando 100 seudorreplicados de los genotipos SNP. La filogenia presentada en la Fig., 2 también fue validado con un árbol ML adicional (archivo adicional 1: Figura S5) con soporte basado en bayesiano para cada rama generada usando el paquete PhyML . El árbol muestra una separación completa de las poblaciones de taurina y Cebú, ilustrando la divergencia evolutiva entre los dos taxones y apoyando los orígenes domésticos separados de B. taurus y B. indicus . Es importante señalar, sin embargo, que el sesgo de comprobación de SNP inherente al diseño del ensayo Illumina® BovineSNP50 puede tener un efecto detectable en la divergencia estimada entre el B. taurus Europeo y otros grupos de ganado ., El espécimen Británico CPC98 aurochs es un grupo externo-con soporte 100% bootstrap-a todo el clado moderno de B. taurus en esta filogenia. Esto es corroborado por la gráfica de análisis de componentes principales mostrada en la Fig. 3 en el que CPC98 es periférico al grupo de muestra Europeo de B. taurus a lo largo del componente principal 1. Estos resultados proporcionan un fuerte apoyo a la hipótesis de que los Uros del Norte de Europa son un grupo evolutivo externo a todos los bovinos taurinos domesticados .