Uro sequenza del genoma di copertura
dati di Sequenziamento dal B. primigenius genoma nucleare è stato allineato al B. taurus UMD3.1 genoma di riferimento . A tale scopo, sei librerie di DNA (C1–C6) sono state preparate indipendentemente da sei estrazioni separate di polvere ossea di au., Queste librerie sono state utilizzate per il sequenziamento single-read (SR; libraries C1–C3) e paired-end (PE; libraries C4–C6) con le piattaforme Illumina® Genome Analyzer IIx e HiSeq 2000 (File aggiuntivo 1: Figura S1 e Tabella S1). La raccolta di dati da tutte le librerie ha prodotto un totale di 3,37 miliardi di letture di sequenza, che variano in lunghezza di lettura grezza da 36 a 70 bp (file aggiuntivo 1: Tabella S2). Il successivo filtraggio per rimuovere le letture che erano scarsamente sequenziate, di bassa complessità o che consistevano in gran parte o interamente di adattatori di sequenziamento Illumina® ha prodotto 2.,86 miliardi di letture filtrate per l’allineamento al genoma di riferimento. Di questi, 805 milioni di letture (28,1 %) mappati al genoma di riferimento UMD3.1. La rimozione di letture duplicate (cioè letture dalla stessa libreria di sequenziamento mappate alla stessa posizione nucleotidica sullo stesso filamento cromosomico) ha prodotto 619,7 milioni di letture e la successiva rimozione di letture mappate su più posizioni ha prodotto un totale di 470 milioni di letture mappate in modo univoco, di cui 417 milioni di letture mappate con punteggi di qualità della mappa in scala Phred ≥30 (File aggiuntivo 1: Tabella S3). I 470 milioni di letture mappate in modo univoco comprendevano 16.,62 Gb di sequenze nucleari e mtDNA aurochs e coperto 2.37 Gb del genoma nucleare B. taurus (89.43% del 2.65 Gb UMD3.1 assemblaggio genoma bovino) con una profondità media di sequenziamento di 6.23× attraverso tutte le posizioni nucleotidiche (file aggiuntivo 1: Tabella S4). Inoltre, 63.174 di questi 470 milioni di letture (comprendenti 2.582.767 bp) allineate alla sequenza mtDNA aplogruppo 16.338 bp B. primigenius P precedentemente riportata da noi . Ciò ha prodotto una profondità media di sequenza di 158,06× in tutte le posizioni del nucleotide mtDNA di B. primigenius.,
Un grafico a dispersione generato per il numero di letture allineate di alta qualità ai singoli cromosomi ha rivelato una densità di lettura media uniforme per tutti gli autosomi. Tuttavia, la densità della mappatura delle letture sul cromosoma X era approssimativamente del 50% quella della densità di lettura autosomica, dimostrando che il campione osseo CPC98 proviene da un animale maschio (File aggiuntivo 1: Figura S2).,
Uro sequenza del genoma di autenticità
gli studi Precedenti hanno dimostrato che l’analisi del DNA antico (aDNA) è altamente sensibile alle due principali fonti di errore che può causare la generazione di oggetti non autentici dati di sequenza del DNA: (1) la contaminazione con DNA derivato da esogeni, moderno campioni; e (2) post-mortem del nucleotide, la modificazione, la principalmente la deaminazione della citosina, uracile residui che provoca un alto tasso di artefactual C → T transizioni recentemente sintetizzato il DNA durante la reazione a catena della polimerasi (PCR) amplificazione e sequenziamento ., Pertanto, abbiamo analizzato i possibili contributi di entrambe le fonti di errore nella sequenza del genoma degli au.
In primo luogo, la sequenza mtDNA CPC98 completa è stata utilizzata per stimare la quantità di contaminazione moderna del DNA bovino (File aggiuntivo 1: Metodi supplementari, Sezione 7). Per questo, abbiamo catalogato mtDNA SNPs distinguendo le tre sequenze complete di aplogruppo P attualmente disponibili da un pannello di 233 sequenze moderne complete di macro-aplogruppo T e I e sequenze di aplogruppo Q e R recuperate da GenBank. Questa analisi ha identificato 15 aplogruppo P-discriminante SNP., Il nucleotide richiede le 15 posizioni SNP dalle singole letture CPC98 classificate come di origine au o moderna in base all’allele che possedevano. Un totale di 1.959 singole letture CPC98 hanno attraversato i 15 aplogruppo P-discriminante SNPs, di cui 10 letture hanno mostrato una caratteristica allele di sequenze mtDNA T, Q, R e/o I, dando una stima superiore della moderna contaminazione bovina mtDNA nel campione CPC98 dello 0,51 % (file aggiuntivo 1: Tabella S5)., Mentre questa stima è paragonabile ai livelli di contaminazione mtDNA moderna osservata per interi genomi umani di Neanderthal, Denisovan e Pleistocene, rientra anche nel tasso di errore di sequenza riportato delle piattaforme Illumina® GA IIx e HiSeq 2000 . Per perfezionare ulteriormente la stima della contaminazione moderna attraverso l’esclusione di transizioni che possono essere influenzate da misincorporazioni nucleotidiche diagenetiche, abbiamo esaminato il numero di letture CPC98 che coprono la singola mutazione di tipo transversion (posizione 14,129)., Un totale di 97 letture CPC98 coprivano questa posizione, tutte con la variante dell’aplogruppo P, ottenendo una stima di contaminazione moderna basata esclusivamente su transversioni dello 0,00%.
La potenziale contaminazione del DNA nucleare è stata stimata sfruttando il cromosoma X emizigoso nel campione CPC98 maschile e attraverso l’identificazione di SNPS diagnostici nella porzione non ricombinante del cromosoma X (File aggiuntivo 1: Metodi supplementari, Sezione 7). Utilizzando rigorosi criteri di filtraggio, questa procedura ha dato stime superiori della contaminazione del DNA nucleare europeo di taurina e zebù di 3,4% e 0.,2%, rispettivamente. È importante notare che esiste un potenziale pregiudizio in queste stime perché il genoma di riferimento in tutti gli allineamenti è stato generato da un animale europeo di taurina Hereford . Pertanto, le false letture che portano l’allele taurino europeo avranno punteggi di allineamento più alti rispetto alle false letture che portano l’allele di zebù, che tenderebbero ad elevare la stima della contaminazione taurina europea rispetto alla stima di zebù., Inoltre, questa procedura presuppone che non vi siano errori di assemblaggio o variazioni del numero di copia che alterino l’aspettativa di genotipi aploidi in queste posizioni SNP cromosomiche X in CPC98.
La variazione nella distribuzione delle lunghezze dei frammenti di DNA ottenuti da campioni antichi è stata anche utilizzata come misura indiretta per stimare l’entità della contaminazione del DNA moderno . La frammentazione post-mortem è una caratteristica dell’aDNA, con autentiche sequenze endogene che generalmente hanno una dimensione del frammento inferiore a 200 bp ., La dimensione mediana del frammento di au è stata stimata in 50 bp utilizzando le letture di sequenza PE mappate in modo univoco (17,8 milioni di letture comprendenti 994,4 Mb), con il 99,99% di inserti mappabili compresi tra 16 e 150 bp e il 99,19% di questi compresi tra 20 e 150 bp (File aggiuntivo 1: Figura S3). Questi risultati sono coerenti con le lunghezze dei frammenti di DNA endogeni riportate per i campioni di ominina del Paleolitico, che in genere mostrano dimensioni medie di 30-100 bp .,
Abbiamo precedentemente stimato l’entità dell’errore di sequenziamento del DNA per il campione CPC98 contando le chiamate nucleotidiche non consensuali da singole letture mtDNA che differivano dalla sequenza di consenso mtDNA CPC98 . Abbiamo ripetuto questa analisi utilizzando il maggior numero di letture di sequenza mappatura a bovina mtDNA aplogruppo P sequenza del genoma ottenuto per il presente studio. In particolare, l’aumento del numero di letture della sequenza mtDNA non ha rivelato alcun eccesso delle transizioni C → T caratteristiche dovute alla deaminazione della citosina post mortem all’interno delle singole letture della sequenza CPC98., L’assenza di una significativa deaminazione post mortem della citosina può essere attribuibile alla DNA polimerasi ad alta fedeltà Phusion utilizzata durante la preparazione della libreria. Questa polimerasi ha dimostrato di amplificare in modo inefficiente frammenti di DNA contenenti residui di uracile che sono stati generati tramite la deaminazione della citosina; tuttavia, questo enzima può amplificare frammenti contenenti residui di timina che sono stati generati dalla deaminazione post mortem di 5′-metil-citosine endogene (5meC)., Pertanto, riconosciamo che mentre gli errori di sequenza del DNA osservati nello studio attuale sono molto probabilmente artefatti dei metodi di sequenziamento del DNA utilizzati, le singole letture CPC98 che mostrano transizioni C → T potrebbero essere state generate, in parte, da processi di deaminazione post-mortem 5meC .
I risultati dell’analisi mapDamage 2.0 per un sottoinsieme di letture di sequenza evidenziano aumenti nelle transizioni C → T e G → A tipiche dei modelli di danno aDNA alle estremità 5′ e 3′ delle letture, rispettivamente (File aggiuntivo 1: Figura S4)., Tuttavia, questi aumenti sono inferiori a quelli osservati in altre ossa di età simile; ad esempio, quelli recentemente riportati da Gamba e colleghi . Possibili spiegazioni per questa riduzione del danno osservabile al DNA possono includere l’uso della polimerasi di Phusion come documentato sopra, così come la fase di legatura Illumina® AT-overhang utilizzata nel protocollo di preparazione della libreria, che in precedenza ha dimostrato di vietare la legatura delle citosine danneggiate .
Presi insieme questi risultati supportano l’autenticità delle letture di sequenza B. primigenius ottenute dalle librerie CPC98.,
Aurochs DNA sequence variant analysis
Un totale di 5.233.471 varianti di sequenza di DNA che differenziano il CPC98 e il genoma di riferimento sono stati identificati. Di questi, 2.135.925 hanno superato un filtro di qualità composito che include una soglia minima di profondità di lettura di 5× e un logaritmo ricalibrato del punteggio odds (LOD) maggiore di 2 (Tabella 1). In breve, questi ~ 2,1 milioni di varianti comprendevano 2.009.261 SNP biallelici (il 73,3% dei quali erano omozigoti) e 104.655 indel (l ‘ 86,3% dei quali erano omozigoti). Il rapporto di transizione alla transversion (ti/tv) è stato stimato a 2,19:1.,00, che è simile al rapporto ti / tv ottenuto da una sequenza del genoma femminile di Holstein (2.18:1.00) . Il pacchetto Ensembl Variant Effect Predictor (VEP) è stato utilizzato per determinare l’effetto delle variazioni della sequenza del DNA di au (cioè SNPs e indel) su geni, trascritti, sequenza proteica e regioni regolatorie (file aggiuntivo 2). Abbiamo scoperto che il 96,9% degli SNP CPC98 e il 94,2% degli indel CPC98 erano precedentemente descritti e presenti in dbSNP build 140., Le varianti omozigoti erano notevolmente più probabili essere descritte in precedenza e gli SNP di transizione leggermente più probabili delle transversioni (Tabella 1). Abbiamo anche incrociato le varianti CPC98 a una serie di SNP e indel rilevati dai dati di ri-sequenziamento del genoma a copertura superficiale (128,4×) da 81 campioni moderni di taurina e zebù che rappresentano 11 razze provenienti da Europa, Africa e India (file aggiuntivo 1: metodi supplementari, Sezione 8.2). In questi animali moderni ri-sequenziati, erano presenti l ‘84,9% degli SNP CPC98 e l’ 81,3% degli indel CPC98., L’alta percentuale di CPC98 SNP e indel precedentemente descritti supporta l’autenticità di queste varianti.
Nord-Europea, Bos primigenius: evolutivo outgroup moderna taurina bovini
Un grande riferimento SNP set di dati per filogenetica e genetica di popolazione di analisi è stato assemblato da studi precedentemente pubblicati., Questo consisteva in dati di genotipo Illumina ® BovineSNP50 provenienti da 1.228 bovini individuali comprendenti il campione CPC98; 1.225 campioni provenienti da 73 popolazioni di bovini moderni (rappresentanti popolazioni europee e africane B. taurus, asiatiche B. indicus e varie popolazioni incrociate B. taurus × B. indicus e africane B. taurus × popolazioni europee B. taurus); e due campioni di yak (B. grunniens) (file aggiuntivo 1: Tabella S6). Questo set di dati SNP è stato filtrato per mantenere 15.498 SNP autosomici coperti a una profondità di lettura ≥10 nei dati della sequenza del genoma CPC98 e una velocità di genotipizzazione ≥90% su tutti i 1.228 animali nel set di dati BovineSNP50., Ulteriori informazioni su questo set di dati SNP di riferimento sono fornite nel file aggiuntivo 1: Metodi supplementari, Sezione 8.3.
Il pacchetto software SNPhylo è stato utilizzato con il set di dati SNP bovini per generare un albero filogenetico di massima verosimiglianza (ML) (Fig. 2). Per questa analisi, il set di dati BovineSNP50 è stato filtrato utilizzando una soglia di squilibrio di collegamento (r 2 ≤ 0,5) per generare un sottoinsieme di 10.923 SNP di alta qualità., Per chiarezza visiva, l’albero è stato costruito con un pannello ridotto di 278 bovini rappresentativi (un massimo di cinque animali campionati casualmente per razza da 59 razze moderne escluse le popolazioni incrociate B. taurus × B. indicus e B. taurus africano × europeo B. taurus) (File aggiuntivo 1: Tabella S6). I valori di supporto Bootstrap per la filogenesi sono stati generati utilizzando 100 pseudoreplicati dei genotipi SNP. La filogenesi presentata in Fig., 2 è stato anche convalidato con un albero ML aggiuntivo (file aggiuntivo 1: Figura S5) con supporto basato su bayesiano per ogni ramo generato utilizzando il pacchetto PhyML . L’albero mostra la completa separazione delle popolazioni di taurina e zebù, illustrando la divergenza evolutiva tra i due taxa e sostenendo le origini domestiche separate di B. taurus e B. indicus . È importante notare, tuttavia, che il bias di accertamento SNP inerente al design del test Illumina® BovineSNP50 può avere un effetto rilevabile sulla divergenza stimata tra il B. taurus europeo e altri gruppi di bovini ., L’esemplare britannico CPC98 aurochs è un outgroup – con supporto 100% bootstrap-per l’intero moderno B. taurus clade in questa filogenesi. Ciò è corroborato dal diagramma di analisi dei componenti principali mostrato in Fig. 3 in cui CPC98 è periferico al gruppo campione europeo B. taurus lungo la componente principale 1. Questi risultati forniscono un forte supporto per l’ipotesi che l’au del Nord Europa sia un outgroup evolutivo per tutti i bovini taurini addomesticati .