Auroque sequência do genoma de cobertura
de dados de Sequenciamento de B. primigenius genoma nuclear foi alinhado para o B. taurus UMD3.1 referência genoma . Para este efeito, seis bibliotecas de ADN (C1-C6) foram preparadas independentemente a partir de seis extrações separadas de pó ósseo aurochs., Estas bibliotecas foram usadas para leitura única (SR; bibliotecas C1-C3) e sequenciação emparelhada (PE; bibliotecas C4-C6) com o analisador de genoma IIx e hiseq 2000 plataformas (arquivo adicional 1: Figura S1 e tabela S1). A coleta de dados de todas as bibliotecas rendeu um total de 3,37 bilhões de leituras de sequência, variando em tamanho bruto de 36 a 70 bp (arquivo adicional 1: Tabela S2). Filtragem subsequente para remover leituras que foram mal sequenciadas, de baixa complexidade, ou que consistiam em grande parte ou inteiramente de adaptadores de sequenciamento Illumina® rendeu 2.,86 bilhões de leituras filtradas para alinhamento ao genoma de referência. Destes, 805 milhões de leituras (28,1%) foram mapeadas com o genoma de referência UMD3.1. Remoção de duplicados lê (i.e. lê da mesma sequenciamento de biblioteca mapeados para a mesma posição de nucleotídeos no mesmo cromossoma strand) rendeu 619.7 milhões de leituras e subsequente remoção de leituras que mapeada para vários locais produziu um total de 470 milhões, exclusivamente mapeada lê, dos quais 417 milhões de leituras mapeada em Phred-mapa à escala índices de qualidade igual ou superior a 30 (arquivo Adicionais 1: Tabela S3). Os 470 milhões de leituras mapeadas exclusivamente compunham 16.,62 Gb de sequências de aurochs nucleares e mtDNA e cobriram 2,37 Gb do genoma nuclear de B. taurus (89,43% do conjunto de genoma bovino de 2,65 Gb UMD3.1) com uma profundidade de sequenciação média de 6,23× em todas as posições dos nucleótidos (ficheiro adicional 1: Quadro S4). Além disso, 63.174 destes 470 milhões de leituras (incluindo 2.582.767 bp) alinhados com a sequência de 16.338 bp B. primigenius P haplogrupo mtDNA anteriormente relatada pelos EUA . Isto rendeu uma profundidade de sequência média de 158.06× ao longo de todas as posições nucleotídicas de B. primigenius mtDNA.,
uma parcela de dispersão gerada para o número de leituras alinhadas de alta qualidade para cromossomas individuais revelou uma densidade de leitura média uniforme para todos os autossomas. No entanto, a densidade do mapeamento de leituras para o cromossomo X foi de aproximadamente 50% da densidade de leitura autossômica, demonstrando que a amostra óssea de CPC98 é de um animal macho (arquivo adicional 1: Figura S2).,
Auroque sequência do genoma autenticidade
estudos Anteriores têm mostrado que a análise de DNA antigo (aDNA) é altamente sensível às duas principais fontes de erro que podem resultar na geração de falsos dados de seqüência de DNA: (1) a contaminação com DNA derivado da exógenos, moderno amostras; e (2) post-mortem de nucleotídeos modificação, principalmente a desaminação da citosina para o uracilo resíduos que faz com que uma alta taxa de artefactual C → T transições no DNA recém-sintetizado durante a reação em cadeia da polimerase (PCR) para amplificação e seqüenciamento ., Portanto, analisamos possíveis contribuições de ambas as fontes de erro na sequência do genoma aurochs.
Em primeiro lugar, a sequência completa de cpc98 mtDNA foi utilizada para estimar a quantidade de contaminação moderna do ADN bovino (ficheiro adicional 1: Métodos suplementares, Secção 7). Para isso, catalogamos mtDNA SNPs distinguindo as três sequências completas de haplogroup P atualmente disponíveis de um painel de 233 sequências completas de macro-haplogroup T e i modernas e sequências de Haplogroup Q e R recuperadas de GenBank. Esta análise identificou 15 Haplogroup p-SNPs discriminantes., As chamadas de nucleótidos para as 15 posições SNP das leituras individuais do CPC98 foram classificadas como sendo de aurochs ou origem moderna de acordo com o alelo que possuíam. Um total de 1,959 leituras individuais do CPC 98 abrangeram os 15 haplogrupo P-discriminando SNPs, dos quais 10 leituras mostraram uma característica alélica das sequências T, Q, R e/ou i mtDNA, dando uma estimativa superior da contaminação moderna bovina do mtDNA na amostra CPC98 de 0,51 % (arquivo adicional 1: Quadro S5)., Embora esta estimativa seja comparável aos níveis de contaminação moderna do mtDNA observados para genomas humanos de Neanderthal, Denisovan e Pleistoceno , também está dentro da taxa de erro de sequência relatada das plataformas Illumina® GA IIx e HiSeq 2000 . Para aperfeiçoar ainda mais a estimativa da contaminação moderna através da exclusão de transições que podem ser afetadas por misincorporações de nucleótidos diagenéticos, examinamos o número de leituras CPC 98 abrangendo a mutação do tipo transversão única (posição 14.129)., Um total de 97 cpc98 lê cobriu esta posição, todos exibindo a variante de haplogroup P, dando uma estimativa de contaminação moderna baseada apenas em transversões de 0,00%.a potencial contaminação do ADN nuclear foi estimada tirando partido do cromossoma X hemizigótico no espécime CPC 98 masculino e através da identificação de PNS de diagnóstico na parte não recombinante do cromossoma X (ficheiro adicional 1: Métodos suplementares, Secção 7). Utilizando critérios de filtragem rigorosos, este procedimento deu estimativas superiores de contaminação de ADN nuclear da taurina e zebu na Europa de 3,4% e 0%.,2 %, respectivamente. É importante notar que existe um potencial enviesamento nestas estimativas porque o genoma de referência em todos os alinhamentos foi gerado a partir de um animal Europeu taurine Hereford . Portanto, leituras falsas carregando o alelo Europeu de taurina terá maiores pontuações de alinhamento do que leituras falsas carregando o alelo de zebu, o que tenderia a elevar a estimativa de contaminação de taurina Europeia em relação à estimativa de zebu., Além disso, este procedimento assume que não existem erros de montagem ou variações de número de cópias que alterariam a expectativa de genótipos haplóides nestas posições SNP cromossômicas X na CPC98.
a variação na distribuição dos comprimentos dos fragmentos de ADN obtidos de espécimes antigos também foi utilizada como medida indirecta para estimar a extensão da contaminação do ADN moderna . A fragmentação Post mortem é uma característica da aDNA, com sequências endógenas autênticas geralmente com um tamanho de fragmento inferior a 200 bp ., A mediana auroque tamanho do fragmento foi estimado em 50 pb, utilizando-os exclusivamente mapeada PE sequência lê (17,8 milhões de lê compreendendo 994.4 Mb), com 99,99 % de mapeável insere variando entre 16 e 150 bp e 99.19 % destes variando entre 20 e 150 bp (arquivo Adicionais 1: Figura S3). Estes resultados são consistentes com os comprimentos dos fragmentos de ADN endógeno relatados para espécimes de hominina Palaeolítica, que normalmente apresentam tamanhos médios de 30-100 bp .,
anteriormente estimamos a extensão do erro de sequenciação do DNA para a amostra CPC98 contando as chamadas de nucleótidos não consensuais a partir de leituras mtDNA individuais que diferiam da sequência de consenso cpc98 mtDNA . Repetimos esta análise usando o maior número de sequências de mapeamento para a seqüência do genoma P do haplogrupo p bovino obtida para o presente estudo. Notavelmente, o aumento do número de leituras da sequência mtDNA não revelou qualquer excesso da característica C → T transições devido à desaminação da citosina post mortem dentro da sequência CPC 98 individual lê., A ausência de uma desaminação significativa da citosina post mortem pode ser atribuída à polimerase de ADN de Alta Fidelidade utilizada durante a preparação da biblioteca. Esta polimerase demonstrou ineficientemente amplificar fragmentos de ADN contendo resíduos de uracilo que foram gerados através da desaminação da citosina ; contudo, esta enzima pode amplificar fragmentos contendo resíduos de timina que foram gerados pela desaminação post mortem das 5′-metil-citosina endógenas (5meC)., Portanto, reconhecemos que enquanto os erros de sequência de DNA observados no presente estudo são artefatos mais prováveis dos métodos de sequenciamento de DNA utilizados, leituras individuais CPC 98 exibindo transições C → T podem ter sido geradas, em parte, por processos de desaminação post mortem 5meC .
The mapDamage 2.0 analysis results for a subset of sequence reads highlight increases in C → T And G → A transitions typical of aDNA damage patterns at the 5′ and 3′ ends of reads, respectively (Additional file 1: Figure S4)., No entanto, estes aumentos são inferiores aos observados em outros ossos de idade semelhante; por exemplo, os recentemente relatados por Gamba e colegas . As possíveis explicações para esta redução de danos observáveis ao DNA podem incluir o uso de polimerase de Phusão, como documentado acima, bem como o passo de ligação Illumina® AT-overhang usado no protocolo de preparação da biblioteca, que já foi mostrado para proibir a ligação de citosina danificadas .estes resultados confirmam a autenticidade da sequência B. primigenius obtida das bibliotecas CPC98.,
Aurochs DNA sequence variant analysis
a total of 5,233,471 DNA sequence variants differenting the CPC98 and reference genome were identified. Destes, 2,135,925 passaram por um filtro de qualidade composto que inclui um limiar mínimo de profundidade de leitura de 5× e um logaritmo recalibrado da pontuação de odds (LOD) superior a 2 (Quadro 1). Em resumo, essas variantes de ~ 2,1 milhões compunham 2,009,261 SNPs bialélicos (73,3% dos quais eram homozigóticos) e 104,655 indels (86,3% dos quais eram homozigóticos). A relação transição para o transversion (ti/tv) foi estimada em 2.19:1.,00, que é semelhante à razão ti / tv obtida a partir de uma sequência do genoma do Holstein feminino (2.18:1.00) . O pacote “Ensembl Variant Effect Predictor” (VEP) foi usado para determinar o efeito das variações da sequência de DNA aurochs (I. E., SNPs e indels) sobre genes, transcrições, sequência de proteínas e regiões regulatórias (arquivo adicional 2). Nós descobrimos que 96,9% dos Cpc98 SNPs e 94,2% dos indels CPC98 foram anteriormente descritos e presentes na dbsnp build 140., As variantes homozigóticas eram visivelmente mais propensas a serem descritas anteriormente, e a transição SNPs é ligeiramente mais provável que as transversões (Tabela 1). Nós também cruzamos as variantes CPC98 com um conjunto de SNPs e indels detectados por dados de re sequenciação do genoma de cobertura rasa (128.4×) de 81 amostras modernas de taurina e zebu representando 11 raças originárias da Europa, África e Índia (arquivo adicional 1: Métodos suplementares, secção 8.2). Nestes animais modernos re-sequenciados, 84,9% da Cpc98 SNPs e 81,3% da CPC98 indels estavam presentes., A alta proporção de Cpc98 SNPs e indels que são descritos anteriormente suporta a autenticidade destas variantes.
Norte da europa Bos primigenius: evolução outgroup da moderna taurina gado
Uma grande referência SNP conjunto de dados para filogenética e população análises genéticas foi montado a partir de estudos anteriormente publicados., Esta consistia em Illumina® BovineSNP50 genótipo dados de 1,228 individuais de gado que compõem o CPC98 amostra; 1,225 amostras de 73 modernos gado populações (representando Europeus e Africanos B. taurus, Asiáticos B. indicus, e vários mestiços B. taurus x B. indicus e Africana B. taurus × Europeia B. taurus populações); e dois yak (B. grunniens) amostras (arquivo Adicionais 1: Tabela S6). Este conjunto de dados SNP foi filtrado para reter 15.498 SNPs autossómicos cobertos a uma profundidade de leitura ≥10 nos dados da sequência do genoma da CPC98 e uma taxa de genotipagem ≥90% em todos os 1.228 animais do conjunto de dados BovineSNP50., Para mais informações sobre este conjunto de dados SNP de referência, consultar o ficheiro adicional 1: additional Methods, secção 8.3.
O pacote de software SNPhylo foi usado com o conjunto de dados do cattle SNP para gerar a máxima probabilidade (ML) de árvore filogenética (Fig. 2). Para esta análise, o conjunto de dados BovineSNP50 foi filtrado usando um limiar de desequilíbrio de articulação (r 2 ≤ 0.5) para gerar um subconjunto de 10.923 SNPs de alta qualidade., Para maior clareza visual, a árvore foi construída com um painel reduzido de 278 bovinos representativos (um máximo de cinco animais amostrados aleatoriamente por raça de 59 raças modernas, excluindo o B. taurus × B. indicus e o Africano B. taurus × European B. taurus crossbred populations) (ficheiro adicional 1: Quadro S6). Os valores de suporte de Bootstrap para a filogenia foram gerados usando 100 pseudoreplicados dos genotipos SNP. The phylogeny presented in Fig., 2 também foi validado com uma árvore de ML adicional (arquivo adicional 1: Figura S5) com suporte de base Bayesiana para cada ramo gerado usando o pacote PhyML . A árvore mostra a separação completa das populações de taurina e zebu, ilustrando a divergência evolutiva entre os dois taxa e apoiando as origens domésticas separadas de B. Tauro e B. indicus . É importante notar, no entanto, que o desvio constatado pela SNP inerente à concepção do ensaio Illumina® BovineSNP50 pode ter um efeito detectável na divergência estimada entre o B. taurus Europeu e outros grupos de bovinos ., The British CPC98 aurochs specimen is an outgroup-with 100 % bootstrap support-to the entire modern B. taurus clade in this phylogeny. Isto é corroborado pela parcela principal de análise de componentes apresentada na Fig. 3 em que a PCC98 é periférica ao Grupo Europeu de amostras de B. taurus ao longo do componente principal 1. Estes resultados fornecem um forte apoio para a hipótese de que o aurochs do Norte da Europa é um grupo de fora evolucionário para todos os bovinos taurinos domesticados .