banner
Centro notizie
I nostri sforzi congiunti produrranno un risultato soddisfacente.

Le pipeline di profilazione metagenomica migliorano la classificazione tassonomica per i dati di sequenziamento degli ampliconi 16S

Aug 06, 2023

Rapporti scientifici volume 13, numero articolo: 13957 (2023) Citare questo articolo

8834 accessi

122 Altmetrico

Dettagli sulle metriche

La maggior parte degli esperimenti che studiano i microbiomi batterici si basano sull’amplificazione tramite PCR di tutto o parte del gene per la subunità rRNA 16S, che funge da biomarcatore per identificare e quantificare i vari taxa presenti in un campione di microbioma. Esistono diversi metodi computazionali per analizzare il sequenziamento degli ampliconi 16S. Tuttavia, gli strumenti bioinformatici più utilizzati non sono in grado di produrre chiamate tassonomiche di alta qualità a livello di genere o di specie e potrebbero sottostimare la potenziale accuratezza di queste chiamate. Abbiamo utilizzato dati di sequenziamento 16S provenienti da finte comunità batteriche per valutare la sensibilità e la specificità di diverse pipeline bioinformatiche e librerie di riferimento genomiche utilizzate per le analisi del microbioma, concentrandoci sulla misurazione dell'accuratezza delle assegnazioni tassonomiche a livello di specie delle letture degli ampliconi 16S. Abbiamo valutato gli strumenti DADA2, QIIME 2, Mothur, PathoScope 2 e Kraken 2 insieme alle librerie di riferimento di Greengenes, SILVA, Kraken 2 e RefSeq. Gli strumenti di profilazione sono stati confrontati utilizzando dati di comunità fittizie disponibili al pubblico provenienti da diverse fonti, comprendenti 136 campioni con varia ricchezza e uniformità di specie, diverse regioni amplificate all'interno del gene rRNA 16S e sia picchi di DNA che cDNA da raccolte di cellule placcate. PathoScope 2 e Kraken 2, entrambi strumenti progettati per la metagenomica dell'intero genoma, hanno sovraperformato DADA2, QIIME 2 utilizzando il plug-in DADA2 e Mothur, che sono teoricamente specializzati per le analisi 16S. Le valutazioni delle librerie di riferimento hanno identificato le librerie SILVA e RefSeq/Kraken 2 Standard come superiori in termini di accuratezza rispetto a Greengenes. Questi risultati supportano PathoScope e Kraken 2 come opzioni competitive e pienamente capaci per l’analisi dei dati di sequenziamento degli ampliconi 16S a livello di genere e specie, per il sequenziamento dell’intero genoma e per strumenti di dati metagenomici.

Il sequenziamento ad alto rendimento ha notevolmente accelerato lo studio della microbiomica, ovvero il campo scientifico incentrato sullo studio della composizione, della diversità e della funzione delle comunità microbiche e delle loro interazioni con i loro ospiti o ambienti1. La caratterizzazione della composizione dei campioni microbici si basa comunemente sull'amplificazione delle sequenze della subunità ribosomiale 16S, un gene ubiquitario con regioni altamente conservate. La subunità semplifica gli sforzi per isolare e amplificare l'rRNA 16S con primer PCR consolidati e regioni ipervariabili per stabilire identità e filogenesi. Il sequenziamento dell'rRNA e dell'rDNA 16S può essere utilizzato per identificare specie procariotiche note e agire come proxy per quantificare l'abbondanza relativa di unità tassonomiche operative (OTU) all'interno dei campioni di microbioma.

I metodi per la profilazione tassonomica delle sequenze geniche dell'RNA ribosomiale consentono l'identificazione dell'OTU del campione classificando le sequenze di rRNA in gruppi tassonomici. Sebbene con gli strumenti disponibili2 sia ottenibile una notevole precisione nell'identificazione a livello di specie, gli attuali software di profilazione per i dati di sequenziamento degli ampliconi 16S esitano a identificare fino al livello di specie. Invece, raggruppano le letture in base alla somiglianza delle sequenze per assegnare il genere o identificazioni di livello superiore per aumentare la specificità e la sensibilità, oppure utilizzano direttamente sequenze filtrate dagli errori per la classificazione tassonomica3,4. Con l’aumento delle capacità delle moderne piattaforme di sequenziamento e l’espansione e il miglioramento dei database del genoma di riferimento batterico, si presentano maggiori potenzialità per ottenere prestazioni di analisi 16S migliorate con metodi alternativi più comunemente applicati nella metagenomica dell’intero genoma.

I pacchetti software più comuni attualmente utilizzati nell'analisi dei dati di sequenziamento degli ampliconi 16S sono DADA24, QIIME 25, il suo predecessore, QIIME 26 e Mothur7. QIIME 2 e Mothur sono stati entrambi originariamente sviluppati poco dopo l'invenzione del sequenziamento di nuova generazione e, insieme a QIIME 2, seguono essenzialmente lo stesso flusso di lavoro: le letture sono tipicamente raggruppate de novo in base alla somiglianza della sequenza in unità tassonomiche operative (OTU) o OTU denoizzate (molti si riferiscono a queste come varianti di sequenza amplicone o ASV) a seconda che si desideri un'identità di sequenza completa per il clustering. La fase iniziale di clustering serve a 1) migliorare l'efficienza computazionale limitando il numero di sequenze che necessitano di allineamento a un ampio insieme di genomi di riferimento e 2) accogliere i bassi livelli di variazione genetica presenti all'interno di un dato ceppo batterico, mitigando così gli errori di sequenziamento. Per quasi un decennio, il limite per l'inclusione dell'OTU è stato del 97% di identità di sequenza8,9, ma le attuali raccomandazioni di limite sono ora intorno al 99-100% di identità di sequenza3,10, in genere dopo una qualche forma di denoising o altra correzione per errori di sequenziamento4,11.

 128 GB) and runtimes on the order of several hours, whereas Kraken 2 in particular took mere minutes. Issues aside, PathoScope is likely to outperform QIIME 2, DADA2, and Mothur in identification regardless of the database used. This finding partly results from PathoScope’s Bayesian mixed modeling identification algorithm, which accounts for the possibility that multiple species can be present in the sample or that the target strain is not present in the reference database. PathoScope consistently outperformed Kraken 2 in most cases, although the difference was often slight and not statistically significantly better. Overall, these comparisons show that methods designed for general metagenomics analyses consistently outperform methods specifically designed for analyzing 16S data./p>