Материалы мастер класса по анализу данных метабаркодинга (VII полевая школа по почвенной зоологии и экологии)
This project is maintained by vmikk
DADA2
(Callahan et al., 2016) - программа для извлечения
точных вариантов последовательностей ампликонов (ASVs, Amplicon Sequence Variants).
ASV представляют собой аналоги OTU, но имеют более высое разрешение
(разрешающая способность может составлять даже до 1-2 нуклеотидов).
Также к достоинствам ASV можно отнести их сопоставимость между разными исследованиями без необходимости повторной обработки объединенных данных.
Программа dadaist2
(Ansorge et al., 2021) представляет из себя оболочку для DADA2 и позволяет легко автоматизировать весь анализ (от обработки прочтений до статистического анализа и построения графиков).
Для начала необходимо сформировать таблицу с соответствием образцов файлам с парно-концевыми прочтениями:
cd ~
dadaist2-metadata -i data/ > metadata.tsv
cat metadata.tsv
Далее команда dadaist2
запускает пайплан DADA2, в который входит:
SeqFu
; Telatin et al., 2021)Cutadapt
; Martin, 2011)DADA2
; Callahan et al., 2016)assignTaxonomy
)Rhea
(Lagkouvardos et al., 2017)phyloseq
(McMurdie, Holmes,2013) и MicrobiomeAnalyst
(Chong et al., 2020)dadaist2 \
-i data/ \
-m metadata.tsv \
-d db/COIv4_DB.fa.gz \
--primers "GGWACWGGWTGAACWGTWTAYCCYCC":"TANACYTCNGGRTGNCCRAARAAYCA" \
-t 4 \
-l DADA2_results/DADA2_log.txt \
-o DADA2_results
-i
- директория, в которой находятся FASTQ файлы-m
- указывает на файл с метаданными-d
- путь к базе данных для таксономической аннотиации--primers
указывает на последовательности используемых праймеров (Leray et al. 2013):-t
- количество ядер процессора-l
- файл с отчетом о выполнении программ-o
- папка с результатми анализаОсновные результаты:
dada2_stats.tsv
- отчёт о количестве ридов после фильтрацииrep-seqs-tax.fasta
- последовательности ASV c таксономической аннотацией в заголовкахfeature-table.tsv
- количество ридов ASV в образцахrep-seqs.tree
- филогенетическое дерево ASV в формате Newickrep-seqs.msa
- выравнивание последовательностей ASVВ интерактивном виде также можно посмотреть отчёт о количестве ридов после фильтрации, обесшумливания, сборки парно-концевых ридов и удаления химер, а также о соотношении обилий доминирующих последовательностей с учётом их таксономического положения.
## Подготовка данных для отчёта
dadaist2-mqc-report \
-i DADA2_results/ \
-t 10 \
-o DADA2_results/mqc
## Формирование MultiQC-отчёта
multiqc -c DADA2_results/mqc/config.yaml DADA2_results/qc/
## Открываем отчет в браузере (например, в Firefox)
firefox multiqc_report.html
В подпапке Rhea
находятся результаты
cat DADA2_results/Rhea/
OTUs_Table-norm-tax.tab
) и относительным (OTUs_Table-norm-rel-tax.tab
) обилием ASV в образцахRarefactionCurve.pdf
)MicrobiomeAnalyst
(Chong et al., 2020) - веб-сервер, на котором представлен модуль
для анализа данных метабаркодинга (MDP, Marker Data Profiling).
Его возможности простираются от нормализации данных до статистического
сравнения и классификации групп образцов.
Программа dadaist2
уже заботливо помогла сформировать данные в удобном для
MicrobiomeAnalyst
формате и нам остаётся только загрузить их по этой ссылке:
https://www.microbiomeanalyst.ca/MicrobiomeAnalyst/upload/OtuUploadView.xhtml
В поле OTU/ASV table
необходимо загрузить файл table.csv
.
В поле Metadata file
- файл metadata.csv
.
В поле Taxonomy table
- файл taxonomy.csv
.
В поле Phylogenetic tree
- файлrep-seqs.tree
.
В графе Taxonomy labels
выбрать “QIIME”.
Результаты пайплайна доступны здесь
Callahan B, McMurdie P, Rosen M et al. DADA2: High-resolution sample inference from Illumina amplicon data // Nature Methods 13 (2016). DOI:10.1038/nmeth.3869
Ansorge R, Birolo G, James SA, Telatin A. Dadaist2: A Toolkit to automate and simplify statistical analysis and plotting of metabarcoding experiments // International Journal of Molecular Sciences 22 (2021). DOI:10.3390/ijms22105309
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: Summarize analysis results for multiple tools and samples in a single report // Bioinformatics (2016) DOI:10.1093/bioinformatics/btw354
Lagkouvardos I, Fischer S, Kumar N, Clavel T. Rhea: a transparent and modular R pipeline for microbial profiling based on 16S rRNA gene amplicons // PeerJ 5 (2017) DOI:10.7717/peerj.2836
Chong J, Liu P, Zhou G et al. Using MicrobiomeAnalyst for comprehensive statistical, functional, and meta-analysis of microbiome data // Nature Protocols 15 (2020). DOI:10.1038/s41596-019-0264-1
Leray M, Yang JY, Meyer CP et al. A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents // Frontiers in Zoology 10-34 (2013). DOI:10.1186/1742-9994-10-34
Martin M. Cutadapt removes adapter sequences from high-throughput sequencing reads // EMBnet Journal 17 (2011). DOI:10.14806/ej.17.1.200
McMurdie PJ, Holmes S. phyloseq: An R Package for Reproducible Interactive Analysis and Graphics of Microbiome Census Data // PLOS ONE 8-4 (2013). DOI:10.1371/journal.pone.0061217
Telatin A, Fariselli P, Birolo G. SeqFu: A Suite of Utilities for the Robust and Reproducible Manipulation of Sequence Files // Bioengineering 8 (2021). DOI:10.3390/bioengineering8050059
Примеры анализа данных с использованием: