Материалы мастер класса по анализу данных метабаркодинга (VII полевая школа по почвенной зоологии и экологии)
This project is maintained by vmikk
Для установки необходимых программ нам понадобится Windows 10 + WSL
или любой дистрибутив Linux
.
Для более ранних версий Windows можно использовать виртальную машину (например, VirtualBox
и образ Ubuntu
20.04).
Системные требования - около 2GB свободного места на диске, >10GB оперативной памяти.
В случае использования Windows необходимо установить WSL (Windows Subsystem for Linux) - слой совместимости для запуска Linux-приложений.
PowerShell
от имени администратора. dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
Для Windows 10 (1903, 1909):
Enable-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform -NoRestart
Перезупустить ПК
Скачать пакет обновления ядра Linux
Пакет обновления ядра Linux в WSL 2 для 64-разрядных компьютеров
wsl --set-default-version 2
Microsoft Store
из меню Пуск
;Ubuntu 20.04
);Windows Terminal app
) из Microsoft Store
.При возникновении ошибок 0x80070003
или 0x80370102
,
необходимо включить виртуализацию CPU в BIOS (на этапе загрузки компьютера).
В настройках данный пункт обычно находится на вкладке “Advanced”.
Для процессоров Intel он может называться “Intel Virtualization Technology” или “Intel VT-x”,
для процессоров AMD - “AMD Secure Virtual Machine” или “AMD SVM”.
Более подробную иструкцию по установке WSL
см. здесь.
Для того чтобы попасть в командную строку Linux, необходимо открыть Windows Terminal
и ввести:
wsl
При первом запуске Linux потребуется создать новую учетную запись пользователя. Обратите внимание, что при вводе пароля сам пароль не показыватеся.
Чтобы получить доступ к файлам “внутри WSL” через Проводник Windows можно ввести:
explorer.exe .
(точка в конце строки важна! - она означает “текущий каталог”).
Дальнейшие команды необходимо запускать в командной строке Linux.
При отстутстви прогрммы wget
, необходимо её установить
sudo apt -y install wget
Установка менеджера пакетов conda
cd ~
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
bash ~/miniconda.sh -b -p $HOME/miniconda
~/miniconda/bin/conda init bash
source ~/.bashrc
conda update --all --yes -c bioconda -c conda-forge
conda install --yes -c conda-forge mamba unzip
rm ~/miniconda.sh
Установка DADA2
(Callahan et al., 2016) и dadaist2
(Ansorge et al., 2021)
mamba install --yes -c conda-forge -c bioconda -c r dadaist2-full
Установка USEARCH
(Edgar, 2010)
mkdir -p ~/bin
wget https://www.drive5.com/downloads/usearch11.0.667_i86linux32.gz
gunzip usearch11.0.667_i86linux32.gz
mv usearch11.0.667_i86linux32 ~/bin/usearch11
chmod +x ~/bin/usearch11
Установка BLAST+
(Camacho et al., 2009)
mamba install --yes -c bioconda blast
(Опционально) FigTree - программа для визуализации филогенетических деревьев
Для Windows:
ссылка для скачивания
Возможно, также потребуется Java Runtime Environmen
Для Linux:
mamba install --yes -c bioconda figtree
В качестве демонстрационного набора данных будут использованы последовательности
ДНК участка гена субъединицы I цитохром-с-оксидазы (длиной порядка 305-315 нуклеотидов).
Для примера рассматриваются сокращённые версии 10 образцов почвы (Anslan et al., 2021; SRA BioProject ID PRJNA743174),
префикс в названии файла обозначает место происхождения образца (Forest_*
- лес, Field_*
- поле).
Каждый из образцов представляет собой смешанную пробу (9 почвенных кернов грубиной 10 см и диаметром 5 см),
отобраную в окрестностях г. Тарту (Эстония) на пробных площадях 30 x 30 м (сетка 3 х 3).
Секвенирование ДНК выполнено с использованием платформы DNBSEQ-G400RS (MGI-Tech).
Для таксономической идентификации будет использована “облегченная версия” базы данных последовательностей COI,
составленной Терезитой Портер (Porter, 2021), в котрую включены последовательности,
потенциально амплифицируемые праймерами mlCOIintF
и jgHCO2198
(Leray et al. 2013),
на основе которых были получены ампликоны исследуемых образцов.
Загрузка и распаковка демонстрационных файлов и баз данных:
cd ~
wget https://github.com/vmikk/Soil_Zoology_2021/releases/download/v1/data.zip
wget https://github.com/vmikk/Soil_Zoology_2021/releases/download/v1/db.zip
unzip data.zip
unzip db.zip
gunzip db/COIv4_DB_SINTAX.fa.gz
Создание базы для BLAST-поиска:
gunzip -k db/COIv4_DB.fa.gz
makeblastdb -in db/COIv4_DB.fa -dbtype nucl -out db/COIv4_BLAST
rm db/COIv4_DB.fa
Удаление временных файлов:
rm data.zip
rm db.zip
Anslan S, Mikryukov V, Armolaitis K, Ankuda J, Lazdina D, Makovskis K, Vesterdal L, Schmidt IK, Tedersoo L. Highly comparable metabarcoding results from MGI-Tech and Illumina sequencing platforms // PeerJ e12254 (2021) DOI:10.7717/peerj.12254.
Ansorge R, Birolo G, James SA, Telatin A. Dadaist2: A Toolkit to automate and simplify statistical analysis and plotting of metabarcoding experiments // International Journal of Molecular Sciences 22 (2021). DOI:10.3390/ijms22105309
Callahan B, McMurdie P, Rosen M et al. DADA2: High-resolution sample inference from Illumina amplicon data // Nature Methods 13 (2016). DOI:10.1038/nmeth.3869
Camacho C, Coulouris G, Avagyan V. et al. BLAST+: Architecture and applications // BMC Bioinformatics 10 (2009). DOI:10.1186/1471-2105-10-421
Edgar RC. Search and clustering orders of magnitude faster than BLAST // Bioinformatics 26-19 (2010). DOI:10.1093/bioinformatics/btq461
Leray M, Yang JY, Meyer CP et al. A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents // Frontiers in Zoology 10-34 (2013). DOI:10.1186/1742-9994-10-34
Porter TM. Eukaryote CO1 reference set for the RDP classifier (Version v4.0.1) // Zenodo. DOI:10.5281/zenodo.4741447 URL:https://github.com/terrimporter/CO1Classifier
Примеры анализа данных с использованием: