Soil_Zoology_2021

Материалы мастер класса по анализу данных метабаркодинга (VII полевая школа по почвенной зоологии и экологии)

This project is maintained by vmikk

Установка необходимого ПО

Для установки необходимых программ нам понадобится Windows 10 + WSL или любой дистрибутив Linux. Для более ранних версий Windows можно использовать виртальную машину (например, VirtualBox и образ Ubuntu 20.04).

Системные требования - около 2GB свободного места на диске, >10GB оперативной памяти.

01. Windows Subsystem for Linux (WSL)

В случае использования Windows необходимо установить WSL (Windows Subsystem for Linux) - слой совместимости для запуска Linux-приложений.

  1. Включение WSL Запустить PowerShell от имени администратора.
    Ввести в консоли следующую команду:
     dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    
  2. Включение компонента виртуальных машин (‘Virtual Machine Platform’)
    Для Windows 10 (2004):
     dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
    

    Для Windows 10 (1903, 1909):

     Enable-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform -NoRestart
    
  3. Перезупустить ПК

  4. Скачать пакет обновления ядра Linux
    Пакет обновления ядра Linux в WSL 2 для 64-разрядных компьютеров

  5. Выбор WSL 2 в качестве версии по умолчанию
     wsl --set-default-version 2
    
  6. Установка дистрибутива Linux
    • Открыть Microsoft Store из меню Пуск;
    • Выбрать и установить дистрибутив Linux (например, Ubuntu 20.04);
    • Также установить терминал Windows (Windows Terminal app) из Microsoft Store.

При возникновении ошибок 0x80070003 или 0x80370102, необходимо включить виртуализацию CPU в BIOS (на этапе загрузки компьютера). В настройках данный пункт обычно находится на вкладке “Advanced”. Для процессоров Intel он может называться “Intel Virtualization Technology” или “Intel VT-x”, для процессоров AMD - “AMD Secure Virtual Machine” или “AMD SVM”.

Более подробную иструкцию по установке WSL см. здесь.

Для того чтобы попасть в командную строку Linux, необходимо открыть Windows Terminal и ввести:

wsl

При первом запуске Linux потребуется создать новую учетную запись пользователя. Обратите внимание, что при вводе пароля сам пароль не показыватеся.

Чтобы получить доступ к файлам “внутри WSL” через Проводник Windows можно ввести:

explorer.exe .

(точка в конце строки важна! - она означает “текущий каталог”).

02. Установка ПО для биоинфорационного анализа

Дальнейшие команды необходимо запускать в командной строке Linux.

При отстутстви прогрммы wget, необходимо её установить

sudo apt -y install wget
  1. Установка менеджера пакетов conda

     cd ~
     wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
     bash ~/miniconda.sh -b -p $HOME/miniconda
     ~/miniconda/bin/conda init bash
     source ~/.bashrc
     conda update --all --yes -c bioconda -c conda-forge
     conda install --yes -c conda-forge mamba unzip
     rm ~/miniconda.sh
    
  2. Установка DADA2 (Callahan et al., 2016) и dadaist2 (Ansorge et al., 2021)

     mamba install --yes -c conda-forge -c bioconda -c r dadaist2-full
    
  3. Установка USEARCH (Edgar, 2010)

     mkdir -p ~/bin
     wget https://www.drive5.com/downloads/usearch11.0.667_i86linux32.gz
     gunzip usearch11.0.667_i86linux32.gz
     mv usearch11.0.667_i86linux32 ~/bin/usearch11
     chmod +x ~/bin/usearch11
    
  4. Установка BLAST+ (Camacho et al., 2009)

     mamba install --yes -c bioconda blast
    
  5. (Опционально) FigTree - программа для визуализации филогенетических деревьев

03. Загрузка демонстрационных файлов и баз данных

В качестве демонстрационного набора данных будут использованы последовательности ДНК участка гена субъединицы I цитохром-с-оксидазы (длиной порядка 305-315 нуклеотидов). Для примера рассматриваются сокращённые версии 10 образцов почвы (Anslan et al., 2021; SRA BioProject ID PRJNA743174), префикс в названии файла обозначает место происхождения образца (Forest_* - лес, Field_* - поле). Каждый из образцов представляет собой смешанную пробу (9 почвенных кернов грубиной 10 см и диаметром 5 см), отобраную в окрестностях г. Тарту (Эстония) на пробных площадях 30 x 30 м (сетка 3 х 3). Секвенирование ДНК выполнено с использованием платформы DNBSEQ-G400RS (MGI-Tech).

Для таксономической идентификации будет использована “облегченная версия” базы данных последовательностей COI, составленной Терезитой Портер (Porter, 2021), в котрую включены последовательности, потенциально амплифицируемые праймерами mlCOIintF и jgHCO2198 (Leray et al. 2013), на основе которых были получены ампликоны исследуемых образцов.

04. Ссылки


Примеры анализа данных с использованием: