meta
Structure
Evolution
Et
Diversité des microbiotes des semences
1. Un script pour automatiser les traitements en métagénomique avec mothur et R
Le script metauto.pl et ses fichiers annexes dont ceux pour mothur et ses programmes perl sont disponibles dans l'archive metauto.zip. Le but du script est d'aider à la réalisation d'une analyse métagénomique sur des séquences fastq associées à divers "facteurs" (jours, pays, échantillons...).
1.1 Préparation des données et recopie du script
Avant d'utiliser le script, il est nécessaire de créer un répertoire d'analyse structuré de la façon suivante :
- il y a un sous-répertoire Input/ qui contient les séquences fastq
- il y a un sous-répertoire Output/ (vide au départ) qui contiendra les fichiers temporaires de calcul
- il y a un sous-répertoire Results/ (vide au départ) qui contiendra les fichiers PDF et CSV générés à la fin de l'analyse
- les fichiers de l'archive ont été décompressés dans le répertoire de l'analyse au-dessus de Input, Output et Results.
Par exemple si votre analyse se nomme Metaseed, le répertoire Metaseed doit ressembler à :
Metaseed/ # répertoire principal de l'analyse avec le script et ses annexes Metaseed/Input/ # données fastq Metaseed/Output/ # fichiers temporaires Metaseed/Results/ # fichiers résultatsPour que le script puisse détecter des facteurs (échantillons, dates, pays...) il faut que les fichiers fastq utilisent le séparateur _ (soit : underscore ou encore : espace souligné, "tiret du 8"). Par exemple un fichier identifié par S01_H24_GTAAGT_L001_R1.fastq fait partie potentiellement de deux facteurs, détectés par S01 et par H24. Si par contre les informations sont collées, comme dans S01H24_GTAAGT_L001_R1.fastq le script ne sera pas capable de reconnaitre les bons facteurs.
1.2 Contenu de l'archive et utilisation du script
Pour utiliser le script, il suffit d'aller dans le répertoire d'analyse et d'y décompresser tous les fichiers de l'archive. Ensuite, il faut taper perl metauto.pl puis la ou les options désirées. L'analyse comporte 7 étapes qu'il faut réaliser dans l'ordre.
# on est dans le répertoire d'analyse # création des sous-répertoires mkdir Input mkdir Output mkdir Results # rapatriement de l'archive du script wget http://forge.info.univ-angers.fr/~gh/Metaseed/metauto.zip # décompression de l'archive unzip metauto.zip # il n'y a plus qu'à recopier les données dans Input/ # avant d'exécuter le script...Si vous disposez du programme wget il vous suffit de copier/coller les instructions suivantes pour que vous n'ayez plus qu'à recopier vos données dans le répertoire Input/ avant d'exécuter le script :
Le script est écrit en perl mais vous n'avez pas besoin de connaitre perl pour vous en servir. Par contre, perl doit être installé. De même, le script utilise des programmes R mais, là encore, vous n'avez pas besoin de connaitre R pour vous servir du script. Par contre, R doit être installé et les packages suivants doivent avoir été installés (faites-vous aider si vous ne savez pas comment installer un package) :
beanplot ggplot2 plyr reshape2 scalesVoici le contenu de l'archive du script :
Le script comporte des options, visibles via l'option --help. Voici quelques exemples d'appel du script :
1.3 Rappel de l'aide
$> perl metauto.pl --help metauto.pl (gH) version 1.35 syntax : metauto.pl OPTION where OPTION can be --help # displays this help --steps # details the steps --status # shows completed steps --clean # removes temporary and log files --step 1 | 2 | 3 | 4 | 5 | 6 | 7 --to 2 | 3 | 4 | 5 | 6 | 7 --continue # starts step 1 or proceeds to next step --factors # to see what the possible factors are (step 4) --step 5 --factor 1 | 2 | 3... # use the appropriate 16S.design*1.4 Description des étapes
$> perl metauto.pl --steps metauto.pl (gH) version 1.47 --steps of metauto script: 1. build stability.files 2. check quality of fragments (long) 3. build groups 4. run abundance computations 5. run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering 6. run beta-diversity analysis 7. run amova analysis1.5 Statut en cours d'analyse
$> perl metauto.pl --step 1 [...] $> perl metauto.pl --continue [...] $> perl metauto.pl --status metauto.pl (gH) version 1.35 --status of metauto script: step 1 (build stability.files and determine factors): completed step 2 (check quality of fragments): completed step 3 (build groups (long)): UNCOMPLETED step 4 (abundance computations): UNCOMPLETED step 5 (alpha-diversity step with R beanplots and taxonomic clustering): UNCOMPLETED step 6 (beta-diversity step): UNCOMPLETED step 7 (amova analysis): UNCOMPLETED2. Un exemple naif d'exécution pour les étapes 1 à 7
La version longue, non complètement expurgée des sorties mothur, peut être lue dans le fichier metauto_demo_long.txt.
$> metauto --step 1 --to 7 metauto.pl (gH) version 1.47 Step 1: build stability.files required file alpha-divMOCK.mothur is present required file alpha-divNOMOCK.mothur is present required file amova.mothur is present required file beanplots.r is present required file beta-div.mothur is present required file calc_abundance.pl is present required file elim_LowFreqOTU_from_shared_make_database.pl is present required file groupsMOCK.mothur is present required file groupsNOMOCK.mothur is present required file quality.mothur is present required file silva.v4.fasta is present required file test16S.oligos is present required file trainset9_032012.pds.fasta is present required file trainset9_032012.pds.tax is present no MOCK files found. 2 files written in stability.files for *R1.fastq files. -- 2 stability.files *R1* and *R2* used. -- step 1 completed. Step 2: check quality of fragments (long) -- mothur quality.mothur mothur v.1.33.3 [...] mothur > quit() -- step 2 completed. Step 3: build groups -- mothur groupsNOMOCK.mothur [...] -- step 3 completed. Step 4: abundance computations -- elim_LowFreqOTU perl elim_LowFreqOTU_from_shared.pl -s 16S.an.unique_list.shared -f 0.1 -o 16S.an.unique_list.abund.shared -- calc_abundance perl calc_abundance.pl -s 16S.an.unique_list.abund.shared -f 1000 -o 16S.an.unique_list.abund.proportion.shared -- step 4 completed. Step 5: alpha-diversity step with R beanplots and taxonomic clustering -- mothur alpha-divNOMOCK.mothur [...] let's use factor 1 to build Output/16S.design ; values: S01 S03 -- R beanplots.r [...] -- R taxonomy.r [...] -- step 5 completed. Step 6: beta-diversity step -- mothur beta-div.mothur [...] -- step 6 completed. Step 7: amova analysis -- mothur amova.mothur [...] -- step 7 completed. Start: 20/10/2014 18:11 ; end: 20/10/2014 18:31 ; elapsed time: 20 min 03 sec.3. Choix de facteur et étape 5
Le script essaie de détecter les facteurs avec l'option --factors. Les facteurs possibles sont alors affichés, il suffit de choisir celui que l'on veut avant d'exécuter ou de ré-éxécuter l'étape 5. Par défaut, l'étape 5 utilise --factor 1.
Attention : il faut avoir exécuté l'étape 4 (bien sûr !) pour que les facteurs puissent être déterminés.
$> metauto --factors metauto.pl (gH) version 1.35 Looking for factors in 16S.an.unique_list.abund.shared... for factors, you may use the option(s) --factor 1 : S01 S03 --factor 2 : H0 H24 $> metauto --step 5 # équivalent à --step 5 --factor 1 Step 5: run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering let's use factor 1 to build Output/16S.design ; values: S01 S03 -- mothur alpha-div.mothur [...] -- R beanplots.r [...] -- R taxonomy.r [...] -- step 5 completed. $> metauto --step 5 --factor 2 metauto.pl (gH) version 1.35 Step 5: run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering let's use factor 2 to build Output/16S.design ; values: H0 H24 -- mothur alpha-div.mothur [...] -- R beanplots.r [...] -- R taxonomy.r [...] -- step 5 completed.4. Exemple de résultats
Ce script a notamment permis de traiter, dans le cadre d'une analyse amplicon 16S 172 fichiers de reads, de taille moyenne 47 Mo soit une taille totale de 8,2 Go (1,5 Go une fois compressés). en à peu près 16 h sur un petit serveur dédieé (2 processeurs, 4 coeurs, 32 Go RAM) pour 4 facteurs d'intérêt. Vous pouvez consulter l'archive des résultats.
Retour à la page principale de (gH)