script metauto.pl

meta

Structure

Evolution

Et

Diversité des microbiotes des semences

1. Un script pour automatiser les traitements en métagénomique avec mothur et R
Le script metauto.pl et ses fichiers annexes dont ceux pour mothur et ses programmes perl sont disponibles dans l'archive metauto.zip. Le but du script est d'aider à la réalisation d'une analyse métagénomique sur des séquences fastq associées à divers "facteurs" (jours, pays, échantillons...).

1.1 Préparation des données et recopie du script

Avant d'utiliser le script, il est nécessaire de créer un répertoire d'analyse structuré de la façon suivante :

il y a un sous-répertoire Input/ qui contient les séquences fastq

il y a un sous-répertoire Output/ (vide au départ) qui contiendra les fichiers temporaires de calcul

il y a un sous-répertoire Results/ (vide au départ) qui contiendra les fichiers PDF et CSV générés à la fin de l'analyse

les fichiers de l'archive ont été décompressés dans le répertoire de l'analyse au-dessus de Input, Output et Results.

Par exemple si votre analyse se nomme Metaseed, le répertoire Metaseed doit ressembler à :
     Metaseed/            # répertoire principal de l'analyse avec le script et ses annexes
     Metaseed/Input/      # données fastq
     Metaseed/Output/     # fichiers temporaires
     Metaseed/Results/    # fichiers résultats
     
     
Pour que le script puisse détecter des facteurs (échantillons, dates, pays...) il faut que les fichiers fastq utilisent le séparateur _ (soit : underscore ou encore : espace souligné, "tiret du 8"). Par exemple un fichier identifié par S01_H24_GTAAGT_L001_R1.fastq fait partie potentiellement de deux facteurs, détectés par S01 et par H24. Si par contre les informations sont collées, comme dans S01H24_GTAAGT_L001_R1.fastq le script ne sera pas capable de reconnaitre les bons facteurs.

1.2 Contenu de l'archive et utilisation du script

Pour utiliser le script, il suffit d'aller dans le répertoire d'analyse et d'y décompresser tous les fichiers de l'archive. Ensuite, il faut taper perl metauto.pl puis la ou les options désirées. L'analyse comporte 7 étapes qu'il faut réaliser dans l'ordre.
     # on est dans le répertoire d'analyse
     # création des sous-répertoires
     
     mkdir Input
     mkdir Output
     mkdir Results
     
     # rapatriement de l'archive du script
     
     wget http://forge.info.univ-angers.fr/~gh/Metaseed/metauto.zip
     
     # décompression de l'archive
     
     unzip metauto.zip
     
     # il n'y a plus qu'à recopier les données dans Input/
     # avant d'exécuter le script...
     
Si vous disposez du programme wget il vous suffit de copier/coller les instructions suivantes pour que vous n'ayez plus qu'à recopier vos données dans le répertoire Input/ avant d'exécuter le script :

Le script est écrit en perl mais vous n'avez pas besoin de connaitre perl pour vous en servir. Par contre, perl doit être installé. De même, le script utilise des programmes R mais, là encore, vous n'avez pas besoin de connaitre R pour vous servir du script. Par contre, R doit être installé et les packages suivants doivent avoir été installés (faites-vous aider si vous ne savez pas comment installer un package) :
     beanplot
     ggplot2
     plyr
     reshape2
     scales
     
Voici le contenu de l'archive du script :
Le script comporte des options, visibles via l'option --help. Voici quelques exemples d'appel du script :

1.3 Rappel de l'aide
     $>  perl metauto.pl --help
     
      metauto.pl (gH) version 1.35
     
         syntax : metauto.pl OPTION where OPTION can be
     
          --help     # displays this help
          --steps    # details the steps
          --status   # shows completed steps
          --clean    # removes temporary and log files
          --step 1 | 2 | 3 | 4 | 5 | 6 | 7 --to 2 | 3 | 4 | 5 | 6 | 7
          --continue # starts step 1 or proceeds to next step
          --factors  # to see what the possible factors are (step 4)
          --step 5 --factor 1 | 2 | 3... # use the appropriate 16S.design*
     
     
     
1.4 Description des étapes
     $>  perl metauto.pl --steps
     
      metauto.pl (gH) version 1.47
     
      --steps of metauto script:
     
       1. build stability.files
       2. check quality of fragments (long)
       3. build groups
       4. run abundance computations
       5. run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering
       6. run beta-diversity analysis
       7. run amova analysis
     
     
1.5 Statut en cours d'analyse
     $>  perl metauto.pl --step 1
     
     [...]
     
     $>  perl metauto.pl --continue
     
     [...]
     
     $>  perl metauto.pl --status
     
      metauto.pl (gH) version 1.35
     
      --status of metauto script:
     
       step 1 (build stability.files and determine factors):
          completed
       step 2 (check quality of fragments):
          completed
       step 3 (build groups (long)):
          UNCOMPLETED
       step 4 (abundance computations):
          UNCOMPLETED
       step 5 (alpha-diversity step with R beanplots and taxonomic clustering):
          UNCOMPLETED
       step 6 (beta-diversity step):
          UNCOMPLETED
       step 7 (amova analysis):
          UNCOMPLETED
     
     
     
2. Un exemple naif d'exécution pour les étapes 1 à 7
La version longue, non complètement expurgée des sorties mothur, peut être lue dans le fichier metauto_demo_long.txt.
     $> metauto --step 1 --to 7
     
     metauto.pl (gH) version 1.47
     
     Step 1:  build stability.files
     
      required file alpha-divMOCK.mothur is present
      required file alpha-divNOMOCK.mothur is present
      required file amova.mothur is present
      required file beanplots.r is present
      required file beta-div.mothur is present
      required file calc_abundance.pl is present
      required file elim_LowFreqOTU_from_shared_make_database.pl is present
      required file groupsMOCK.mothur is present
      required file groupsNOMOCK.mothur is present
      required file quality.mothur is present
      required file silva.v4.fasta is present
      required file test16S.oligos is present
      required file trainset9_032012.pds.fasta is present
      required file trainset9_032012.pds.tax is present
     
      no MOCK files found.
     
     
      2 files written in stability.files for *R1.fastq files.
     
      -- 2 stability.files *R1* and *R2* used.
     
      -- step 1 completed.
     
     Step 2:  check quality of fragments (long)
     
       -- mothur quality.mothur
     
       mothur v.1.33.3
       [...]
     
       mothur > quit()
     
      -- step 2 completed.
     
     Step 3:  build groups
     
       -- mothur groupsNOMOCK.mothur
       [...]
     
       -- step 3 completed.
     
     Step 4:  abundance computations
     
       -- elim_LowFreqOTU
     
       perl elim_LowFreqOTU_from_shared.pl -s 16S.an.unique_list.shared -f 0.1 -o 16S.an.unique_list.abund.shared
     
       -- calc_abundance
     
       perl calc_abundance.pl -s 16S.an.unique_list.abund.shared -f 1000 -o 16S.an.unique_list.abund.proportion.shared
     
       -- step 4 completed.
     
     Step 5:  alpha-diversity step with R beanplots and taxonomic clustering
     
       -- mothur alpha-divNOMOCK.mothur
       [...]
     
       let's use factor 1 to build Output/16S.design ;
       values: S01 S03
     
       -- R beanplots.r
       [...]
     
       -- R taxonomy.r
       [...]
     
       -- step 5 completed.
     
     Step 6:  beta-diversity step
     
       -- mothur beta-div.mothur
       [...]
     
       -- step 6 completed.
     
     Step 7:  amova analysis
     
        -- mothur amova.mothur
        [...]
     
        -- step 7 completed.
     
     Start: 20/10/2014 18:11 ; end: 20/10/2014 18:31 ; elapsed time: 20 min 03 sec.
     
3. Choix de facteur et étape 5
Le script essaie de détecter les facteurs avec l'option --factors. Les facteurs possibles sont alors affichés, il suffit de choisir celui que l'on veut avant d'exécuter ou de ré-éxécuter l'étape 5. Par défaut, l'étape 5 utilise --factor 1.

Attention : il faut avoir exécuté l'étape 4 (bien sûr !) pour que les facteurs puissent être déterminés.
     $> metauto --factors
     
      metauto.pl (gH) version 1.35
     
      Looking for factors in 16S.an.unique_list.abund.shared...
     
      for factors, you may use the option(s)
      --factor 1 : S01 S03
      --factor 2 : H0 H24
     
     $> metauto --step 5 # équivalent à --step 5 --factor 1
     
        Step 5:  run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering
     
        let's use factor 1 to build Output/16S.design ;
        values: S01 S03
     
        -- mothur alpha-div.mothur
        [...]
     
        -- R beanplots.r
        [...]
     
        -- R taxonomy.r
        [...]
     
     -- step 5 completed.
     
     
     $> metauto --step 5 --factor 2
     
        metauto.pl (gH) version 1.35
     
        Step 5:  run alpha-diversity analysis, determine factors, make R beanplots and taxonomic clustering
     
        let's use factor 2 to build Output/16S.design ;
        values: H0 H24
     
        -- mothur alpha-div.mothur
        [...]
     
        -- R beanplots.r
        [...]
     
        -- R taxonomy.r
        [...]
     
     -- step 5 completed.
     
4. Exemple de résultats

Ce script a notamment permis de traiter, dans le cadre d'une analyse amplicon 16S 172 fichiers de reads, de taille moyenne 47 Mo soit une taille totale de 8,2 Go (1,5 Go une fois compressés). en à peu près 16 h sur un petit serveur dédieé (2 processeurs, 4 coeurs, 32 Go RAM) pour 4 facteurs d'intérêt. Vous pouvez consulter l'archive des résultats.
Retour à la page principale de (gH)