J’ai fait séquencer mes petits ARN. J’ai fait séquencer mes petits ARN. Et Maintenant ? Et Maintenant ? [email protected]Introduction à l’analyse des données de séquençage à haut débit en génomique fonctionnelle. 28 mars 2012, 15:30 – 17:00 http://drosophile.org
35
Embed
Jai fait séquencer mes petits ARN. Et Maintenant ? [email protected] Introduction à lanalyse des données de séquençage à haut débit en génomique.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
J’ai fait séquencer mes petits ARN.J’ai fait séquencer mes petits ARN.Et Maintenant ?Et Maintenant ?
Introduction à l’analyse des données de séquençage à haut débit en génomique fonctionnelle.28 mars 2012, 15:30 – 17:00
http://drosophile.org
Les trois principales Les trois principales classes de petits ARNs chez classes de petits ARNs chez
la drosophilela drosophile
metHen1
Produits des snoRNA, tRNA, rRNA.2S Droso (30nt)+
20-30nt RNA gel purification
small RNA deep sequencingsmall RNA deep sequencing
(Biases)
Library “Bar coding”
Que Puis-je Faire avec mes Que Puis-je Faire avec mes séquences de petits ARN ?séquences de petits ARN ?
AnnotationAnnotation VisualisationVisualisation Découverte de lociDécouverte de loci Quantification d’expressionQuantification d’expression Analyse structurale des précurseurs, signatures, …Analyse structurale des précurseurs, signatures, … Mise en évidence de « visiteurs » (virus, …)Mise en évidence de « visiteurs » (virus, …) ……
Informatique Bioinformatique
MatérielMatériel
Un fichier de séquence au format fastqUn fichier de séquence au format fastq Un ordinateur avec ~ 8 Mo RAMUn ordinateur avec ~ 8 Mo RAM Un « Operating System Unix compliant »Un « Operating System Unix compliant » Un maniement confortable de cet OSUn maniement confortable de cet OS Quelques logiciels génériques très utilesQuelques logiciels génériques très utiles
Un « vrai » éditeur de texte (TextWrangler, etc..)Un « vrai » éditeur de texte (TextWrangler, etc..) R, R, GnuplotGnuplot
…… Une bonne connaissance du webUne bonne connaissance du web Le maniement niveau DébutantLe maniement niveau Débutant++++ d’un langage de programmation d’un langage de programmation
PerlPerl PythonPython
Que contient le gros fichier Que contient le gros fichier fastqfastq que j’ai que j’ai téléchargé (et décompressé) ?téléchargé (et décompressé) ?
* Limite max pour ouvrir un gros fichier texte (~1.2 Go)Terminal Unix. Naviguer dans le dossier qui contient le fichierTaper la commande more <nom_du_fichier>
lbcd-05:GKG13demo deepseq$ more GKG-13.fastq @HWIEAS210R_0028:2:1:3019:1114#AGAAGA/1TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA+HWIEAS210R_0028:2:1:3019:1114#AGAAGA/1bBb`bfffffhhhhhhhhhhhhhhhhhhhfhhhhhhgh@HWIEAS210R_0028:2:1:3925:1114#AGAAGA/1TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC+HWIEAS210R_0028:2:1:3925:1114#AGAAGA/1]B]VWaaaaaagggfggggggcggggegdgfgeggbab@HWIEAS210R_0028:2:1:6220:1114#AGAAGA/1TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA+HWIEAS210R_0028:2:1:6220:1114#AGAAGA/1aB^^afffffhhhhhhhhhhhhhhhhhhhhhhhchhhh@HWIEAS210R_0028:2:1:6252:1115#AGAAGA/1TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC+HWIEAS210R_0028:2:1:6252:1115#AGAAGA/1aBa^\ddeeehhhhhhhhhhhhhhhhghhhhhhhefff@HWIEAS210R_0028:2:1:6534:1114#AGAAGA/1TNAATGCACTATCTGGTACGACTGTAGGCACCATCAAT+HWIEAS210R_0028:2:1:6534:1114#AGAAGA/1aB\^^eeeeegcggfffffffcfffgcgcfffffR^^]@HWIEAS210R_0028:2:1:8869:1114#AGAAGA/1GNGGACTGAAGTGGAGCTGTAGGCACCATCAATAGATC+HWIEAS210R_0028:2:1:8869:1114#AGAAGA/1aBaaaeeeeehhhhhhhhhhhhfgfhhgfhhhhgga^^
………
Combien de séquences dans mon fichier ?Combien de séquences dans mon fichier ?
Terminal Unix. Naviguer dans le dossier qui contient le fichier Taper la commande wc - l <nom_du_fichier>
lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq
25703828 GKG-13.fastq
>>> 25 703 828 / 46 425 957 séquences
Mes séquences contiennent-elles le bon adaptateur ?Mes séquences contiennent-elles le bon adaptateur ?
deepseq$ more GKG-13.fasta >1AATGGCACTGGAAGAATTCACCTGTAGGCACCATCAAT>2TCTCGGTAGAACCTCCACTGTAGGCACCATCAATAGAT>3TTTGTGACCGACACTAACGGGTACTGTAGGCACCATCA>4TGGAATGTAAAGAAGTATGGAGCTGTAGGCACCATCAA>5GTCAGCAACTTGATTCCAGCAATCTGTAGGCACCATCA>6AATGGCACTGGAAGAATTCACGGGCTGTAGGCACCATC>7TGGAAGACTAGTGATTTTGTTCTGTAGGCACCATCAAT>8TGAACACAGCTGGTGGTATCCCTGTAGGCACCATCAAT
deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -i GKG-13.fasta -o GKG-13_clipped.fasta
fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -o GKG-13_clip-pipe.fasta
J’utilise fastx_clipper et fastQC pour visualiser la J’utilise fastx_clipper et fastQC pour visualiser la distribution de taille de mes séquencesdistribution de taille de mes séquences
deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 0 -i GKG-13.fastq -o GKG-13_clipped.fastq
deepseq$ more GKG-13_clipped.fastq @HWIEAS210R_0028:2:1:1313:1120#AGAAGA/1AATGGCACTGGAAGAATTCAC+HWIEAS210R_0028:2:1:1313:1120#AGAAGA/1fe\gggd\fgeeeggdaggag@HWIEAS210R_0028:2:1:1387:1119#AGAAGA/1TCTCGGTAGAACCTCCA+HWIEAS210R_0028:2:1:1387:1119#AGAAGA/1gggggeggfffgggfff@HWIEAS210R_0028:2:1:1849:1120#AGAAGA/1TTTGTGACCGACACTAACGGGTA+HWIEAS210R_0028:2:1:1849:1120#AGAAGA/1hhhhhhhhhfhgfhhhhgehhha
http://bowtie-bio.sourceforge.net/
Bowtie aligne des reads sur un génome de référence préalablement préparéJe télécharge Bowtie, je l’installe, et je lis le manuel
Je télécharge mon génome au format FASTAJe prépare mon « index » Bowtie
# reads processed: 5997502# reads with at least one reported alignment: 5045151 (84.12%)# reads that failed to align: 952351 (15.88%)Reported 5045151 alignments to 1 output stream(s)
… … et je récupèreet je récupèredeepseq$ ls -laht-rw-r--r-- 1 deepseq staff 351M Mar 24 17:46 GKG13_bowtie_output.tabulated-rw-r--r-- 1 deepseq staff 156M Mar 24 17:46 droso_matched_GKG-13.fa-rw-r--r-- 1 deepseq staff 28M Mar 24 17:46 unmatched_GKG13.fa
deepseq$ more droso_matched_GKG-13.fa>21TGGAATGTAAAGAAGTATGGAG>26TAAGTACTAGTGCCGCAGGA>24TGGAAGACTAGTGATTTTGTT>23AATGGCACTGGAAGAATTCACGGG>27TGAACACAGCTGGTGGTATC
deepseq$ more unmatched_GKG13.fa>29AGGGGGCTATTTCACTACTGGA>33CGATGATGACGGTACCCGTAGA>37GCTAGTCGGTACTTGAAAC>59TGGTTGCAATAGCTTCTGGCGGA>61GATGAGTGCTAGATGTAGGGA
Un fichier d’alignement
Un fichier des séquences alignéesUn fichier des séquences non alignées
Je veux visualiser mes reads dans un « Genome Je veux visualiser mes reads dans un « Genome Browser »Browser »
http://samtools.sourceforge.net/
Un pipeline sommaire pour préparer un fichier de visualisationdeepseq$ bowtie -v 1 -M 1 --best /Users/deepseq/bin/bowtie/indexes/5.37_Dmel -p 12 -f GKG-
# reads processed: 5997502# reads with at least one reported alignment: 3886779 (64.81%)# reads that failed to align: 2060565 (34.36%)# reads with alignments sampled due to -M: 50158 (0.84%)Reported 3886779 alignments to 1 output stream(s)
# Parsing completed in 1 minutes and 36.7 seconds
miRNA_bowtie_profiler.py : Cartes des reads, par miRmiRNA_bowtie_profiler.py : Cartes des reads, par miR
offsets
counts
sizes
miRNA_bowtie_profiler.py : Attribution des reads “5p” et “3p”miRNA_bowtie_profiler.py : Attribution des reads “5p” et “3p”
987 reads 16003 reads = 16990, ~ 17009 reads+
miRs « 5p » miRs « 3p »
*
miRNA_bowtie_profiler.py : Liste de comptage des miRsmiRNA_bowtie_profiler.py : Liste de comptage des miRs