Intranet
Vous êtes ici : Accueil Manifestations scientifiques Séminaires Bioinformatique 2008-2009 Journée thématique : nouveaux séquenceurs (NGS)

Journée thématique : nouveaux séquenceurs (NGS)

Actions sur le document
Jeudi 02 avril 2009 - 09h30 à 17h30 - Salle Métivier

Contact : pierre.peterlongo@irisa.fr, asiegel@irisa.fr

10h - Diversité et fonction(s) des champignons en écosystème hydrothermal. Reconstructions métaboliques par analyse métagénomique

Thomas Le Calvez (Univ. rennes 1)



Afin de résoudre le rôle écologique des champignons en écosystème hydrothermal, nous avons choisi une approche métagénomique originale : l’échantillon choisi sur la base de la fréquence du gène codant l’ARNr18S et sur la base des études de diversité (un seul phylotype fongique, phylum Chytridiomycota) a été pyroséquencé (GS FLX ; 454 Life Sciences, ROCHE). Six ng d’ADN extraits ont été pyroséquencés en 3 runs : 168.909 contigs (longueur moyenne 352 pb; couverture: 2.88X) ont été assemblés à partir de 1.441.839 séquences individuelles (de longueur moyenne 227.5 pb).

Deux approches ont alors été choisies. La première consistait à analyser les contigs générés, afin d’extraire les fragments de gènes fongiques et de reconstruire leur métabolisme hypothétique. Les hypothèses de fonctionnement métabolique des champignons dans ces milieux, établies sur la base de recherche d’homologies dans les bases de données (BLASTX, ORF finder…) seront exposées. La seconde approche, basée cette fois sur l’étude des séquences individuelles, consistait à reconstruire les différents métabolismes bactériens présents dans l’environnement (approche BLASTX, serveur mgRAST, ASGARD), mais également de connaître la composition taxonomique plus précise de notre échantillon (MEGAN). Les résultats et les limites de cette analyse seront discutés.

11h - Estimation of sequence errors and prediction capacity in transcriptomic and DNA-protein interaction assays

Eric Rivals (LIRMM, Montpellier)

Next-generation sequencing technologies, able to yield millions of sequences in a single run, allow to interrogate the transcriptome or to assay protein-DNA interactions (by Chromatin ImmunoPrecipitation by sequencing or ChIP-seq) at a genome-wide scale. These assays yield short sequences (<40 bp), called tags, that need to be mapped to the genome sequence. To each tag is associated the number of times that the same sequence has been experimentally detected: its occurrence number. For transcriptomic assays, for instance, a tag with a high occurrence number likely is the biologically valid signature of an abundant transcript, while a tag with a low occurrence number may either result from a sequencing error or identify a rare RNA.

The mapping is a compulsory step to first predict, and then annotate regions of interest on the genome. Usually, only genomic locations that are unambiguously mapped by a tag are further analysed. Those high-throughput assays are intended to predict a maximum number of genomic locations of interest. Obviously, this induces a balance between the number of mapped tags and the number of tags that map a unique genomic location, and this balance is controlled by the tag length. The sequencing technique generally dictates the tag length. Nevertheless, once a certain length is sequenced (e.g., 36 bp with a Solexa/Illumina 1G machine) it is still possible to map only sub-parts (a prefix, a suffix, a substring) of the tags to the genome, thereby artificially reducing the tag length and modifying the balance.

Presently, we lack a statistical method to evaluate the influence of the tag length on the capacity of prediction for different assays and sequencing techniques, as well as the importance of sequence errors. Our contribution is threefold. Based on word statistics, we design a program that computes the theoretical probability of mapping a genomic location by chance for a given tag length, a background distribution. Using an efficient algorithm to map short tags on complete genome sequence, called mpscan, we investigate how the prediction capacity varies with tag length. Finally, we propose a method to estimate the probability of a tag to be altered by a sequencing error. We apply it to derive a probability of having an erroneous nucleotide at a given position in the tag for the Sanger and Solexa sequencing techniques, and for both transcriptomic and ChIP-seq experiments. This enables a technical assessment of such assays and the indirect measurement of the impact of some biological phenomena, like SNPs.

13h45 - Expérience avec les Nouvelles Technologies de Séquençage au Genoscope

Patrick Wincker (Genoscope CEA)

Les analyses à l’échelle génomique ont connu une accélération remarquable au cours des dernières années, en particulier grâce à l’apparition de nouvelles technologies de séquençage de l’ADN. Nous présenterons les évolutions en cours de ces technologies, ainsi que plusieurs de leurs applications majeures. Le séquençage de génomes (de novo et re-séquençage comparatif) sera principalement abordé. Nous montrerons dans quels cas ces méthodes peuvent substituer économiquement la méthode de séquençage jusqu’alors utilisée, et dans quels cas elles ne le permettent pas encore. Nous montrerons quelques exemples de développements informatiques nécessaires pour tirer pleinement partie de la quantité très importante de données générées par ces nouvelles méthodes.

14h45 - Barre-codes ADN, biodiversité, échantillons environnementaux, et nouvelles techniques de séquençage

Pierre Taberlet (Laboratoire d'Ecologie Alpine, Grenoble)

Après une brève présentation du concept des barre-codes ADN (DNA barcoding), l'intérêt pour des études en écologie est présenté d'un point de vue général. Contrairement à la grande majorité de la communauté scientifique, nous avons opté pour des séquences barre-codes très courtes, de manière à pouvoir analyser des échantillons où l'ADN est dégradé, tels que des sols ou des fèces. La stratégie expérimentale consiste à (i) réaliser un échantillonnage sur le terrain, (ii) amplifier un fragment très court d'ADN (~100 pb) mais qui discrimine aussi bien que possible les différentes espèces; (iii) séquencer les produits PCR obtenus par pyroséquençage massivement parallèle (454 FLX). Ainsi, à partir d'un échantillon de sol il est possible de retrouver la grande majorité des plantes environnantes. De même, à partir de fèces d'herbivore, il est possible de reconstituer de manière précise le régime alimentaire de l'animal. Pour terminer, les problèmes d'analyse bioinformatique des séquences seront abordés, en mettant l'accent d'une part sur la masse de données, et d'autre part sur le problème des erreurs de séquençage.

16h15 - Use of normalized Sanger sequenced libraries and non-normalized 454 libraries to study the haploid and diploid lives of the coccolithophore Emiliania huxleyi

Peter von Dassow (Station Bio Roscoff)



Emiliania huxleyi is the most abundant member of the coccolithophores, a group of calcifying algae with a critical role in global carbon cycling. A draft genome assembly of E. huxleyi has been released by JGI, but EST data from this species is still lacking. In collaboration with Genoscope, we are using deep Sanger and 454 sequencing to characterize the transcriptomes of haploid and diploid life phases of this species. We used normalized Sanger sequenced EST libraries (>19,000 ESTs from each of two libraries) to create EST clusters for comparison of transcriptome richness between the two life phases and to generate lists of transcripts with homology to known proteins in the Uniprot, Swissprot, and KOG databases. Shorter sequences from the non-normalized 454 libraries (>255,000 reads from each have been mapped to the Sanger EST clusters, allowing a semi-quantitative analysis of which genes are potentially diploid-specific, which are haploid-specific, and which are shared between both life cycle stages. The total number of expressed genes is estimated to be 19-24% higher in diploids than haploids. The list of diploid-specific transcripts revealed a wealth of new candidate biomineralization genes, including calcium transporters and carbonate transporters. The list of haploid-specific genes identified for the first time a large number of genes involved in motility, signaling, and transcription factors. An initial goal was to use the JGI genome assembly for mapping of both Sanger ESTs (longer but intrinsically biased towards the 3’ end of genes) and 454 reads (shorter, but covering 5’ and 3’ regions of transcripts), in order to help assembly more complete transcript models for gene prediction. However, we have encountered several unanticipated challenges. There are much larger than expected genome content between the strains chosen in our sequence comparison and the strain used for the JGI genome assembly, despite the fact that matching ESTs between the two genetic backgrounds are >99.7% identical. The strain sequenced by JGI appears to have selectively lost a large percentage of haploid-specific genes (e.g., the genes for flagella) and other genes. The JGI genome assembly includes a large number of gaps. Mapping of 17 clusters related to the well conserved acid dynein heavy chain gene family call into question the validity of the JGI assembly. All known flagellated eukaryotes require >10 distinct dynein heavy chains, yet there are only 3 loci in the JGI assembly that could encode a >4000 amino acid dynein heavy chain. This means we will need to rely much less than planned on the JGI genome and more on de novo assembly of the 200 bp 454 reads.

Fichier(s) joint(s) et liens(s)

Fichiers attachés
Transparents Éric Rivals Aperçu
(Rivals.pdf - 891.21 Ko)
Transparents Pierre Taberlet Aperçu
(Taberlet.pdf - 20.22 Mo)
Transparents Peter Von Dassow Aperçu
(VonDassow.pdf - 40.67 Mo)
Transparents Patrick Wincker Aperçu
(Wincker.pdf - 1.97 Mo)
Annuaire téléphonique
« Septembre 2010 »
Di Lu Ma Me Je Ve Sa
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
 

Mentions légales et crédits