Intranet
Vous êtes ici : Accueil Manifestations scientifiques Séminaires Bioinformatique 2005-2006 Matthieu Defrance (LIFL, Lille)

Matthieu Defrance (LIFL, Lille)

Actions sur le document
Jeudi 12 janvier 2006 - 15h00 à 16h00 - Salle Aurigny

Contact : anne.siegel@irisa.fr

Recherche d'éléments régulateurs partagés par un ensemble de gènes

L’expression de l’information génétique portée par l’ADN pour aboutir à la protéine est modulée à différents niveaux biologiques, en particulier lors de la phase d’initiation de la transcription. Cette phase d’initiation est dépendante de la présence de protéines spécifiques appelées facteurs de transcription. Ces facteurs se fixent à l’ADN dans des régions spécifiques. Il est possible de rechercher in silico les zones de fixation potentielles pour les facteurs étudiés. Les méthodes basées sur la recherche de motifs sur-représentés ont montré leur pertinence dans le cas d'organismes simples tel que la levure. L'extension de ces méthodes aux eucaryotes supérieurs, en particulier l'humain, n'est pas sans poser de nouveaux problèmes quant aux moyens nécessaires à l'extraction d'un signal fortement bruité.
Afin de répondre à ces problèmes, nous présentons une stratégie originale qui s'appuie sur un algorithme de recherche de sur-représentations locales des sites de fixation. La méthode proposée s'architecture en trois étapes. Dans un premier temps, les sites potentiels de fixation de facteurs de transcription sont localisés de manière exhaustive dans les régions promotrices. Cette étape préliminaire peut être réalisée par un logiciel externe de recherche de motifs approchés, en utilisant des matrices positionnelles de fréquences pour modéliser les sites de fixation par exemple. La deuxième étape consiste à extraire des fenêtres dans lesquelles les occurrences des sites sont sur-représentées. Cette recherche ne suppose pas de connaître la taille des fenêtres d'intérêt a priori. Nous utilisons un modèle de fond empirique décrivant la distribution des sites de fixation dans les régions promotrices des gènes assorti d'un système de scores. Des modèles ont été établis pour deux organismes (Homme et Souris) à partir des données de la banque UCSC. L'heuristique développée est de complexité linéaire par rapport à la taille du jeu de données, permettant ainsi un traitement à la volée des séquences de grande taille. En dernier lieu, la significativité des fenêtres denses extraites est évaluée en calculant leurs P-valeur et E-valeur. Nous avons pour cela étudié la distribution du comptage des sites et la pertinence (dans certaines limites) de son approximation par une distribution de Poisson.

Fichier(s) joint(s) et liens(s)

Fichiers attachés
Slides(Defrance).pdf Aperçu
(regulation_rennes.pdf - 1.07 Mo)
Annuaire téléphonique
« Septembre 2010 »
Di Lu Ma Me Je Ve Sa
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
 

Mentions légales et crédits