Intranet
Vous êtes ici : Accueil Manifestations scientifiques Séminaires Bioinformatique 2005-2006 Marc ferré (INSERM 694, Angers)

Marc ferré (INSERM 694, Angers)

Actions sur le document
Mardi 22 novembre 2005

Contact : anne.siegel@irisa.fr

Recherche in silico de nouvelles protéines mitochondriales

Nous présentons PRHoD, un système en cours de développement pour la recherche de nouveaux membres dans les familles des interleukines. Cet outil vise à l'identification de protéines putatives par criblage des séquences nucléotidiques et traduction. Il comprend les modules suivants :

* Acquisition et gestion des données. Ce module permet le rapatriement automatique des données provenant de différentes banques publiques (consultation des serveurs Unigene et Dbest sous protocole FTP). Les données sont stockées localement au moyen d'un SGBD PostgreSQL sur un serveur dédié. Cette étape comporte un certain nombre de pré-traitements pour décompresser les fichiers, lire le format FASTA et éliminer les informations non pertinentes pour l'application envisagée.
* Filtrage et traduction. Le module traite les séquences nucléotidiques, les traduit en séquences protéiques et évalue la validité de la traduction. Le résultat fourni par ce module est une liste de séquences d'acides aminés appelée liste des candidats (séquence susceptibles d'être relative à une protéine apparentée).
* Définition des attributs. Ce module extrait des candidats les caractéristiques ou attributs qui serviront pour la classification des séquences. Ce module comporte une tâche d'extraction de signatures au niveau de la structure primaire ainsi qu'une tâche de prédiction de la structure secondaire de la séquence.
* Sélection des candidats. Etant donné le nombre important de candidats, il est nécessaire de ne retenir que les séquences susceptibles d'être classées positivement et de rejeter celles qui ne risquent pas d'être de faux-négatifs.
* Classification supervisée. Ce module utilise les machines à vecteurs de support (SVM) après une vectorisation des séquences basée sur les occurrences des des attributs déterminés précédemment. Nous exposons cinq algorithmes de vectorisation, dont un algorithme original et discutons leurs mérites respectifs.

Fichier(s) joint(s) et liens(s)

Fichiers attachés
Slides(Ferre).pdf
(Ferre.pdf - 1.19 Mo)
Annuaire téléphonique
« Septembre 2010 »
Di Lu Ma Me Je Ve Sa
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
 

Mentions légales et crédits