Recherche

Résultats de la recherche

121 results found

Phylogenetic-EM

Implementation of the EM algorithm for the detection of shifts in a phylogeny.

Comparative and evolutive ecologists are interested in the distribution of quantitative traits among related species. The classical framework for these distributions consists of a random process running along the branches of a phylogenetic tree relating the species. We consider shifts in the process parameters, which reveal fast adaptation to changes of ecological niches. We show that models with shifts are not identifiable in general. Constraining the models to be parsimonious in the number of shifts partially alleviates the problem but several evolutionary scenarios can still provide the same joint distribution for the extant species. We provide a recursive algorithm to enumerate all the equivalent scenarios and to count the effectively different scenarios. We introduce an incomplete-data framework and develop a maximum likelihood estimation procedure based on the EM algorithm. Finally, we propose a model selection procedure, based on the cardinal of effective scenarios, to estimate the number of shifts and prove an oracle inequality.

Mots clés
Auteur(s)
Bastide Paul
Contact
paul.bastide@agroparistech.fr
Porteur(s)
Unité
MIA-Paris
Publication de référence
Informations complémentaires

Détection de saut adaptatif dans l’histoire d’un trait quantitatif.

Informations générales
Informations spécifiques
Langage(s) de développement
R
Langage(s) d'interface
R
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

BlockModels

Latent and Stochastic Block Model estimation by a Variational EM algorithm. Various probability distribution are provided (Bernoulli, Poisson...), with or without covariates.

Blockmodels permet de faire du V-EM dans LBM et SBM avec les PDFs bernoulli, poisson, et gaussian, avec covariables (et une version avec un developpement polynomial pour bernoulli avec covariable pour réduire d'un ordre de cplx et vectoriser les calculs), et multivarié dans le cas gaussien (sans covariables) (homosc indép, indép, ou quelconque).

Auteur(s)
Leger Jean-Benoist
Contact
leger@jblg.fr
Porteur(s)
Unité
MIA-Paris
Informations générales
Informations spécifiques
Langage(s) de développement
R
Langage(s) d'interface
R
N° de version courante
V1.1.1
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

HTSCluster

A Poisson mixture model is implemented to cluster genes from high- throughput transcriptome sequencing (RNA-seq) data. Parameter estimation is performed using either the EM or CEM algorithm, and the slope heuristics are used for model selection (i.e., to choose the number of clusters)

HTSCluster is a package to perform co-expression analyses of RNA-seq data. The package implements a novel statistical method based on a Poisson mixture model, performs parameter estimation using an expectation-maximization algorithm, and performs model selection using the slope heuristics approach.

Auteur(s)
Rau Andrea
Celeux Gilles
Martin-Magniette Marie-Laure
Maugis- Rabusseau Cathy
Contact
andrea.rau@jouy.inra.fr
Porteur(s)
Unité
MIA-Paris
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

Saturnin

inférence du réseau de régulation de gènes chez Arabidopsis thaliana, inférence de réseaux écologiques

This package implements the method described in the paper "Bayesian Inference of Graphical Model Structures Using Trees" by L. Schwaller, S. Robin, M. Stumpf, 2015 (submitted and availavable on arXiv).

Auteur(s)
Schwaller Loïc
Contact
loic.schwaller@ens-lyon.org
Porteur(s)
Unité
MIA-Paris
Publication de référence
Informations générales
Informations spécifiques
Langage(s) de développement
R
Langage(s) d'interface
R
N° de version courante
V1.1.1
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

EstHer

Estimation of Heritability in High Dimensional Sparse Linear Mixed Models using Variable Selection.

Our method is a variable selection method to select active components in sparse linear mixed models in order to estimate the heritability. The selection allows us to reduce the size of the data sets which improves the accuracy of the estimations. Our package also provides a confidence interval for the estimated heritability.

Mots clés
Auteur(s)
Bonnet Anna
Levy-Leduc Celine
Contact
anna.bonnet@agroparistech.fr
Porteur(s)
Unité
MIA-Paris
Publication de référence
Informations complémentaires

Sélection des SNP causaux pour l’autisme.

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
R
Langage(s) d'interface
R
N° de version courante
V1.0
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

HiLMM

Estimation of heritability with confidence intervals in linear mixed models.

The package contains two functions: estim_herit computes heritability when the random effects follow either a Gaussian distribution or a mixture of a Dirac and a Gaussian distribution. It also provides a confidence interval of heritability when the random effects are Gaussian. The function data_simu allows the user to generate dataset which are compatible wit the arguments of HiLMM.

Auteur(s)
Bonnet Anna
Contact
anna.bonnet@agroparistech.fr
Porteur(s)
Unité
MIA-Paris
Informations générales
Informations spécifiques
Langage(s) de développement
R
Langage(s) d'interface
R
N° de version courante
V1.1
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

Varmixt0.2-4

Le package varmixt était un package définissant un modèle de mélange sur les variances dans le cadre de la recherche de gènes différentiellement exprimés entre deux conditions. Il n'est plus maintenu. La méthode est implémentée dans le package anapuce (fonction est.varmixt) et les fonctions DiffAnalysis.unpaired et DiffAnalysis permettent d'effectuer une analyse différentielle entre deux conditions en utilisant varmixt.

Motivation: Identifying differentially regulated genes in experiments comparing two experimental conditions is often a key step in the microarray data analysis process. Many different approaches and methodological developments have been put forward, yet the question remains open.

Results: Varmixt is a powerful and efficient novel methodology for this task. It is based on a flexible and realistic variance modelling strategy. It compares favourably with other popular techniques (standard t-test, SAM and Cyber-T). The relevance of the approach is demonstrated with real-world and simulated datasets. The analysis strategy was successfully applied to both a ‘two-colour’ cDNA microarray and an Affymetrix Genechip. Strong control of false positive and false negative rates is proven in large simulation studies.

Mots clés
Auteur(s)
Contact
delmar@inapg.inra.fr
Porteur(s)
Unité
MIA-Paris
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

CarthaGène

CarthaGène is a genetic/radiated hybrid mapping software. CarthaGene looks for multiple populations maximum likelihood consensus maps using a fast EM algorithm for maximum likelihood estimation and powerful ordering algorithms.

CarthaGène is a genetic/radiated hybrid mapping software. CarthaGene looks for multiple populations maximum likelihood consensus maps using a fast EM algorithm for maximum likelihood estimation and powerful ordering algorithms. CarthaGène :

  • uses multipoint maximum likelihood for estimations of distances and order evaluation.
  • uses dedicated boosted EM algorithms for backcross-like and haploid RH data that can be orders of magnitude faster than existing implementations.
  • can handle data made up of several distinct populations which may each be either F2 backcross, recombinant inbred lines, F2 intercross, phase known outbreds and/or radiated hybrids (haploid and diploid data).
  • When data sets are merged, the user can decide whether the sets will share all parameters (order and distances) or only order, allowing for different recombination ratios in each population or a mixture of genetic and radiated hybrid data.
  • includes several algorithms to order markers. This goes from the traditional build/flips algorithms to more powerful ordering methods based on simulated annealing, taboo search and genetic algorithms.
  • always keeps the result as a set of the best maps found (not only the best one).
  • NEW! Includes a comparative mapping method exploiting biological datasets and the knowledge of a completely sequenced genome having known orthologous relationships with some of the markers in the genome of interest.
Auteur(s)
M. Bouchez
P. Chabrier
T. Faraut
S. de Givry
C. Gaspin
D. Leroux
J.C. Nelson
B. Servin
T. Schiex
Contact
thomas.schiex@toulouse.inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Publication de référence
Informations complémentaires

2eme lic: QPL
developpé pour Linux, Win et SunOS
Autre langage : Tcl

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V1.3 beta
Date de la version courante
OS supporté
Type de licence
GPL
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

CaliFloPP

Calcul intégré du Flot de Particules entre Polygones (Calculation of the Integrated flow of Particles between Polygons).

Brève description

Le programme CaliFloPP calcule des flux de particules entre paires de polygones: à partir d'une fonction de dispersion dite individuelle, c'est-à-dire décrivant la dispersion des particules de point à point, il calcule les flux totaux émis d'un polygone à un autre par un algorithme d'intégration.
Le package R, RCALI, est une interface entre CaliFloPP et R. Il permet aussi de prendre en compte les fonctions de dispersion anisotropes.
Ce package est développé dans l'unité MaIAGE de l'INRA - Jouy-en-Josas, France.

Quelques détails

Le problème d'intégration est résolu en réduisant la dimension de l'intégrale et en utilisant des algorithmes de géométrie algorithmique.
L'application qui a motivé le développement de CaliFloPP porte sur les flux de pollen et de graines de colza entre parcelles agricoles, à l'échelle d'un paysage ou d'une petite région. Ainsi, CaliFloPP a permis une extension à la dispersion entre parcelles non quadrilatères du modèle Genesys, modèle de dynamique des populations cultivées et spontanées de colza entre les parcelles d'un paysage et leurs bordures (Colbach et al., 2001). Depuis, CaliFloPP a été utilisé pour d'autres applications en agro-écologie, liées à la santé des plantes ou à la coexistence entre plusieurs types d'agriculture.

Deux méthodes d'intégration numérique sont implémentées:

  • une méthode simple de discrétisation aléatoire de l'intégrale,
  • une méthode de cubature adaptive en deux dimensions.

La première méthode, appelée ici "méthode grille", est basée sur des discrétisations simples de l'intégrale sur des grilles régulières. L'approximation est un estimateur sans biais de l'intégrale. En générant des répétitions indépendantes, il est possible de calculer la précision du résultat. Cette méthode est robuste (elle est sans biais et converge même pour des intégrandes non continues), mais peu efficace quant au temps d'exécution.
La deuxième méthode est basée sur l'algorithme DCUTRI. Les erreurs d'approximation y sont estimées. Comparée à la méthode grille, cette méthode est très rapide.
Les guides d'installation et d'utilisation sont inclus dans le paquetage (en anglais).

Mots clés
Auteur(s)
Monod Hervé
Kiên Kiêu
Bouvier Annie
Porteur(s)
Unité
MaIAGE
Equipe
Dynenvie
Département co-porteur
SPE
Publication de référence
Informations complémentaires

Le package R, RCALI, fait l'interface entre R et CaliFloPP

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++; C
N° de version courante
3.3
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

EuGene

EuGene est un logiciel d'annotation de génomes eucaryotes intégratif. La prédiction finale produite intègre des analyses statistiques (contenu statistique, sites d'épissage...), des données de similarités (protéines, transcrits, EST, RNASeq...) ou de conservation entre génomes, des prédictions existantes, des prédictions de régions répétées ou non fonctionnelles.

As most existing gene finders, EuGene can exploit probabilistic models like Markov models for discriminating coding from non coding sequences or to discriminate effective splice sites from false splice sites (using various mathematical models). Beyond this EuGene is able to integrate information from several signal (splice site, translation start...) prediction software, similarity with existing sequences (EST, mRNA, 5'/3' EST from full length mRNA, proteins, genomic homologuous sequences) and output of existing gene finders... Based on all the available information, EuGene will output a prediction of maximal score i.e., maximally consistent with the information provided.
Each source of information is integrated in EuGene by a small independant software component, called a "plugin". The plugin is responsible for the integration of the information but also for plotting the information on the graphical output of EuGene (if needed) and can also analyze the inconsistencies between the final prediction and the information provided.

There exists a large variety of plugins currently but if needed EuGene's users have the ability to extend EuGene. This can be done using two different approaches. One simple approach is to use the "Annotastruct" plugin. This plugin allows to inject information in EuGene using a GFF file. For the more serious user, it is possible to write a new plugin directly (in C++) and to load it dynamically into EuGene (without recompilation of eugene).

Auteur(s)
Erika Sallet
Jérôme Gouzy
Philippe Bardou
Marie-Josée Cros
Sylvain Foissac
Annick Moisan
Céline Noirot
Damien Leroux
Thomas Schiex
Contact
thomas.schiex@toulouse.inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Informations complémentaires

Lic : Artistic License (à re licencier, car les termes ont été modifiés)
Ajouter l'image : http://eugene.toulouse.inra.fr/Images/EugFig.png

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V4.2
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

EuGène-PP

EuGene-PP est la déclinaison procaryote et automatisée d'EuGene, dédiée à l'annotation 100% automatique des génomes bactériens, en particulier en utilisant des données de type RNA-Seq orientées (mais il intègre comme EuGène des informations statistiques, de similarités protéiques...). Il permet en particulier de prédire des gènes non-codants, démarrage de transcription.

It is now easy and increasingly usual to produce oriented RNA-Seq data as a prokaryotic genome is being sequenced. However, this information is usually just used for expression quantification. EuGene-PP is a fully automated pipeline for structural annotation of prokaryotic genomes integrating protein similarities, statistical information and any oriented expression information (RNA-Seq or tiling arrays) through a variety of file formats to produce a qualitatively enriched annotation including coding regions but also (possibly antisense) non-coding genes and transcription start sites.

Auteur(s)
Erika Sallet
Jérôme Gouzy
Philippe Bardou
Marie-Josée Cros
Sylvain Foissac
Annick Moisan
Céline Noirot
Damien Leroux
Thomas Schiex
Contact
thomas.schiex@toulouse.inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Département co-porteur
SPE
Informations complémentaires

Lic : Artistic License (à re licencier, car les temrs ont été modifiés)

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V1.2
Date de la version courante
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

FrameDP

FrameDP est un outil de prédiction de gènes particulièrement ciblé sur l'analyse de transcrits eucaryotes maturés reconstruits à partir d'ESTs ou de lectures de type RNASeq. Il permet en particulier de corriger les décalages de phase et de traiter des séquences d'origines hétérogènes (contamination, symbiotes...).

Transcriptome sequencing represents a fundamental source of information for genome-wide studies and transcriptome analysis and will become increasingly important for expression analysis as new sequencing technologies takes over array technology. The identification of the protein-coding region in
transcript sequences is a prerequisite for systematic amino acid-level analysis and more specifically for domain identification. In this article, we present FrameDP, a self-training integrative pipeline for predicting CDS in transcripts which can adapt itself to different levels of sequence qualities

Mots clés
Auteur(s)
Jerome Gouzy
Sébastien Carrere
Thomas Schiex
Contact
thomas.schiex@toulouse.inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Département co-porteur
SPE
Informations complémentaires

Langage Perl

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
N° de version courante
V1.2.2
Date de la version courante
OS supporté
Type de licence
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

Minicsp

Minicsp is a clause learning CSP solver.

Minicsp is a clause learning CSP solver. Briefly, it combines clause learning, as it is used in SAT solvers, with the ability to use global constraints. In terms of modeling, it contains implementations of several constraints, either by providing a propagator or a decomposition. Minicsp can be used as a library or as a black box solver. It can read instances in flatzinc or XCSP.

Its implementation is based on MiniSat.

Auteur(s)
George Katsirelos
Contact
georgios.katsirelos@inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Publication de référence
Informations complémentaires

The minicsp source is hosted in a mercurial repository at bitbucket. You can download the tarball of version 1.0. Note that it requires boost, and relatively recent versions of flex and bison (for the flatzinc frontend) and libxml (for the XCSP frontend) to compile. If you do not have access to these, you can download a complete tarball that includes the subset of boost and necessary to compile minicsp and the files produced by flex and bison (but not libxml).

A noter qu'il est difficile de voir si c'est un dev Inra (de quand date la these à Toronto ?)

Informations générales
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V1.0
Date de la version courante
OS supporté
Type de licence
GPL
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

Red

Red est un logiciel de détection de répétitions de gènes en tandem s'effectuant au niveau ADN. ReD est donc capable de détecter des répétitions de gènes devenues non fonctionnelles suite à leur duplication (pseudo-gènes).

Background

Detecting duplication segments within completely sequenced genomes provides valuable information to address genome evolution and in particular the important question of the emergence of novel functions. The usual approach to gene duplication detection, based on all-pairs protein gene comparisons, provides only a restricted view of duplication.

 

Results

In this paper, we introduce ReD Tandem, a software using a flow based chaining algorithm targeted at detecting tandem duplication arrays of moderate to longer length regions, with possibly locally weak similarities, directly at the DNA level. On the A. thaliana genome, using a reference set of tandem duplicated genes built using TAIR,a we show that ReD Tandem is able to predict a large fraction of recently duplicated genes (dS < 1) and that it is also able to predict tandem duplications involving non coding elements such as pseudo-genes or RNA genes.

 

Conclusions

ReD Tandem allows to identify large tandem duplications without any annotation, leading to agnostic identification of tandem duplications. This approach nicely complements the usual protein gene based which ignores duplications involving non coding regions. It is however inherently restricted to relatively recent duplications. By recovering otherwise ignored events, ReD Tandem gives a more comprehensive view of existing evolutionary processes and may also allow to improve existing annotations.

Auteur(s)
Eric Audemard
Thomas Faraut
Thomas Schiex
Contact
thomas.schiex@inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Publication de référence
Informations générales
Informations spécifiques
Langage(s) de développement
N° de version courante
V1
Date de la version courante
OS supporté
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

ToulBar2

Auteur(s)
Contact
simon.de-givry@inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Publication de référence
Informations complémentaires

Difficile de trouver une publication de référence. Il y a plusieurs points d'entrées (en passant par TS par exemple)

Informations générales
Partenaire externe
Barcelona (UPC, IIIA-CSIC)
Suivi
Maintenu
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V0.9.8
Date de la version courante
OS supporté
Type de licence
GPL
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

MendelSoft

MendelSoft is an open source software which detects marker genotyping incompatibilities (Mendelian errors only) in complex pedigrees using weighted constraint satisfaction techniques. The input of the software is a pedigree data with genotyping data at a single locus. The output of the software is a list of individuals for which the removal of their genotyping data restores consistency. This list is of minimum size when the program ends.

Another possibility is to find the most probable consistent correction with respect to a Bayesian formulation of the problem. In this case, the output of the software is a list of individuals for which predicted genotypes differ from their genotyping data and such that the corresponding joint probability for the whole problem is maximum

Auteur(s)
de Givry S.
Schiex T.
Contact
simon.de-givry@inra.fr
Porteur(s)
Unité
MIAT
Equipe
SaAB
Publication de référence
Informations générales
Informations spécifiques
Langage(s) de développement
C++
N° de version courante
V0.9.8
Date de la version courante
OS supporté
Type de licence
GPL
Informations spécifiques
N° de version courante
Non renseigné
Informations spécifiques
Nombre de cœurs
cœurs
Informations spécifiques
Nombre de cœurs
cœurs
Nombre ETP permanent
ETP
Nombre non ETP permanent
ETP

 

 

Système d'information scientifique MIA classé par unité (UR, UMR)

 

Logo BioSP       Logo Mistea       Logo MIA-T       Logo MaIAGE