Séminaire de Statistique Appliquée

Agropolis


Le séminaire de Statistique Appliquée d'Agropolis a lieu un lundi par mois, de 10h30 à 11h30. Ce séminaire est à dédié aux applications de la Statistique aux sciences du vivant (agronomie, médecine, ...) et s'adresse autant aux utilisateurs qu'aux chercheurs en Statistique dans la région de Montpellier. N'hésitez pas à contacter les organisateurs si vous souhaitez
exposer vos travaux !

Pour mémoire, le séminaire "Recherche" de Statistique a lieu les autres lundi matin de façon complémentaire.

Organisateurs :

Nadine Hilgert (UMR MISTEA, ENSAM-INRA)

 

Gérard Biau (Equipe Probabilités et Statistique, I3M, UM2)

 

Philippe Letourmy (UPR, Aide à la décision et biostatistique)

Lieu :

Sur le site d'Agropolis à Montpellier, ou dans un des instituts autour. Le lieu est précisé pour chaque séminaire.



Programme de l'année 2006-2007

 

 

Lieu : Amphi Jacques Alliot du Cirad - Lavalette

. Lundi 16 avril 2007 à 10h30

Jean-Dominique Lebreton (CNRS CEFE) : (lire l'article)

Titre : Modélisation intégrée des populations : une illustration à propos de l'oie des neiges

Résumé : Les activités humaines sont devenues un facteur clé du fonctionnement de l’ensemble des systèmes écologiques. Dans ce contexte, les études de populations s’efforcent souvent de prédire ou de comprendre la trajectoire d’une population sur la base d’informations diverses, allant d’indices d’effectifs ou de recensements à des informations démographiques détaillées basées sur des individus marqués. En outre les informations disponibles sont souvent incomplètes. Traditionnellement, les estimations de paramètres démographiques basées sur des données de capture-recapture sont utilisées dans un modèle matriciel et les sorties de ce modèle, en particulier le taux de croissance, sont comparées avec les variations observées des effectifs.
Plutôt que de se tourner vers cette approche ad hoc, la modélisation intégrée combine intimement les deux types d’information ci-dessus dans un modèle probabiliste couplant une équation d’état (un modèle de population itérant au cours du temps un vecteur d’effectifs), et une équation d’observation (reliant les effectifs estimés et le vecteur d‘effectifs issu de l’équation d’état) ainsi que le modèle probabiliste pour les données de capture-recapture.
Techniquement, dans les cas les plus simples, le filtrage de Kalman est une technique largement disponible pour ajuster le modèle intégré aux données. Je présente un travail en collaboration (Gauthier et al. Ecology in press) utilisant cette approche de modélisation intégrée pour analyser la dynamique de population d’une espèce chassée, la Grande Oie des neiges (Chen caerulescens atlantica), et pour examiner à quel degré cette approche améliore les modèles de dynamique des populations précédemment utilisés. Le modèle matriciel de population de l’équation d’état inclut des paramètres de fécondité et des paramètres de régression reliant survie adulte et prélèvements par la chasse, estimés lors d’une étude de capture-recapture préalable. L’équation d’observation combine les sorties de ce modèle avec des estimations d’effectifs issues d’un recensement photographique aérien printanier annuel de cette population.
La modélisation intégrée apparaît comme une approche prometteuse pour prédire les changements d’effectifs car elle incorpore l’information apportée par les recensements de façon formelle, contrairement aux approches ad hoc qui soit négligent cette information, soit exigent d’accorder d’une façon ou d’une autre le modèle ou les valeurs des paramètres.

 

Lieu : Amphi Jacques Alliot du Cirad - Lavalette

. Lundi 14 mai 2007 à 10h30

Maureen Clerc (INRIA Sophia-Antipolis, projet Odyssée) :

Titre : Estimation d'activité électrique cérébrale par magnéto/électroencéphalographie

Résumé : La magnéto et l'électroencéphalographie sont deux techniques non-invasives de mesure du champ électromagnétique créé par l'activité électrique cérébrale, qui offrent une résolution temporelle très satisfaisante pour l'étude des mécanismes cérébraux. La localisation spatiale de cette activité est cependant un problème inverse mal posé. Nous décrirons des modèles physiques et statistiques mis en jeu pour résoudre ce problème d'estimation, ainsi que les stratégies de validation utilisées..

. Lundi 12 mars 2007 à 10h30

Susan Holmes (Dép. Statistique, Stanford, USA - Université Nice - INRA) :

Titre : Horseshoes and Kernel Methods (à la recherche du temps perdu)

Résumé : Multidimensional Scaling and Kernel methods can be used to find hidden gradients in multidimensional data, this the special case of manifold learning when the manifold is a curve. An often encountered pattern that ecologists know to look for is the "horseshoe" or "arch". I will show some examples of this phenomena in biology and political science. We can prove analytically in a simple case how this pattern occurs. This is joint work with Persi Diaconis and Sharad Goel.*

 

SEMINAIRE EXCEPTIONNEL

Lieu : Amphi Saint Priest (près du LIRMM)

Lundi 26 mars 2007 à 10h30

Persi Diaconis (Univ. Stanford, USA, Univ. Nice et CNRS) :

Titre : Dynamical Bias in a Coin Flip

Résumé : I will show how in joint work with Richard Montgomery and Susan Holmes, we analyzed the natural process of flipping a coin which is caught in the hand. We prove that vigorously-flipped coins are biased to come up the same way they started. The amount of bias depends on a single parameter, the angle between the normal to the coin and the angular momentum vector. Measurements of this parameter based on high-speed photography are reported. For natural flips, the chance of coming up as started is about .51.

. Lundi 22 janvier 2007 à 10h30

Stéphane Robin (AGRO, Paris) :

Titre : Recherche de structure dans des réseaux biologiques par modèle de mélange

Résumé : De plus en plus de données biologiques se présentent sous la forme de réseaux : réseaux d'interaction protéiques, d'interaction génique, de régulations, etc. Les outils statistiques permettant d'analyser ce type de données sont encore assez pauvres alors que les questions sont nombreuses. Par exemple, la recherche d'une structure modulaire dans le réseau permet de mieux en isoler les composantes pour en comprendre le fonctionnement global. De même, la détection de motifs topologiques (boucles, étoiles, chaînes) particulièrement fréquents peu aider à comprendre le fonctionnement local d'un réseau.
Dans le cas des réseaux d'interaction, le modèle de référence est le modèle de graphe aléatoire d'Erdös-Rényi qui suppose que tous les sommets ont une probabilité égale d'être connectés entre eux, i.e. que toutes les protéines ont une probabilité égale d'interagir deux à deux. De nombreuses propriétés théoriques (distribution des degrés des sommets, coefficient d'agrégation, etc.) de ce modèle sont bien connues. Malheureusement, il s'ajuste mal à la plupart des réseaux réels. Une des raisons de ce mauvais ajustement est que les sommets sont souvent structurés en groupes ayant des profils de connectivité différents.
Nous proposons une généralisation du modèle d'Erdös-Rényi qui suppose que l'ensemble des sommets est constitué d'une mélange de différentes sous populations. Nous étudions les propriétés de ce modèle et proposons une méthode d'estimation des paramètres fondée sur une approche variationnelle. Nous appliquons ce modèle au graphe des réactions enzymatiques d'E. coli et retrouvons différents groupes impliquant les même composés.
La définition précise d'un modèle de graphe aléatoire nous permet enfin d'étudier le nombre d'occurrences d'un motif dans un réseau. Nous calculons l'espérance et la variance de ce nombre et proposons une approximation de sa distribution

. Lundi 18 décembre 2006 à 10h30

Jean-Michel Marin (CEREMADE, Université Paris Dauphine) : (lire l'article)

"Inférence Bayésienne en génétique des populations"

Résumé : Travail en collaboration avec Jean-Marie Cornuet (INRA, CBGP)et Christian Robert (Université Paris Dauphine) dans le cadre de l'ANR MISEGEPOP.

L'élaboration récente de méthodes d'échantillonnage préférentiel adaptatives (Cappé et al.(2004), Guillin et al. (2005), Celeux et al.
(2005) et Douc et al. (2005)), regroupées sous le nom d'algorithmes Population Monte Carlo (PMC), offre de nombreuses perspectives de recherche très prometteuses tant d'un point de vue théorique que pour leur application potentielle. L'approche PMC, proposée par Cappé et al. (2004), consiste à introduire une dimension itérative au schéma d'échantillonnage préférentiel classique. Cette extension se base sur l'apprentissage : la loi de proposition utilisée à l'itération t de l'algorithme est construite en fonction des résultats obtenus lors des itérations précédentes. En introduisant cette dimension itérative dans la sélection des fonctions d'importance, une perspective adaptative peut être obtenue, perspective fonction d'un critère d'optimalité pouvant être défini de nombreuses manières. Douc et al. (2005) propose d'utiliser comme loi de proposition générique un mélange de D noyaux de transition fixés a priori et mis en concurrence. L'adaptation est alors assurée par l'évolution des poids du mélange.
Dans cet exposé, nous montrons comment il est possible d'adapter ces algorithmes de Monte-Carlo adaptatifs à la problématique de l'inférence bayésienne en génétique des populations.
Douc, R., Guillin, A., Marin, J.-M., Robert, C.P. (2005) Convergence of adaptative sampling schemes, Annals of Statistics
Celeux, G., Marin, J.-M., Robert, C.P. (2005) Iterative Importance Sampling for Missing Data Problems, Computational Statistics and Data Analysis
Guillin, A., Marin, J.-M., Robert, C.P. (2005) Estimation bayésienne approximative par échantillonnage préférentiel Revue de Statistique Appliquée
Cappé, O., Guillin, A., Marin, J.-M., Robert C.P. (2004) Population Monte Carlo, Journal of Computational and Graphical Statistics

. Lundi 13 novembre 2006 à 10h30

Jean-Michel Roger (CEMAGREF, Montpellier) : (lire l'article)

"Développements chimiométriques pour améliorer la robustesse des mesures spectrométriques appliquées aux agro-procédés"

Résumé : Pour répondre aux besoins de l'agriculture de précision, le Cemagref développe des capteurs, notamment à base de spectrométrie infrarouge. Un des problèmes majeurs de ces capteurs a trait à la robustesse des modèles d'étalonnage. Une analyse détaillée de cette problématique nous a conduits à isoler trois voies de recherche :

1/ La prise en compte des grandeurs d'influence. Selon qu'une grandeur d'influence, responsable d'un problème de robustesse, est mesurable ou non, différentes stratégies de correction du modèle d'étalonnage sont envisageables. Dans le cas d'une grandeur connue, mais non mesurable, une méthode originale de correction de l'étalonnage a été développée : L'EPO (pour External Parameter Orthogonalisation).

2/ La maintenance de la robustesse est traditionnellement réalisée par ré-étalonnage ou transfert d'étalonnage. Dans les deus cas, la mesure d'échantillons "standard" est nécessaire. Une méthode de correction d'étalonnage en ligne, qui ne nécessite pas de standards a été développée : DOP (pour Dynamic Orthogonal Projection).

3/ La discrimination à partir des spectres. Cette opération, qui permet de réaliser des diagnostics à partir de la mesure spectrale, est nécessaire pour : détecter les mesures aberrantes, reconnaître des classes d'objets, réaliser des régressions locales, etc. Nous proposons une nouvelle méthode de discrimination, basée sur le parcours de fonctions numériques, nommées Fonctions Propres Focales.

. Lundi 16 octobre 2006 à 10h30

Yves Escoufier (Professeur honoraire Université de Montpellier 2) :

"Opérateur associé à un tableau de données" (lire l'article)

Résumé : EL'exposé a été présenté à Rome dans le cadre de COMPSTAT 2006 en tant que « keynote lecture ». On se propose de rappeler des résultats obtenus à Montpellier dans les trente dernières années en lien avec ce qu'on a appelé alors « l'école française d'analyse des données » :
- la notion d'opérateur associé à un tableau de données qui vise à expliciter les choix faits dans l'analyse d'un tableau,
- le coefficient RV qui permet de comparer deux tableaux
- la méthode STATIS développée pour la comparaison de plusieurs tableaux
- l'ACPVI adaptée à la décomposition sous contraintes d'un tableau.
Les problématiques sont introduites par des exemples. On rappelle les mathématiques nécessaires à la construction des solutions.

. Lundi 25 septembre 2006 à 10h30

Nicolas Picard (CIRAD, Département Forêts) :

"Répartition spatiale des arbres et dynamique des forêts tropicales humides - Cas du modèle SELVA"

Résumé : En écologie, les modèles individus-centrés désignent des modèles de dynamique de population où la trajectoire de chaque individu est décrite. Ces modèles permettent de tenir compte d'interactions spatialisées entre individus (compétition, mortalité densité-dépendante...)
D'un point de vue mathématique, l'état stationnaire d'un modèle de dynamique de population individu-centré peut être vu comme la réalisation d'un processus ponctuel. Se pose alors la question de la relation entre la dynamique de la population et la répartition spatiale de ses individus.
Partant du modèle de dynamique de population, il est possible d'appliquer des méthodes d'agrégation de modèle telles que l'approximation du champ moyen ou la méthode des moments pour aboutir à un modèle de dynamique non spatialisé.
La confrontation entre le modèle de départ et le modèle dégradé permet de se rendre compte du rôle de l'espace dans le modèle de dynamique de population. À l'opposé, partant de la répartition spatiale des individus, la modélisation via un processus ponctuel permet de tirer des enseignements sur les processus à l'oeuvre dans la dynamique????? de la population. Ces approches seront illustrées pour une forêt tropicale humide de Guyane française dont la dynamique est décrite par le modèle SELVA (modèle arbre dépendant des distances).

Archives : Programme de l'année 2005-2006