PhD Subjects

Recevez la lettre d'information

Télécharger la lettre d'information

PhD proposals at the Research Institute on the Foundations of Computer Science (IRIF)

Keywords : algorithms, their design and analysis, automata theory and applications, combinatorics, complex systems, complexity, computational formalisms, distributed computation, foundations of programming languages, interactive proof assistants, graph theory and its algorithms, logic, networks, quantum computing, software development, systems modeling and verification.

Laboratory : Institut de Recherche en Informatique Fondamentale (IRIF)

Contact : Head of the thematic group or head of the pole corresponding to your scientific interests

Website : https://www.irif.fr/postes/these

The research conducted at IRIF is based on the study and understanding of the foundations of all areas of computer science. Such research work relies on mathematical concepts developed and studied within it, but it also contributes directly to mathematics.

Conjugate point theory for stochastic optimal control problems in finite and infinite dimension

Keywords : optimal control, stochastic differential equations, conjugate time theory

Laboratory : Laboratoire Jacques-Louis Lions

Contact : Emmanuel Trelat (emmanuel.trelat@sorbonne-universite.fr)

Website : https://www.ljll.math.upmc.fr

Consider a stochastic control system and a stochastic cost or a probabilistic expectation. First-order optimality conditions are well known in the form of a Pontryagin maximum principle. The extremal flow leads to the notion of an exponential mapping. The main topic of interest is here to develop second-order conditions for optimality. In the deterministic case, the theory is classical and by now well understood and has a nice setting in the symplectic language. In the stochastic case, such a theory remains to be fully developed. The second-order derivative of the extended end-point mapping now involves a probabilistic expectation. From there, the notion of conjugate time can be considered in the stochastic setting. One of the issues to be investigated is whether the expectation of conjugate times over the universe of events is equal to the deterministic conjugate time, at least under appropriate assumptions.

Réseaux génératifs : dynamique et propriétés statistiques

Keywords : distances entre des lois de probabilités; variational auto-encoders, generative adversarial networks; GAN; VAE; deep learning, intelligence artificielle 

Laboratory : CEREMADE

Contact : Gabriel Turinici (gabriel.turinici@dauphine.fr)

Website : https://turinici.com

Les réseaux génératifs (GAN, VAE, etc.) sont à la base de beaucoup d'applications en intelligence artificielle. Mais beaucoup reste à faire. Le but de cette thése sera d'explorer d'un côté les nouvelles distances entre lois de probabilités (de type Radon-Sobolev) et leurs applications en deep learning

Epidemiologie et structure non-homogère : cas du COVID-19

Keywords : épidemiologie; modèle SEIR; modèle SIR; small worlds; loi de puissance; fractales

Laboratory : CEREMADE

Contact : Gabriel Turinici (gabriel.turinici@daphine.fr)

Website : https://turinici.com

 

Le modèle SIR classique de propagation épidemique atteint ses limites en utilisation réelle à cause d'une forte hétérogénéité des paramètres de transmission, des caractéristiques individuelles, des structures de contact etc. En continuant des travaux dans ce domaine, nous proposons de quantifier plus l'impact de cette inhomogénéité. Du point de vue technique ceci implique de travailler avec des graphes de contact de type "small worlds", des distribution à forte queue (genre lois des puissance, fractales), etc.

Analyse des Laplaciens hypoelliptiques à bord

Keywords : Analyse spectrale d'opérateurs hypoelliptiques et non auto-adjoints  Laplacien hypoelliptique, déformation à la Witten analyse sur les variétés  asymptotiques de type semiclassiques  théorie de Morse et homologie persistante.

Laboratory : LAGA, ED-Galilée. Coencadrement F. Nier (dir de thèse, LAGA) et S. Shen (IMJ-PRG)

Conctact : Francis Nier (nier@math.univ-paris13.fr)

Website : https://www.math.univ-paris13.fr/~nier/ and https://webusers.imj-prg.fr/~shu.shen/

Le Laplacien hypoelliptique a été introduit autour de 2004 par J.M. Bismut pour donner une version espace des phases des déformations à la Witten des Laplaciens de Hodge. Il colle vraiment à la dynamique de Langevin du mouvement brownien. En plus  de son intérêt géométrique et topologique, son analyse a des motivations très fortes du côté des applications,  notamment pour la compréhension fine des techniques de simulations moléculaires. L'analyse spectrale précise de ces opérateurs sur des variétés à bords est très importante alors que jusqu'à présent on n'en connaît que peu de chose  contrairement au cas elliptique des Laplaciens de Witten ou toute une collection de résultats précis en asymptotique semiclassique (asymptotique basse température) ont été obtenus depuis 40 ans. La thèse s'appuiera sur les travaux de J.M. Bismut, G. Lebeau, S. Shen sur les Laplaciens hypoelliptiques sur des variétés sans bord,  les travaux de F. Nier avec divers collaborateurs d'une part sur les Laplacien d'autre part son travail de 2015 sur les conditions aux limites pour les équations de Kramers-Fokker-Planck géométriques, ainsi que les développements plus récents réalisée en collaboration entre S.Shen et F. Nier. 

Modèle mathématique de course à pied

Keywords : sport, modélisation, énergie, force, simulations, 

Laboratory : CAMS

Contact : Amandine Aftalion (amandine.aftalion@ehess.fr)

Website : http://aftalion.perso.math.cnrs.fr/

La théorie du contrôle optimal a permis de développer des modèles et simulations pour comprendre la répartition des efforts musculaires et respiratoires lors d'une course.A partir du principe fondamental de la dynamique et de bilans d'énergie (aérobie et anaérobie), on propose un modèle de course optimale d'une distance donnée, qui permet de déterminer la vitesse instantanée et l'énergie dépensée. On peut reproduire les courses de champions aux JO ou celles de sportifs moins bien entrainés. On a étudié l'effet des virages sur le sprint, l'effet psychologique et énergétique de la course à deux coureurs (interaction à courir derrière et retard dans cette interaction quand on est doublé). L'objectif de cette thèse est d'analyser les courses longues, notamment l'effet des virages et les effets stratégiques. On commencera par l'étude d'un modèle périodique correspondant à un tour de stade de 400m pour comprendre l'effet de chacun des paramètres physiologiques sur la course.

Low-rank approximation tecniques to speed-up change-point detection with reproducing kernels

Keywords : reproducing kernels, change-point detection, Nystrom approximation, sketching, Determinantal Point Process (DPP)

Laboratory : SAMM (Statistique, Analyse et Modélisation Mathématique) - Université Paris 1 - Panthéon Sorbonne

Contact : Alain CELISSE, professeur en apprentissage statistique (alain.celisse@univ-paris1.fr)

Website : http://samm.univ-paris1.fr/Alain-Celisse

This proposal involves reproducing kernels for addressing the multiple change-point detection problem where one goal is detecting abrupt changes arising in the distribution of observations along the time. This is a key ingredient in numerous applications such as Root cause analysis (RCA), engine failure detection,...

As any machine learning procedure involving reproducing kernels, the resulting procedure suffers a high coputational cost.
One purpose of the PhD proposal is to overcome this difficulty by using low-rank matrix approximation techniques such as Nystrom, sketching, and recent Determinantal Point Processes (DPPs).
Developping a theoretical analysis of this problem (based on already existing results) as well as empirically studying the behavior of the procedure is at the core of the project.

Modélisation statistqiue pour la prédiction des signes d'obésité ayant un risque pour la santé publique 

Keywords : Modelisation statistique, santé numérique, incertitude

Laboratory : LAGA

Contact : Mehdi Ammi  (mehdi.ammi@univ-paris8.fr)

Website : https://www.math.univ-paris13.fr/laga/index.php/fr/

L'obésité est un problème de santé qui touche tous les âges. Selon l’OMS, 13% de la population mondiale est atteinte d’une forme d'obésité. Cette maladie peut en générer d'autres: le diabète, l'hypertension, etc et cela peut avoir des formes plus graves allant jusqu'au décès du patient. 
La détection précoce de signes d'obésité peut permettre d'anticiper cette maladie est donc d'aller vers ses différentes formes graves. Les approches actuelles ne permettent pas de détecter un risque d'obésité sur le long terme et sont plutôt déterministes et mono-source. En effet, le patient ne saura qu’il est atteint d’obésité qu’au moment de la pesée ou la consultation d’un médecin. De plus, meme avec l’utilisation de quelques objets connectés : bracelets, balances, etc, cette information n’est pas explicite et incite les utilisateurs, le cas échéant, à pratiquer une activité physique ou bouger plus sans la prise en compte des conséquences sur son métabolisme dans le court, le moyen et le long-terme. 

La crise sanitaire du COVID-19 a démontré les limitations de ces approches matérielles et logicielles. En effet, les différentes formes de restrictions: les couvres feu, les confinements, etc ont aggravé la situation de certaines formes d’obésité alors que les objets connectés qui étaient censés guider l’utilisateur vers l’activité physique ne donnaient pas plus d’information sur les conséquences de l’inactivité, et de la malnutrition.

Nous proposons dans ce projet une nouvelle approche permettant de prendre en compte des informations déterministes telles que la pesée instantanée, les informations des différents devices sur l’activité physique etc ainsi que des éventuelles informations sur les données de santé du patient afin de créer un modèle prédictif se basant sur la fusion de données mutlisources et permettant de prédire l’état métabolique du patient à différents instants tout en prenant en compte les risques liées à l’incertitude sur la donnée collectée, les données imparfaites, etc. Cette prédiction de l’état métabolique aura pour impact d’alimenter différents systèmes de santé du patient (dossier médical) et permet ainsi un suivi personnalisé des patients atteints de maladies, notamment chroniques. 

Le modèle que nous proposons se veut le plus généralisable possible afin qu’il puisse etre appliqué à tous les ages mais aussi lui donner la possibilité d’un affinement personnalisé selon l’age, le sexe etc. De plus, le modèle prédictif devrait etre le mieux explicable Vs interprétable possible afin de permettre le traitement et la compréhension de cette prédiction par le personnel de la santé.  

First Passages and Extreme Values in Stochastic Processes -- Theory & Applications

Keywords : Stochastic Processes -- Extreme Value Statistics -- First Passage Times -- Stochastic Geometry -- Complex Systems

Laboratory :  SAMM, Université Paris 1 Panthéon Sorbonne -- Fédération Parisienne de Modélisation Mathématique CNRS FR2036

Contact : Julien Randon-Furling (julien.randon-furling@cantab.net)

Website : https://www.math.columbia.edu/~jmr2301/Randon-Furling

Stochastic processes such as random walks or Brownian motion appear in many a model across the mathematical and the natural sciences --- and also in the human and social sciences. Of particular interest, on both the purely mathematical side and the applied side, are extreme values and first passage times. The proposed PhD will focus on these aspects of stochastic processes, particularly in higher dimension (stochastic geometry) and potentially (if the candidate wishes so) with applications in the multidisciplinary modelling of complex systems in physics/biophysics and/or human & social sciences.

Sample references: https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.125.050602 and https://arxiv.org/abs/2007.02768 and https://link.springer.com/article/10.1007/s10955-009-9905-z and https://www.pnas.org/content/116/25/12250.short

Collaborations: Steklov Institute (St Petersburg, Russia), Columbia University (New York, USA), UNAM (Mexico), Santa Fe Institute (New Mexico, USA), UCLA (Los Angeles, USA) 

Ergodic properties of expanding piecewise affine mappings

Keywords : Dynamical Systems, Ergodicity, Collective systems

Laboratory : Laboratoire de Probabilités, Statistique et Modélisation (LPSM)

Contact : Bastien Fernandez (fernandez@lpsm.paris)

Website : http://bastienfernandez.perso.math.cnrs.fr/Home.html

This project aims to investigate the ergodic properties of expanding piecewise affine mappings, Little is known about ergodic components in this context. Moreover, while ergodicity is a central notion in dynamical systems], and notwithstanding the various existing conceptual criteria for ergodicity, no universal method exists to establish this property in an arbitrary system. Accordingly, the project intends to improve knowledge about ergodic components and to develop systematic methods to prove or disprove ergodicity in arbitrary examples.

Anneaux de déformations dérivés et congruences automorphes

Keywords : représentations galoisiennes, algèbres de Hecke, congruences entre formes automorphes pour GL(N)

Laboratory : LAGA

Contact : Jacques Tilouine (tilouine@math.univ-paris13.fr)

Website : https://www.math.univ-paris13.fr/laga/index.php/fr/laboratoire

Lien entre anneaux de déformations dérivés et modules de congruences

Mathematical analysis of models from neuroscience: the voltage-conductance equation

Keywords : Neural networks, PDEs, kinetic equations, multi scale analysis.

Laboratory : Jacques-Louis Lions (LJLL)

Contact : Benoit Perthame (benoit.perthame@sorbonne-universite.fr), Delphine Salort

Website : https://www.ljll.math.upmc.fr/

Several Partial Differential Equations have been proposed to describe neural networks based on the physiology of neurons. Among them the elapsed time model is a non-linear renewal equation. The voltage model (integrate and fire) is another. Cai, Rangan, Shelley, Tao have proposed a voltage-conductance model for which very little mathematical analysis has been developed. Long time asymptotic, regularity, macroscopic limits (connections with other models), incorporating spatial dimension, are open questions with different levels of difficulty.

Interpretable deep learning for rating of atypical anatomical patterns on MRI data

Keywords : machine learning, deep learning, image analysis, medical imaging, neurosciences

Laboratory : Centre Inria Paris - Equipe ARAMIS

Contact : Olivier Colliot (olivier.colliot@sorbonne-universite.fr)

Website : https://www.aramislab.fr/perso/colliot/

This PhD aims at designing of interpretable deep learning methods for rating of atypical anatomical patterns on MRI. Interpretability is a key issue in the context of medical imaging applications. Even though this topic has received increasing attention in the past years, it remains an open problem. We propose to address this issue through an approach called joint training where both classification and interpretable annotations are learned simultaneously. The target application is the rating of atypical anatomical patterns on MRI data, which are associated to several diseases of the central nervous systems including depression, schizophrenia and epilepsy. We have a large (N>2000) annotated database of patients for the design and validation of the developed approaches.

Hauteur des variétés arithmétiques sur une courbe adélique

Keywords : géométrie d'Arakelov, hauteur

Laboratory : Institut de Mathématiques de Jussieu - Paris Rive Gauche

Contact : Huayi Chen (huayi.chen@imj-prg.fr)

Webiste : www.imj-prg.fr

Ce sujet étudie la notion de hauteur des variétés arithmétiques sur une courbe adélique dans un cadre de géométrie d'Arakelov relativement à un corps muni d'une famille de valeurs absolue paramétrée par un espace de mesure. On cherche à comprendre de façon précise la construction et les propriétés des fonctions de hauteurs dans des cas concrets comme variétés toriques ou variété sphérique. 

Dynamics of tumour growth and of the immune response

Keywords : Free boundary problem; immune response; adaptive dynamics.

Laboratory : LAGA

Contact : Jean Clairambault et Nicolas Vauchelet (vauchelet@math.univ-paris13.fr)

This thesis project is about the analysis and control of models of tumour growth, and it is twofold: spatial tumour growth as a free boundary growth problem, and tumour-immune system interactions as a problem of adaptive dynamics of coupled cell populations with evolving continuous internal trait heterogeneity.

Equidistribution de tores pour les groupes classiques

Keywords : périodes automorphes, séries d’Eisenstein, équidistribution de tores.  

Laboratory : LAGA, Université Sorbonne Paris Nord

Contact : Farrell Brumley (farrell.brumley@gmail.com)

Website : https://www.math.univ-paris13.fr/~brumley/

Le célèbre théorème d’équidistribution de Duke.  une percée majeure de la théorie analytique des nombres moderne montre que les points CM de grand discriminant sur la surface modulaire s’équirépartissent selon la mesure uniforme. En 2010 Einsiedler, Lindenstrauss, Michel et Venkatesh ont généralisé ce résultat au cadre des périodes toriques sur PGL3 par une combinaison surprenante de méthodes ergodiques et analytiques. Le but de ce projet est de montrer l’analogue de ce dernier théorème pour le groupe PGSp4  où les outils analytiques deviennent plus mystérieux.

Modélisation prédictive agnostique pour la détection de signes de risque d'oobésité chez l'enfant

Keywords : Modélisation prédictive, diagnostic, e-santé, obésité 

Laboratory : LAGA

Contact : Ammi Mehdi (mehdi.ammi@univ-paris8.fr)

Website : http://www.mehdi-ammi.eu/

1. Objectif

L’objectif de ce projet est d’étudier et de développer une approche permettant de modéliser et prédire des signes d’obésité prématurée chez l’enfant. L'enjeu est de pouvoir générer un diagnostic fiable en partant d’un minimum d'éléments possibles à disposition (balance, capteur de mesure de l’activité physique, des rapports de son médecin traitant, etc). Le projet implique à la fois l’étude et l'élaboration d’approches de traitement automatique innovantes et spécifiques au contexte des objets connectés (smartphones, watches, capteurs, etc.), mais également des expérimentations terrains afin d’étudier la qualité du diagnostic avec des patients dans la vie quotidienne. 

2. Contexte

Insuffisamment diagnostiquée, traitée ou contrôlée, l’obésité chronique (OC) est un facteur majeur de risque cardiovasculaire et générateur de plusieurs maladies chroniques telles que le diabète, l’hypertension, etc. 
Malgré les régimes alimentaires que pourraient suivre un certain nombre de patients ayant constaté leur état d’obésité, ceux-ci manquent d'efficacité et de résultat sur le long terme car la plupart des patients ayant suivi un régime alimentaire retombent dans l’obésité et reprennent de la masse graisseuse. Malgré cela, ces régimes alimentaires représentent une solution “temporaire” et alternative que les sujets à bas âges tels que les enfants ne peuvent pas suivre de peur de nuire à leur croissance ou par manque de motivation. Ce qui rend ce type de sujets imprévisible et difficile à gérer. 
Les complications de l'obésité et du surpoids sont multiples, allant des maladies cardiovasculaires à certains cancers. Un IMC élevé est un important facteur de risque de maladies chroniques comme :

  • les maladies cardiovasculaires (principalement les cardiopathies et les accidents vasculaires cérébraux)
  • le diabète
  • les troubles musculo-squelettiques, en particulier l’arthrose
  • certains cancers (de l’endomètre, du sein et du côlon)

Les troubles de la ventilation sont très fréquents en cas de surpoids et d'obésité. L'accumulation de graisse dans le thorax gêne l'expansion de la cage thoracique lors de la respiration. Beaucoup d'obèses sont essoufflés lorsqu'ils fournissent un effort (dyspnée). Les personnes obèses sont à risque de présenter des apnées du sommeil, c'est-à-dire des arrêts spontanés de la respiration qui surviennent pendant le sommeil, plusieurs fois par heure. Or ces apnées peuvent être à l'origine d'accidents cardiaques ou cérébraux.

Par ailleurs, l'obésité a des effets sur la production d'hormones sexuelles. Chez les femmes, les perturbations du cycle sont fréquentes tandis que les hommes peuvent présenter un hypogonadisme. D'autre part, l'obésité a des conséquences graves avec l'apparition d'insulinorésistance et de diabète de type 2 ou encore d'un syndrome métabolique (hypertension artérielle, excès de cholestérol et diabète).
Enfin, le risque de décès augmente de 20 à 40 % chez les personnes en surpoids et de deux à trois fois chez les sujets obèses.
L’obésité entraîne chez l’enfant des difficultés respiratoires, un risque accru de fracture, une hypertension artérielle, l’apparition des premiers marqueurs de maladie cardiovasculaire, une résistance à l’insuline et des problèmes psychologiques ce qui engendre des problèmes pour les futurs adultes mais aussi un enjeu financier colossale pour l’état. Il serait donc nécessaire de pouvoir détecter les véritables signes d’obésité pouvant entraîner des risques d’aggravation chez l’enfant. 
Naissant d’une collaboration ancienne avec Mayo Clinic en Arizona (USA) et le CNRS, nous disposions d’une première base de données pouvant servir à monter un premier modèle prédictif des risques d’obésité chez l’enfant. 

3. Problématiques

De nombreuses études s'intéressent particulièrement au calcul instantané de l'indice de masse corporelle (IMC) ou d’utiliser des applications pouvant inciter les patients à faire de l’activité physique sans que celles ci ne lui fournissent d’informations personnalisées sur le risque lié à son état actuel et son devenir dans quelques temps. 
Les sujets à bas âge tel que les enfants ne peuvent pas porter de dispositifs de mesure de leur activités ni de comprendre l’enjeu de ce type de manipulations. De plus, le risque lié à l’obésité chronique chez ce type de patients a autant de conséquences graves que leur aînés. 
Pouvoir calculer un indice permettant de renseigner sur l’état d’obésité d’un sujet et de ce fait pouvoir anticiper d’éventuelles maladies ou complications sous-jacentes est un enjeu de taille. L’information apportée par cet indice doit être personnalisée et indépendante de connaissances antérieures sur l’état de santé du sujet afin d’éviter d’avoir des modèles biaisés et non capables de généraliser à des patients n’ayant pas participé à la construction du modèle. 
Les données dont nous disposons sont de différentes natures : IMC, rythme cardiaque, activité physique, etc. ainsi, le modèle prédictif devrait être en mesure de capitaliser sur l’ensemble des sources disponibles afin d’apporter une prédiction fiable et interprétable. Ainsi, des modèles de fusion de données multisources prenant en compte la nature des données et leurs imperfections sont à explorer et à implémenter. Des modèles capables à la fois de donner un score d’obésité renseignant sur un risque élevé sur l’état de santé du sujet sont à prioriser. 

Le prétraitement de données est un enjeu de taille pour la conception d’un modèle fiable et généralisable. Il serait important d’apporter des contributions sur les problèmes liés au manque de certains types de données, des données partiellement présentes ou des données aberrantes. C’est bel et bien le cas de notre corpus de données. Pour répondre à ce besoin, il faudrait commencer par entraîner un premier modèle sur des données similaires et transférer la connaissance (transfer lreaning) pour l’appliquer pour notre cas d’étude. 
Une fois les données prétraitées, il va falloir les fusionner. Plusieurs approches seront envisageables pour garantir une fusion de données multisources. Il faudrait etre capable de prendre en compte l’imperfection des données issues notamment de capteurs ou d’objets connectés. A ce sujet, des approches de type Dempster-Shafer couplées avec des techniques d’apprentissage profonds incrémentales seront à investiguer en priorité. 

Les professionnels de santé souhaiteraient avoir des modèles de plus en plus interprétables et explicables permettant à la fois de comprendre le résultat mais aussi d’engager des actions curatives adéquates. Le modèle fourni devrait être en mesure d’inclure cette contrainte supplémentaire que ce soit pour les modèles d'apprentissage classiques (arbres de décision, forêts aléatoires, etc) ou bien des modèles à base de réseaux de neurones profonds. Pour ce faire, il faudrait etre capable de mixer des modèles traditionnels plutôt connus dans l’état de l’art pour leur capacité prédictive et explicative (RandomFirest, Chaînes de Markov, etc). 
Les modèles actuels permettent une prédiction d’un état d’obésité sur une petite période et avec une prise en compte d’un nombre très réduit de facteurs influençant l’obésité. L’objectif ici est d’aller plus loin en permettant à la fois une prise en compte d’un maximum de paramètres permettant d’influencer sur l”obésité (paramètres psychologiques, sentimentales, physiques, de santé, etc) mais aussi de permettre de prédire un état d’obésité sur le long terme et d’avoir une capacité de projection sur le futur. Pour répondre à cette problématique, il faudrait s’inspirer de récents travaux sur la prédiction de la glycémie sur une longue période avec application de modèles tels que le transfer-learning et une optimisation fine de ses paramètres afin d’aboutir au résultat souhaité. 
La qualité du diagnostic généré par le modèle prédictif doit être abordée sur terrain dans le cadre de la vie quotidienne des patients. L’objectif est d’évaluer la qualité du diagnostic (robustesse, précision, etc.) dans un environnement non contrôlé et en fonction des nombreuses situations rencontrées par les patients.

L’élaboration de ce type de modèle passe nécessairement par la mise en place d’un environnement d’implémentation adéquat. Il serait primordial de mettre en place un cluster de développement avec les dimensionnement et les adaptations nécessaires afin de répondre aux exigences de calcul dans un contexte purement big data.  De plus, les traitements à réaliser doivent être aussi bien en temps réel pour les fonctionnalités adaptés à cela (mesure de glycémie, etc) ou bien en batch (poids, etc) afin d'offrir une flexibilité dans la récolte de ce type d’informations. 

Enfin, le modèle prédictif devrait être en mesure d'être le plus générique possible afin d’avoir la capacité de prendre des décisions sur la base de quelques éléments sur le patient. L’objectif est donc de mettre en œuvre un modèle agnostique de prédiction de facteurs de risque d’obésité prématurée chronique sur la période la plus longue possible. 

4. Méthodologie

Les grandes étapes à explorer afin de répondre à cette problématique sont les suivantes 

A. Collecte de données : nous utiliserons notre corpus de données issu d’une collaboration avec l'hôpital Américain Mayo-Clinic (Arizona) avec possibilité de faire appel à des données externes. C’est un corpus très riche en informations et comporte plus de 60 sujets. 

B. Prétraitement de données: développer une approche agnostique de prétraitement de données incrémentale capable de rendre les données exploitables pour l’apprentissage. L’utilisation de techniques telle que le Sampling sont à prioriser afin de gérer les manques éventuels de données. Une étude comparative des différentes méthodes d'échantillonnage est à prévoir. 

C. Préparation des données : il faudrait être en mesure d’exploiter les données prétraitées d’une manière incrémentale afin d’avoir une capacité de prédiction assez élevée avec un minimum de données. Privilégier les techniques de traitement à base d’arbre de décision incrémentiel.  

D. Fusion de données : les données sont pour la plupart issues de capteurs embarqués dans des objets connectés. Elles sont donc par définition imparfaites et les modèles de machine learning ne prennent pas en compte cette contrainte supplémentaire. Il faudra privilégier des approches de fonctions de croyances pour modéliser cette caractéristique avant l’apprentissage. 

E. Apprentissage et modélisation: le modèle à mettre en œuvre devrait répondre à des critères de clarté alignés avec la santé : applicabilité et interprétabilité. Afin d’y parvenir, il faudrait commencer par exploiter des approches s'intéressant aux entrées du modèle et la contribution des entrées à la prise de décision. 

F. Déploiement du modèle: le modèle entraîné devrait être le plus généralisable possible. Pour y parvenir, il faudrait explorer des techniques d’apprentissage incrémentales sur la base des modèles de Deep learning déjà testés préalablement. 


5. Encadrement et contact
Mehdi Ammi : Professeur à l'Université Paris 8

 
6. Références

Hauschild, V.D.; De Groot, D.W.; Hall, S.M.; Grier, T.L.; Deaver, K.D.; Hauret, K.G.; Jones, B.H. Fitness tests and occupational tasks of military interest: A systematic review of correlations. Occup. Environ. Med. 2017, 74, 144–153. [CrossRef] [PubMed]
McGuigan, M. Monitoring Training and Performance in Athletes; Human Kinetics: Champaign, IL, USA, 2017; ISBN 1-4925-3520-6.
Cunanan, A.J.; De Weese, B.H.; Wagle, J.P.; Carroll, K.M.; Sausaman, R.; Hornsby, W.G.; Haff,  G.G.; Triplett, N.T.; Pierce, K.C.; Stone, M.H. The General Adaptation Syndrome: A foundation for the concept of periodization. Sports Med. 2018, 48, 787–797. [CrossRef]
Maupin, D.;  Schram, B.;  Orr,  R. Tracking  training load and its implementation in tactical populations:   A narrative review. Strength Cond. J. 2019, 41, 1–11. [CrossRef]
Dijksma, C.I.; Bekkers, M.; Spek, B.; Lucas, C.; Stuiver, M. Epidemiology and financial burden of musculoskeletal injuries as the leading health problem in the military. Mil. Med. 2020, 185, e480–e486. [CrossRef] [PubMed]
Wardle, S.L.; Greeves, J.P. Mitigating the risk of musculoskeletal injury: A systematic review of the most effective injury prevention strategies for military personnel. J. Sci. Med. Sport 2017, 20, S3–S10. [CrossRef] [PubMed]
Moreno, M.R.; Dulla, J.M.; Dawes, J.J.; Orr, R.M.; Cesario, A.; Lockie, R.G. Lower-body power and its relationship with body drag velocity in law enforcement recruits. Int. J. Exerc. Sci. 2019, 12, 847–858.
Joseph, A.; Wiley, A.; Orr, R.; Schram, B.; Dawes, J.J. The impact of load carriage on measures of power and agility in tactical occupations: A critical review. Int. J. Environ. Res. Public Health 2018, 15, 88. [CrossRef]
Orr, R.M.; Dawes, J.J.; Lockie, R.G.; Godeassi, D.P. The Relationship between lower-body strength and power, and load carriage tasks: A critical review. Int. J. Exerc. Sci. 2019, 12, 1001–1022.
Šimenko, J.; Kovcan, B.; Pori, P.; Vodicar, J.; Vodicar, M.; Hadžic, V. The relationship between Army physical fitness and functional capacities in infantry members of the Slovenian Armed Forces. J. Strength Cond. Res. 2020. Publish Ahead of Print. [CrossRef]
Schram, B.; Robinson, J.; Orr, R. The Physical Fitness Effects of a week-long specialist tactical police selection course. Int. J. Environ. Res. Public Health 2020, 17, 6782. [CrossRef]
Pihlainen, K.; Santtila, M.; Häkkinen, K.; Kyröläinen, H. Associations of physical fitness and body composition characteristics with simulated military task performance. J. Strength Cond. Res. 2018, 32, 1089–1098. [CrossRef]
Lockie, R.G.; Dawes, J.J.; Balfany, K.; Gonzales, C.E.; Beitzel, M.M.; Dulla, J.M.; Orr, R.M. Physical fitness characteristics that relate to Work Sample Test Battery performance in law enforcement recruits. Int. J. Environ. Res. Public Health 2018, 15, 2477. [CrossRef] [PubMed]
Brady, C.J.; Harrison, A.J.; Comyns, T.M. A review of the reliability of biomechanical variables produced during the isometric mid-thigh pull and isometric squat and the reporting of normative data. Null 2020, 19, 1–25. [CrossRef]
Merrigan, J.J.; Dabbs, N.C.; Jones, M.T. Isometric mid-thigh pull kinetics: Sex differences and response to whole-body vibration. J. Strength Cond. Res. 2020, 34(9), 2407–2411. [CrossRef] [PubMed]
McMahon, J.J.; Suchomel, T.J.; Lake, J.P.; Comfort, P. Understanding the Key Phases of the Countermovement Jump Force-Time Curve. Strength Cond. J. 2018, 40, 96–106. [CrossRef]
Stratford, C.; Dos’Santos, T.; McMahon, J. A Comparison Between the Drop Jump and 10/5 Repeated Jumps Test to Measure the Reactive Strength Index. Summer 2020, 2020, 23–28.
Buckner, S.L.; Jessee, M.B.; Mattocks, K.T.; Mouser, J.G.; Counts, B.R.; Dankel, S.J.; Loenneke, J.P. Determining strength: A case for multiple methods of measurement. Sports Med. 2017, 47, 193–195. [CrossRef]
Comfort, P.; Dos’Santos, T.; Beckham, G.K.; Stone, M.H.; Guppy, S.N.; Haff, G.G. Standardization and Methodological Considerations for the Isometric Midthigh Pull. Strength Cond. J. 2019, 41, 57–79. [CrossRef]
Jones, M.T.; Oliver, J.M.; Delgado, J.C.; Merrigan, J.J.; Jagim, A.R.; Robison, C.E. Effect of acute complex training on upper-body force and power in collegiate wrestlers. J. Strength Cond. Res. 2019, 33, 902–909. [CrossRef] [PubMed]
Parry, G.N.; Herrington, L.C.; Horsley, I.G. The test–retest reliability of force plate–derived parameters of the countermovement push-up as a power assessment tool. J. Sport Rehabil. 2020, 29, 381–383. [CrossRef]
Yaghouby, F., A. Ayatollahi, R. Bahramali, M. Yaghouby, and A. H. Alavi. Towards automatic detection of atrial fibrillation: a hybrid computational approach. Comput. Biol. Med. 40:919–930, 2010.