Détection de personnes à partir d’images 3D et identification de leurs postures et de leurs mouvements par la caméra 3D Kinect
MEMOIRE DE MAGISTER
Option Traitement d’Images et Reconnaissance de Formes
Si pour un humain, il est facile de distinguer son semblable autour de lui ou sur des images fixes ou dynamiques, pour un système de vision artificielle, cette tâche reste très complexe, alors que, ces derniers temps, le besoin de l’utilisation de moyens technologiques et informatiques permettant l’acquisition d’informations concernant la présence ou l’absence de personnes dans un environnement donné se fait sentir de plus en plus comme dans les systèmes de transport intelligent, la robotique, la télésurveillance, la domotique intelligente, l’indexation d’images ou de vidéos etc. De plus, une fois la présence d’une ou de plusieurs personnes détectée, leurs localisations, avec précision, sont souvent demandées. L’identification de la posture d’une personne dans un état debout ou en marche est aussi très recherchée particulièrement chez les piétons dans le cadre de la vidéosurveillance et pour les systèmes de vision embarqués dans des véhicules. Cependant, la détection de personne qui n’est étudiée qu’à partir de la fin des années 1990, présente encore beaucoup de complexité en raison de la variabilité des apparences des personnes liées aux articulations du corps humain et différents phénomènes d'occlusions. Plusieurs méthodes de détection de personnes commencent de plus en plus à voir le jour comme celles basées sur les histogrammes de gradient orienté et celles basées sur des modèles statistiques par apprentissage supervisé, à partir de caractéristiques de forme ou d'apparence. Par ailleurs, les nouvelles modalités d’interaction basées sur la vidéo ont suscité de nouveaux besoins auprès des utilisateurs. C’est ainsi que des périphériques comme l’EyeToy de Sony ou la Kinect de Microsoft ont offerts aux utilisateurs la possibilité d’utiliser leurs mains, leurs corps et leurs mouvements pour interagir avec les séquences d’images mises en scène par un programmé implémenté dans un ordinateur. Ces nouveaux périphériques nécessitent de nouvelles approches pour l’interprétation de ces mouvements et leur traduction en ordres et ce en vue de toucher un public large, ce qui exige plus de rapidité et plus de souplesse avec une possibilité, à l’utilisateur, d’ajouter de nouveaux ordres gestuels. En effet, l’interprétation automatique des gestes et des actions existe depuis que les caméras numériques sont disponibles et parmi les premiers travaux dans ce domaine, on peut notamment citer ceux relatifs à la marche, l’analyse de mouvement de foule etc. La précision, la souplesse et la rapidité sont souvent les trois contraintes à remplir dans ces types d’applications où, parfois, un compromis entre ces différentes exigences s’impose. Pour certaines applications médicales, par exemple, nous aurons tendance à privilégier la précision, alors que dans une application ludique nous chercherons en priorité la rapidité et l’adaptabilité. Chaque solution doit trouver son propre équilibre entre ces contraintes en fonction de son contexte d’application. En plus de ces contraintes, d’autres problèmes peuvent surgir comme l’extraction des informations de postures de façon fiable et constante au cours du temps alors qu’elles peuvent être noyées dans du bruit. Comme autre problème, nous avons aussi à citer les grandes variations de style dans une action de reproduction d’un même geste. Une action peut être une composition de mouvements tels le «geste», l’«action», l’«interaction » et l’ «activité de groupe». Un « geste » est défini comme le mouvement élémentaire des parties du corps d’une personne. Il s’agit de la décomposition sémantique la plus élémentaire, c’est- à-dire, la plus proche du mouvement perçu, comme «agiter le bras», «lever une jambe», etc. Une « action » est l’activité d’une seule personne qui peut être composée de plusieurs gestes, arrangés temporellement, comme «marcher», «sauter», etc. Une «interaction» est une activité humaine qui implique, soit, deux humains au moins agissant ensemble, éventuellement avec un ou des objets, soit un seul humain mais agissant avec au moins un objet. Dans le cadre de ce mémoire structuré en trois chapitres, nous nous intéressons à la reconnaissance automatique de gestes ou mouvements élémentaires des parties du corps d’une personne. Dans le premier chapitre, nous présentons un contexte général et un état de l’art des méthodes et des outils fondamentaux pour la détection de personnes et l’identification de leurs gestes qui incluent l’extraction des vecteurs caractéristiques et les différents algorithmes de classification. Dans le deuxième chapitre, nous présentons un algorithme de détection de personnes en temps réel à partir des images de profondeur de la Kinect. Nous présentons d’abords le descripteur nommé histogramme des profondeurs orientées puis une classification basée sur les machines à vecteurs de support. Dans le troisième chapitre, nous présentons une méthode pour la reconnaissance des poses et des gestes en temps réel à partir d'un flux de squelette bruité. Chaque pose est décrite en utilisant une représentation angulaire des articulations du squelette. Ces descripteurs servent à identifier des poses clés à travers un classifieur SVM multi-classe. Par la suite les poses clés seront utilisées pour reconnaitre les gestes à travers une forêt de décision. Ce mémoire se termine par une conclusion générale et des perspectives ainsi que des références bibliographiques.

0 تعليقات