Présentation de l'école thématique BDA 2012

Grands axes du programme " Nouvelles sources de données "

Une première session de l’école Masses de Données Distribuées s’est tenue en 2010 aux Houches, avec des tutoriels centrés sur la gestion de données distribuées sur Internet, l’interrogation et la fouille de données, et la sécurité des données. Nous avons choisi, pour la préparation de l’édition 2012, de reprendre globalement ces thèmes en les orientant vers la problématique des nouvelles sources de données .

L’idée directrice est d’étudier l’impact d’un changement majeur affectant la gestion de l’information: l’émergence d’un univers « en nuages » de données produites et échangées par chaque individu, agissant dans un monde collaboratif de réseaux dits « sociaux », et émettant de l’information au moyen d’équipements électroniques personnels (Smartphones, appareils photo, GPS et capteurs de toute sorte). Cette situation présente une rupture avec celle de sources de données plus institutionnelles, dont la production est contrôlée, structurée, stockées dans des bases aux accès fortement protégés.

Tutoriels 2012

Les trois tutoriels pour la session 2012, constituant autant de thèmes directeurs pour nos journées, sont :

Données « dans les nuages »

Ce tutoriel présentera architectures, modèles et algorithmes pour l’intégration dans des environnements distribués de très grandes masses de données, en introduisant notamment les nouveaux systèmes « NoSQL », orientés vers la gestion distribuée de documents.

Optimisation des traitements de documents XML.

Ce tutoriel présentera des outils formels, et des méthodes permettant d’optimiser différents traitements (validation, requêtes, mises à jour) de documents XML. Ce tutoriel sera plus spécifiquement focalisé sur les méthodes utilisant des méta données telles que le schéma des documents manipulés. L’optimisation des requêtes, mises à jour constitue un enjeu majeur dans un contexte « grande masse de données ».

Données ubiquitaires et réseaux sociaux.

Deux tutoriels d’1h30 seront consacrés à un tour d’horizon des nouvelles sources de données.

  1. Données mobiles et ubiquitaires: réseaux de capteurs, intelligence ambiante, téléphones, ordinateurs de bord et autres équipements mobiles géolocalisés : l’information est produite par tous, en quantité, en tout lieu et en continu. Ce tutoriel proposera une introduction aux techniques de gestion de flux de données, d’acquisition automatique et d’analyse des données ambiantes.
  2. Réseaux sociaux : l’utilisateur devient producteur d’information, et s’appuie sur les nouveaux moyens de communication pour diffuser ses données et constituer des communautés. Ce tutoriel présentera les réseaux sociaux et abordera des questions telles que la gestion de la réputation, la protection de la confidentialité et l’identification de la provenance des données.

Les exposés complémentaires, plus courts, donnent soit une vision plus en profondeur sur une question spécifique, soit une ouverture sur des aspects sociaux ou économiques liés à la thématique du jour. Nous ferons en sorte, pour chaque journée, et dans la mesure du possible, que les exposés des participants soient également en cohérence avec cette thématique.