Programme de l'école

Dimanche 16 mai: accueil des participants

L'accueil a lieu à l'Ecole de Physique des Houches à partir de 17h le dimanche 16 mai. L'organisation et le financement du transport sont à la charge des participants. Voir la page consacrée aux informations pratiques pour votre venue aux Houches.

Lundi 17 mai 2010 : Interroger et intégrer les données

Cours (9h-12h30) [Exposé]: Approches logiques pour l'interrogation uniforme de données distribuées et hétérogènes - Marie-Christine Rousset (Pr., Grenoble 1, LIG). (détails)

Face à la multiplicité et l'hétérogénéité de données accessibles en ligne, l'interrogation et l'intégration de données distribuées est un problème majeur sur le plan pratique et théorique.

Dans ce cours, on montrera que la logique offre un cadre formel et des algorithmes d'inférence appropriés pour décrire et interroger d'une manière unifiée un ensemble de sources de données distribuées et hétérogènes.

D'un point de vue logique, le problème d'intégration de données a deux volets. Le problème de modélisation consiste à spécifier dans un formalisme logique les correspondances sémantiques entre les différentes sources de données, eventuellement à travers une ontologie pivot. Le problème de raisonnement consiste à définir des algorithmes de raisonnement appropriés pour reformuler et décomposer les requêres initiales en des requêtes exécutables par les différenres sources, et combiner de manière adéquate les réponses obtenues.

Dans ce cours, on montrera l'impact sur la complexité du calcul des réponses, de la sémantique et du pouvoir d'expression des formalismes logiques utilisés pour la description du contenu des sources de données et des requêtes associées.

Les formalismes logiques que nous présenterons sont les fondements formels des langages de description des données du Web sémantique tels que RDFS et OWL. Ce cours permettra de mieux comprendre les problèmes et les solutions possibles pour la construction de systèmes d'intégration d'informations à base de médiateurs ou d'ontologies, aussi dans un contexte centralisé ou décentralisé.
Exposé (14h-15h) [Exposé]: Type-based optimization for XML query execution and static verification - Dario Colazzo (MdC Univ. Paris 11, LRI) (détails).

The aim of this short tutorial is to provide an overview about the main issues behind some recent techniques that can be used to optimize execution and static type checking of XML queries over typed XML data, currently used in many applications (data integration, WEB, data exchange, and so on).

Concerning execution optimization, the focus will be on the use of schema information to minimize memory consumption during query and update evaluation, in order to permit the processing of very large documents, and to reduce execution time in many cases.

Concerning static type verification, the focus will be on some recent approaches to efficiently checking schema inclusion and equality, the two main properties that have to be checked during type-checking of XML queries. One of the main novelties of these approaches is that they rely on a characterization of regular expressions which is based on a particular logic, rather than on traditional automata coding.
Ouverture (15h-16h) [Exposé]: Very large digital libraries, an overview - Carlo Meghini (ISTI, CNR Pisa) (détails)

In today’s information society the demand for Digital Libraries is changing. The implementation of Digital Libraries is today more demanding than in the past. Information consumers are facing with the need to have access to an ever growing and heterogeneous information space while information providers are interested in satisfying such needs by providing rich and organised views over such information deluge. Because of their fundamental role of information production and dissemination vehicle, Digital Libraries are also expected to provide information society with services that must be available 24/7 and guarantee the expected quality of service.

This scenario leads to the development of “Large-Scale Digital Libraries” in terms of number of Information Objects and Collections to be made available, users to be served and potentially distributed resources needed to implement such systems. Such systems have to confront with new challenges in a context having scalability, interoperability and sustainability as focal points.

The presentation will review the requirements of a typical axample of a Large-Scale Digital Library, namely the Europeana digital library, being built as a unqiue access point to the cultural heritage world throughtout Europe. The most important challenges will be highlighted, and the basic principles of a data model for addressing them will be illustrated.
Atelier: Présentations sélectionnées lors des inscriptions

Mardi 18 mai 2010 : Administrer les données distribuées

Cours (9h-12h30) [ Web Search | Distribution]: Traitement des données Web - Pierre Senellart (MdC, Telecom ParisTech), Philippe Rigaux (Pr, U. Paris-Dauphine). (détails)

Le Web et l’Internet ont révolutionné l’accès à l’information. On trouve aujourd’hui sur le Web des masses de documents HTML, mais également des fichiers PDF, des images, des documents audios et vidéos, etc. Le Web est constitué de milliards de pages hébergées sur des millions de serveurs.

Cet immense contenu réparti sur une infrastructure aussi complexe et hétérogène a nécessité depuis plusieurs années un effort de recherche important pour l’organisation, la structuration, le stockage, l’indexation de ces données et bien entendu le passage à très grande échelle des traitements qui s’y appliquent. Le tutorial donnera une présentation générale des techniques de gestion des données du Web, centrée principalement sur les aspects dits « physiques » : stockage, indexation des données, architectures distribuées, organisation de masses de données dans des structures réparties. Les sujets abordés couvriront des solutions maintenant classiques et utilisées par de nombreux systèmes (index et algorithmes des moteurs de recherche par exemple). Le tutorial proposera également une introduction à des solutions en cours d’émergence comme l’indexation d’images et de données multimédia. les structures de stockage massif ou les traitements parallèles (e.g., le paradigme map/reduce).
Ouverture (14h-15h) [ Exposé ]: The Gossple project Davide Frey (INRIA) (détails)

Cette session d’ouverture sera dédiée à la présentation du projet Gossple d’Anne-Marie Kermarrec, récompensé par un starting grant ERC (European Research Council).

Résumé : Gossple aims at radically changing the navigation on the Internet by placing users affinities and preferences at the heart of the search process. Complementing traditional search engines, Gossple will turn search requests into live data to seek the information where it ultimately is: at the user. Gossple precisely aims at providing a fully decentralized system, auto-organizing, able to discover, capture and leverage the affinities between users and data. Complementing Google-like search engines, Gossple will turn the request into a dynamic object navigating the network using epidemic protocols to find matching users/data. relevant clusters of users and data. At the heart of this procedure lies dynamic overlays based on users affinities, preferences and recommendations.
Exposé (15h-16h): XML data management in structured P2P networks suivi d'une démo de ViP2P Ioana Manolescu (INRIA-Leo) et Spyros Zoupanos (INRIA-Leo). (détails)

L'essor des réseaux pair-à-pair (P2P) a créé des opportunités pour partager des données à grande échelle, et en particulier des données du Web telles que XML, RDF, ou encore des données mixtes comportant des arbres XML et des annotations RDF. Nous présentons l'approche de la plateforme ViP2P ( "Views In Peer-to-Peer") pour la dissemination et l'interrogation efficace des contenus XML. ViP2P est construit au dessus d'un réseau P2P structuré. Il permet à chaque pair d'obtenir en mode "abonnement" des résultats de requêtes XML et RDF complexes, au fur et à mesure que des données intéressantes sont publiées dans le réseau. De plus, il fournit des mécanismes efficace pour traiter des reqûetes en mode "snapshot", en ré-utilisant pour cela les résultats de requêtes continues stockées chez d'autres pairs. Nous montrerons comment ViP2P généralise et étend plusieurs modèles de gestion de documents XML dans des réseaux P2P structurés proposés précédemment. Une démo concluera la présentation.
Atelier (17h-18h30): Présentations sélectionnées lors des inscriptions

Mercredi 19 mai 2010: Analyser des données

Cours (9h-12h30) [Partie 1 | Partie 2 ]: Enumération de motifs intéressants dans les bases de données : application à la santé et à l'environnement - Maguelonne Teisseire (DR Cemagref), Jean-Marc Petit (Pr. INSA Lyon). (détails)

Les problèmes d'énumération de motifs intéressants dans les bases de données forment une classe importante de problèmes qui intéressent la communauté fouille de données depuis de nombreuses années.

Les motifs intéressants couvrent de très nombreuses catégories : les itemsets fréquents pour le problème du "panier de la ménagère", les motifs séquentiels fréquents, les dépendances d'inclusion satisfaites dans une base de données, les sous-arbres fréquents dans des collections XML, etc.

Ces problèmes ont des caractéristiques communes qui permettent de les regrouper et de les étudier dans une forme relativement abstraite. L'objectif de ce cours est d'une part de présenter les principaux problèmes d'énumération dans un contexte de fouille de données et de donner un aperçu des techniques utilisables pour les résoudre d'un point de vue déclaratif. La seconde partie décrira comment l'énumération de motifs peut être applicable dans les domaines de la santé et de l'environnement. Il montrera les enjeux sociétaux ainsi que les principales techniques actuellement adoptées.
Ouverture (14h-15h) [Exposé]: Aide à la décision en médecine et environnement - Marie Odile Cordier (Pr. Univ. de Rennes 1) (détails)

L'aide à la décision dans le domaine médical est une problématique qui a été largement étudiée en Intelligence Artificielle et qui a donné lieu à de nombreux outils, que ce soit pour établir un diagnostic, analyser des images médicales, proposer une thérapie. L'aide à la décision dans le domaine de la protection de l'environnement est plus récente mais très actuelle et de nombreuses applications motivent actuellement les collaborations entre chercheurs des domaines concernés.

Partant des applications qui ont motivé les travaux de l'équipe de recherche DREAM (Irisa Rennes/Université Rennes1), je montrerai dans cet exposé les challenges qu'elles posent à des chercheurs en Intelligence Artificielle. Je mettrai en particulier l'accent sur l'aspect masses de données, en présentant les défis posés aux techniques d'apprentissage automatique et de fouille de données par ces applications.

Dans le domaine médical, je m'intéresserai à la surveillance en temps réel (monitoring) de patients cardiaques en mettant en avant l'importance des informations temporelles et la nécessité d'adapter les traitements au contexte (caractéristiques des signaux recueillis, état du patient ...). Dans le domaine de la protection de l'environnement, je me focaliserai sur la difficulté à dégager des informations lorsque la masse de données est trop importante et sur l'importance de tenir compte des besoins des utilisateurs pour focaliser la recherche d'informations pertinentes.

Dans les deux cas, il s'agira plus de présenter des applications motivantes pour des travaux de recherche que de fournir des solutions toutes faites aux problèmes posés.
Atelier: Présentations sélectionnées lors des inscriptions

Jeudi 20 mai 2010 : Protéger les données

Cours 1 (9h-12h30) [Introduction | Contrôle accès | Chiffrement | Tatouage | Bibliographie ]: Sécurité des bases de données - Nicolas Anciaux (CR INRIA), David Gross-Amblard (MdC U. Bourgogne), Philippe Pucheral (Pr UVSQ), Romuald Thion (Post-doc, INRIA Grenoble). (détails)

La sécurité des bases de données est devenue un enjeu majeur afin de protéger efficacement des données commerciales, secrets industriels ou encore des données personnelles (médicales, sociales, traces de l’activité quotidienne) contre un nombre croissant d’attaques. Ce tutoriel introduira une classification des attaques menaçant la confidentialité, l’intégrité et la disponibilité des données puis passera en revue les approches principales utilisées industriellement ou explorées dans un contexte académique pour se prémunir contre ces attaques. Seront notamment abordés les problèmes de modélisation du contrôle d’accès et du contrôle d’usage, de chiffrement de bases de données, d’utilisation de composants matériels sécurisés et de sécurisation de données externalisées, c'est-à-dire confiées à un hébergeur pouvant se révéler malveillant et engendrant des problématiques de protection de la propriété intellectuelle et de preuve d'exécution à distance.
Ouverture (14h-15h30) [Exposé P. Poncelet | Exposé I. de Lamberterie | Bibliographie] ]: De la protection juridique à la protection informatique - Isabelle de Lamberterie (DR CNRS), Pascal Poncelet (Pr U. Montpellier 2). (détails)

Des lois telles que HIPAA (Health Insurance Portability and Accountability Act) aux Etats-Unis ou les nouvelles directives européennes imposent des contraintes fortes sur le traitement des données afin de préserver la vie privée des personnes, et ce dans de très nombreux domaines d’applications (analyses de transactions financières, analyses de comportements sur des sites de e-commerce...). Préserver la vie privée dans un contexte de fouille de données nécessite de n’offrir des connaissances que si celles-ci ne divulgent pas d’informations sensibles sur les individus concernés. L’objectif de cette session d’ouverture est de confronter le point de vue des juristes et des informaticiens sur l’adéquation des outils informatiques aux textes de loi relatifs à ce sujet. Le débat pourra s’orienter plus largement sur les relations entre droit et bases de données (protection de l’intimité, anonymisation, droit de la propriété).
Atelier [programme]: Présentations sélectionnées lors des inscriptions

Vendredi 21 mai: départ

Le départ doit avoir lieu au plus tard vendredi après le déjeuner.

Masses de données
distribuées

Programme de l'école

Dimanche 16 mai: accueil des participants

Lundi 17 mai 2010 : Interroger et intégrer les données

Mardi 18 mai 2010 : Administrer les données distribuées

Mercredi 19 mai 2010: Analyser des données

Jeudi 20 mai 2010 : Protéger les données

Vendredi 21 mai: départ

L'école thématique BDA

Thème 2009

Où et quand ?

Masses de données distribuées

Programme de l'école

Dimanche 16 mai: accueil des participants

Lundi 17 mai 2010 : Interroger et intégrer les données

Mardi 18 mai 2010 : Administrer les données distribuées

Mercredi 19 mai 2010: Analyser des données

Jeudi 20 mai 2010 : Protéger les données

Vendredi 21 mai: départ

L'école thématique BDA

Thème 2009

Où et quand ?

Masses de données
distribuées