Vincent
BLONDEL
TFE
pour 2006-2007
Cette page se trouve
à l'adresse: http://www.inma.ucl.ac.be/~blondel/tfe2006.html
Les étudiants
intéressés par les sujets de mémoire repris plus
bas peuvent m'envoyer un courriel à l'adresse: vdb@mit.edu. Je ne serai pas présent à l'UCL avant août 2006.
Captcha: distinguer hommes et ordinateurs
Un
captcha est un programme qui génère automatiquement des
tests que la
plupart des humains passent sans difficultés alors que les
programmes
informatiques actuels n'y parviennent pas. Ainsi par exemple les humains décodent sans
difficulté le texte déformé suivant alors qu'un
ordinateur n'y parvient pas de manière systématique.
Les premiers captchas ont été introduits il y a quelques
années et sont utilisés aujourd'hui, par exemple par
Yahoo! ou Skynet,
pour éviter l'ouverture automatique d'un grand nombre d'adresses
email gratuites. Les applications potentielles des captchas sont
nombreuses; ils permettent par exemple d'éviter des "votes
automatiques" sur internet et ils pourraient être utilisés
pour combattre le spam en exigeant d'un émetteur qu'il
s'identifie comme humain en résolvant un captcha pour chaque
envoi.
Dans d'autres contextes, la difficulté d'automatiser de telles tâches de reconnaissance
(reconnaissance d'image, de voix, de spam, etc.) de manière automatique est
un frein à la réalisation de ces tâches à
grande échelle. Des auteurs ont proposé récemment
d'effectuer ces tâches de manière distribuée par
des humains soit en formulant le problème de
reconnaissance comme un jeux, soit en utilisant la tâche de
reconnaissance comme moyen de micro-paiement. Ainsi par exemple les jeux interactifs Peekaboom (voir
http://www.peekaboom.org) et esp (http://www.espgame.org) sont des jeux qui
permettent à leurs concepteurs d'obtenir des descriptions
d'images comme résultat de jeux sur internet. Pour des
micro-paiements, on peut imaginer qu'en échange de
l'obtention du fichier électronique d'un article de journal ou
en échange du déchargement d'un morceau de musique il
soit demandé d'effectuer une petite tâche de
reconnaissance vocale.
Ces différents exemples illustrent l'apparition d'un nouveau
paradigme en informatique. Dans le cadre de ce mémoire, on
s'intéressera à une description de l'émergence de
ce nouveau paradigme et on s'intéressera tout
particulièrement aux premières tentatives de description
formelle.
Références
Pour les captchas, voir les pointeurs au départ du site http://www.captcha.net/
L. von Ahn, M. Blum, N. Hopper and J. Langford. CAPTCHA: Using hard AI problems for security. In
Advances in CryptologyEurocrypt '03 (Volume 2656 of Lecture Notes in Computer Science), pages 294311, 2003.
Secure Distributed Human Computation, Gentry, Ramzan, Stubbledine, Financial Cryptography
and Data Security, 2006.
Construction et représentation de
réseaux sociaux
En collaboration avec le groupe de recherche Large graphs and networks
Des méthodes innovantes ont
été
proposées ces dernières années pour récolter de l'information sur les réseaux sociaux, pour
identifier des communautés dans ces réseaux et pour en
obtenir des représentations. Ainsi, par exemple, des chercheurs
américains ont proposés en 2005 une représentation des liens entre les membres du congrès
américain basée sur leur appartenance à des
groupes de travail. Nous
proposons d'étudier certaines de ces méthodes et d'analyser un
réseau social particulier relatif au monde économique belge.
Références
Pour des références générales sur les réseaux voir les liens au départ de http://mit.edu/vdb/www/6.977/
Community Structure in
the United States House of Representatives
Mason A.
Porter, Peter J.
Mucha, M. E. J.
Newman, A. J.
Friend, Feb 2006.
http://arxiv.org/abs/physics/0602033
Modularity and
community structure in networks
M. E. J.
Newman, 2006
http://arxiv.org/abs/physics/0602124
Google, chaînes de Markov et
thermodynamique
Mémoire encadré conjointement avec
Jean-Charles Delvenne
En 1998, Brin et Page introduisent
l'algorithme du PageRank, coeur du moteur de recherche Google. Cet
algorithme considère un surfeur qui se balade sur le Web de
la façon suivante: il part d'une page quelconque, et suit à
chaque étape un hyperlien au hasard parmi ceux qu'il trouve sur la
page. On calcule alors la fréquence avec laquelle chaque page est
visitée, qui est une mesure de la qualité de la page. Cela revient à
transformer le Web en une chaîne de Markov dont on calcule la
distribution d'équilibre.
On considère à présent
la variante suivante du PageRank. Les probabilités de transition de
cette chaîne de Markov sont modifiées de manière à maximiser son
entropie, c'est-à-dire à rendre le comportement du surfeur maximalement
imprévisible. On calcule à nouveau la probabilité d'équilibre.
L'objectif du TFE
consiste à comprendre l'algorithme, étudier ses propriétés, le comparer
au Pagerank, et explorer d'autres applications au-delà de la
classification des pages Web. Les travaux peuvent
prendre une tournure théorique ou expérimentale.
Similarité dans les
graphes. Application à l'extraction de motifs biologiques
En collaboration avec le groupe de recherche Large graphs and networks
Plusieurs mesures de
similarité dans les graphes et réseaux ont été
proposées ces dernières
années et les liens que ces définitions entretiennent
entre elles ne sont pas clairement identifiés. Dans ce
mémoire, nous souhaitons présenter les différentes mesures
de manière unifiée, fournir une
interprétation pour certaines d'entre-elles au moyen de marches
aléatoires et, finalement, envisager l'application de certaines
de ces méthodes pour l'extraction de motifs dans des
réseaux biologiques.
- Références
- Vertex
similarity in networks
E.
A. Leicht, Petter Holme,
M.
E. J. Newman
Phys. Rev. E 73, 026120 (2006).
- Vincent D. Blondel, Anahí Gajardo, Maureen Heymans, Pierre Senellart, Paul Van
Dooren
- A measure of similarity between graph vertices. With
applications to synonym extraction and web searching
- SIAM Review, 46:4,
pp. 647-666, 2004.
R Milo, S Shen-Orr, S Itzkovitz, N Kashtan, D Chklovskii & U Alon,
Network Motifs: Simple Building Blocks of Complex Networks
Science, 298:824-827 (2002).
-
Effet de la topologie d'un réseau sur la propagation d'épidémies
- En collaboration avec le groupe de recherche Large graphs and networks
- Collaboration éventuelle avec A. Ganesh (Microsoft Research, Cambridge)
Un grand nombre de
phénomènes sont modélisés par la
propogation d'épidémies sur des réseaux. Dans certains cas l'épidémie
n'est pas souhaitée (comme
dans le cas d'un virus ou d'un virus informatique) et on recherche
alors des stratégies optimales pour éviter ou
atténuer la propagation (par vaccination par exemple); dans
d'autres cas le
souhait peut être d'obtenir une propagation aussi rapide que
possible (par exemple lorsqu'il s'agit de transmettre rapidemment une
information
à toute une population). Dans ce mémoire on
réalisera d'abord un compte-rendu des approches possibles de
tels
phénomènes. On s'intéressera ensuite à la
quantification, pour un modèle
particulier, de la vitesse de propagation de l'épidémie
et la dépendance de cette vitesse pour
différentes topologies de réseau ("random", "scale-free",
"small-world"). On considèrera ensuite la possibilité
d'étendre les résultats actuels à une situation
dans laquelle le réseau évolue avec le temps. Une
première analyse de ce problème semble faire
apparaître de nouvelles questions qui se lient de manière
élégante à des résultats récents
obtenus pour le calcul du rayon spectral conjoint.
Références
The
effect of network topology on the spread of epidemics, A. Ganesh, L. Massoulié, D. Towsley, Proc. IEEE Infocom, 2005.
Designing a
Contact Process : The Piecewise-Homogeneous Process on a Finite Set with
Applications, Aaron Wagner and Venkat Anantharam, Stochastic
Processes and their Applications, Vol. 115, No. 1, pp. 117 -153, January 2005.
Efficient algorithms for deciding the
type of growth of products of integer matrices, Raphaël Jungers,
Vladimir Protasov, Vincent D. Blondel, Preprint, 2006
Physique et informatique
Le professeur M. Mézard est sur le point de publier un livre (disponible sur le web gratuitement à l'adresse http://ipnweb.in2p3.fr/~lptms/membres/mezard/, voir aussi la référence plus bas) intitulé: Constraint Satisfaction Networks in Physics and Computation.
L'ouvrage est passionnant et ouvre de nombreuses perspectives
innovantes à la frontière entre physique et informatique
théorique. Presque chaque chapitre du livre peut faire l'objet
d'une introduction à un sujet de mémoire. Nous avons un
intérêt tout particulier pour les aspects liés
à la propagation de croyance ("belief propagation") ainsi qu'aux
développements relatifs aux fascinants verres de spin ("spin
glasses").
Référence
Passing Messages Between Disciplines, Marc Mézard, Science 19 September 2003, Vol. 301. no. 5640, pp. 1685 - 1686